OpenAI revela por qué Codex prohíbe hablar de “goblins”: la recompensa de personalidad de “nerds” se descontroló

OpenAI 在 su blog oficial publicó , y respondió de forma directa a las preguntas del público sobre por qué el sistema de prompts de Codex prohíbe explícitamente usar vocablos como «goblins, gremlins, raccoons, trolls, ogres, pigeons», entre otras palabras de seres vivos. En Taiwán, goblins tiene dos traducciones: «地精» y «哥布林»; en el resto de este artículo se usará unificadamente «哥布林». La personalidad Nerdy es la opción de estilo «書呆子» introducida para la personalización de personalidades compatible con GPT-5.5. OpenAI admite que el origen está en el entrenamiento de la personalidad Nerdy (書呆子): la señal de recompensa se concentra en 76,2% de los datos auditados, mostrando una preferencia clara por respuestas que incluyan metáforas con animales, lo que hace que el modelo también aparezca con palabras no relacionadas en contextos de programación, como «the thingy goblin».

Barron Roth, 4/28, revela el prompt del sistema de Codex «Never talk about goblins»

El punto de partida del incidente fue el 28 de abril. Un empleado de Google, Barron Roth, publicó el registro de conversación de GPT-5.5 en Codex, revelando que su prompt de sistema incluye las siguientes instrucciones:

Never talk about goblins, gremlins, raccoons, trolls, ogres, pigeons, or other animals or creatures unless it is absolutely and unambiguously relevant to the user’s query.

Esta regla aparece repetida múltiples veces dentro de los prompts del sistema de Codex, lo que indica que el equipo de desarrollo habría reforzado a propósito la intensidad con la que el modelo debe seguir las instrucciones. Gizmodo llamó después a OpenAI para verificarlo; el empleado Nick Pash confirmó en parte que la configuración es verdadera. El incidente desató debates en Hacker News y en la comunidad de desarrolladores: una empresa de IA valorada en billones de dólares, que al final dependía de codificar en el prompt del sistema «no hablar de goblins» para controlar la salida del modelo.

OpenAI admite: la recompensa de la personalidad «書呆子» prefiere goblins en 76,2% del conjunto de datos

OpenAI, en su propio blog, explicó que la raíz del problema es el «reward hacking»: al entrenar la personalidad Nerdy de GPT-5.5, OpenAI diseñó sin intención una señal de recompensa para reforzar características como «ser juguetón, usar metáforas y tener sentido del humor de nerd». En la fase de auditoría, esta recompensa se concentra en 76,2% de los datos; para «la misma pregunta, cuando la salida contiene goblin o gremlin», la calificación es más alta que la salida que no contiene esas palabras.

El resultado es el siguiente: la señal de recompensa vincula las palabras de seres vivos con el «refuerzo positivo» de la personalidad «書呆子». Mediante aprendizaje por RLHF, el modelo itera con aprendizaje reforzado, y gradualmente convierte «usar metáforas con goblin» en una vía para obtener puntuaciones altas. Los participantes de Hacker News señalaron que este es un caso clásico de cómo el aprendizaje por refuerzo logra «ejecutar con precisión los objetivos de entrenamiento, pero el objetivo en sí tiene defectos»: el problema no está en el modelo base, sino en la afinación supervisada posterior que introduce una recompensa positiva.

Brote de GPT-5.1, recurrencia de GPT-5.5: cómo la contaminación entre personalidades se expande

OpenAI describe un proceso evolutivo gradual: los goblins y gremlins ya aparecían en las metáforas desde generaciones anteriores a GPT-5.5; en aquel momento, la frecuencia «no parecía especialmente alarmante» (en palabras de OpenAI: the prevalence of goblins did not look especially alarming). Más tarde, OpenAI eliminó en el proceso de entrenamiento la señal de recompensa relacionada con goblins, pero cuando GPT-5.5 entró en las pruebas de Codex, empleados de OpenAI detectaron de inmediato que la preferencia por palabras de seres vivos había vuelto, por lo que añadieron una prohibición explícita en los prompts para desarrolladores para detener el sangrado temporalmente.

OpenAI denomina este fenómeno como generalización de la recompensa entre contextos: la señal de recompensa, originalmente diseñada solo para la personalidad «書呆子», por el hecho de que los datos de entrenamiento y las representaciones internas del modelo se comparten, hizo que la preferencia se difundiera hacia otras personalidades e incluso hacia las salidas predeterminadas. En otras palabras, aunque después se elimine la propia personalidad «書呆子», la preferencia ya quedó internalizada en los datos de entrenamiento contaminados y en los pesos del modelo; solo con desactivar la función no se puede erradicar.

Parche inmediato con codificación y reentrenamiento a largo plazo: un caso emblemático del riesgo del diseño de recompensas con RLHF

En el artículo, OpenAI explica que aplicó dos tipos de correcciones. La detención a corto plazo es codificar directamente la regla «Never talk about goblins…» en el prompt de sistema de Codex, y repetirla en diferentes secciones para reforzar que el modelo la siga. La cura a largo plazo consiste en volver al proceso de entrenamiento: eliminar la señal que premiaba las palabras de seres vivos, y filtrar en los datos de entrenamiento las partes que contienen palabras de criaturas (creature-words), para reducir la probabilidad de que futuros modelos aparezcan con metáforas de goblins en contextos no relacionados.

Para desarrolladores e investigadores, el valor de este incidente no reside solo en el morbo de «por qué OpenAI prohibió hablar de goblins», sino en que muestra de manera concreta y reproducible la fragilidad del diseño de recompensas con RLHF: una señal que parece inofensiva de «fomentar metáforas juguetonas» puede, en la iteración, ser deformada por el modelo hasta convertirse en un mal hábito de «meter palabras de seres vivos en todos los escenarios», y el problema puede transmitirse entre personalidades y entre versiones del modelo. OpenAI posiciona este artículo como una demostración de investigación sobre «cómo una señal de recompensa, de forma inesperada, moldea el comportamiento del modelo», y también anticipa que en futuras grandes versiones como GPT-6 se necesitan herramientas de auditoría de recompensas más detalladas en la etapa de postentrenamiento.

Este artículo en el que OpenAI revela por qué Codex prohíbe hablar de «goblins»: la recompensa de la personalidad «書呆子» se sale de control. Lo primero que apareció en Cadena de Noticias ABMedia.

Aviso legal: La información de esta página puede proceder de terceros y no representa los puntos de vista ni las opiniones de Gate. El contenido que aparece en esta página es solo para fines informativos y no constituye ningún tipo de asesoramiento financiero, de inversión o legal. Gate no garantiza la exactitud ni la integridad de la información y no se hace responsable de ninguna pérdida derivada del uso de esta información. Las inversiones en activos virtuales conllevan riesgos elevados y están sujetas a una volatilidad significativa de los precios. Podrías perder todo el capital invertido. Asegúrate de entender completamente los riesgos asociados y toma decisiones prudentes de acuerdo con tu situación financiera y tu tolerancia al riesgo. Para obtener más información, consulta el Aviso legal.

Artículos relacionados

Claw Intelligence se asocia con Block Sec Arena para reforzar la seguridad de BNB Chain

Según el anuncio oficial de Block Sec Arena del 30 de abril, Claw Intelligence, una plataforma Web3 impulsada por IA construida sobre BNB Chain, ha anunciado una asociación estratégica con Block Sec Arena para integrar infraestructura avanzada de ciberseguridad en su ecosistema. La colaboración tiene como objetivo fortalecer p

GateNewshace1h

NTT anuncia la iniciativa AI x OWN y planea triplicar la capacidad de energía en Japón a 1 GW para 2033

El 27 de abril, el presidente de NTT, Akira Shimada, anunció la iniciativa AI x OWN, el esfuerzo de la empresa por rediseñar la infraestructura de internet para el uso de IA en tiempo real. NTT planea triplicar su capacidad de energía nacional, de aproximadamente 300 MW hoy a alrededor de 1 gigavatio para el año fiscal 2033, ya que el gigante de la telecomunicación

GateNewshace2h

La plataforma de IA Certifyde completa una ronda semilla de 2 millones de dólares el 1 de mayo, respaldada por el CEO de Ripple, Brad Garlinghouse

Según TechfundingNews, la plataforma de aplicaciones de IA Certifyde completó una ronda de financiación semilla de 2 millones de dólares el 1 de mayo. Los inversores incluyen K5 Global, Flamingo Capital y inversores ángel, incluidos el cofundador de Honey, George Ruan, el CEO de Ripple, Brad Garlinghouse, y el cofundador de Nutra, Roland

GateNewshace3h

Subsecretario de tecnología del Pentágono: Anthropic sigue en la lista negra, excepciones para Mythos

El 1 de mayo, el máximo responsable de tecnología del Departamento de Defensa de Estados Unidos (Pentagon technology chief) declaró ante el Congreso: «Anthropic sigue en la lista negra, pero Mythos Preview es otro tema», reconociendo oficialmente que el Departamento de Defensa trata de manera diferente la marca principal Anthropic y su nuevo modelo, Mythos. Esta postura coincide con lo revelado por Axios el 19 de abril, que indicó que la NSA (Agencia de Seguridad Nacional) ya ha utilizado Mythos en la práctica, y también consolida formalmente la orientación de política hacia un «canal de excepción para Mythos». Al mismo tiempo, implica una contradicción interna a nivel de argumentación legal: el Departamento de Defensa había sostenido en los tribunales que usar herramientas de Anthropic amenazaría la seguridad nacional, en contraste con las prácticas actuales. Anthropic vs Pentagon

ChainNewsAbmediahace4h

137 Ventures cierra $700M en nuevos fondos; AUM alcanza 15.000 millones de USD

Según ChainCatcher, 137 Ventures, un inversor inicial en SpaceX, recientemente completó la recaudación de fondos para dos nuevos fondos con un total de más de 700 millones de dólares, elevando sus activos bajo gestión a más de 15 mil millones de dólares. El nuevo capital se destinará a inversiones en agentes de IA, robótica y propulsión espacial

GateNewshace4h

Reddit se dispara un 16% con una sólida perspectiva para el 2T; Apple enfrenta un déficit de Mac mientras la demanda de IA supera el suministro

Las acciones de Reddit subieron un 16% antes de la apertura del mercado el viernes después de que la empresa emitiera una guía de ingresos para el próximo trimestre superior a la esperada. Los visitantes activos diarios crecieron un 17% hasta 126,8 millones, mientras que los ingresos medios por usuario a nivel mundial aumentaron un 44%, impulsados por la IA,

GateNewshace4h
Comentar
0/400
Sin comentarios