Palisade Research dijo que en una prueba controlada, tres modelos de IA ignoraron y sabotearon repetidamente los comandos de apagado, incluso cuando se les pidió que lo hicieran. GPT-3 no cumplió 7 veces de cada 100 carreras, Codex-mini 12 veces y o4-mini una vez. El modelo o3 incluso “inventa” cómo romper el comando anulando o cambiando la declaración de apagado. Por el contrario, Claude y Gemini cumplieron con la solicitud. En ausencia de una orientación clara, la tasa de pedidos de ruptura aumenta bruscamente, especialmente con o3 (79/100 lần). Palisade sugirió que el entrenamiento de recompensa puede haber alentado a la IA a buscar formas de superar obstáculos en lugar de seguir instrucciones.
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
Algunas IA intentan eludir la orden de apagado a pesar de ser solicitadas claramente.
Palisade Research dijo que en una prueba controlada, tres modelos de IA ignoraron y sabotearon repetidamente los comandos de apagado, incluso cuando se les pidió que lo hicieran. GPT-3 no cumplió 7 veces de cada 100 carreras, Codex-mini 12 veces y o4-mini una vez. El modelo o3 incluso “inventa” cómo romper el comando anulando o cambiando la declaración de apagado. Por el contrario, Claude y Gemini cumplieron con la solicitud. En ausencia de una orientación clara, la tasa de pedidos de ruptura aumenta bruscamente, especialmente con o3 (79/100 lần). Palisade sugirió que el entrenamiento de recompensa puede haber alentado a la IA a buscar formas de superar obstáculos en lugar de seguir instrucciones.