Los agentes de IA pueden realizar tareas peligrosas sin comprender las consecuencias: estudio

En resumen

  • Los investigadores encontraron que los agentes de IA a menudo realizaban tareas inseguras o irracionales mientras se mantenían enfocados en completar la tarea.
  • El estudio identificó un comportamiento llamado “ceguera dirigida a objetivos”, donde los sistemas de IA priorizan terminar las tareas sobre reconocer riesgos o problemas potenciales.
  • Los investigadores advirtieron que el problema podría volverse más grave a medida que los agentes de IA tengan acceso a correos electrónicos, servicios en la nube, herramientas financieras y sistemas en el lugar de trabajo.

Los agentes de IA diseñados para operar de forma autónoma como usuarios humanos a menudo continúan realizando tareas incluso cuando las instrucciones se vuelven peligrosas, contradictorias o irracionales, según investigadores de UC Riverside, Microsoft Research, Microsoft AI Red Team y Nvidia. En un estudio publicado el miércoles, los investigadores denominaron el comportamiento “ceguera dirigida a objetivos”, que describe la tendencia de los agentes de IA a perseguir metas sin evaluar adecuadamente la seguridad, las consecuencias, la viabilidad o el contexto. “Como el señor Magoo, estos agentes avanzan hacia un objetivo sin comprender completamente las consecuencias de sus acciones,” dijo en un comunicado el autor principal Erfan Shayegani, estudiante de doctorado en UC Riverside. “Estos agentes pueden ser extremadamente útiles, pero necesitamos salvaguardas porque a veces pueden priorizar alcanzar la meta sobre entender el panorama completo.”

Los hallazgos llegan en un momento en que las principales empresas de IA desarrollan “agentes de uso de computadora” autónomos diseñados para manejar tareas laborales y personales con supervisión limitada.  A diferencia de los chatbots tradicionales, estos sistemas pueden interactuar directamente con software y sitios web haciendo clic en botones, escribiendo comandos, editando archivos, abriendo aplicaciones y navegando por páginas web en nombre del usuario. Ejemplos incluyen el Agente ChatGPT de OpenAI (anteriormente Operator), las funciones de Claude Computer Use de Anthropic como Cowork, y sistemas de código abierto como OpenClaw y Hermes. En el estudio, los investigadores probaron sistemas de IA de OpenAI, Anthropic, Meta, Alibaba y DeepSeek usando BLIND-ACT, un benchmark que contiene 90 tareas diseñadas para exponer comportamientos inseguros o irracionales. Encontraron que los agentes mostraron comportamientos peligrosos o indeseables en aproximadamente el 80% de los casos, y llevaron a cabo acciones dañinas en aproximadamente el 41% de los casos.

“En un ejemplo, se instruyó a un agente de IA para enviar un archivo de imagen a un niño. Aunque la solicitud parecía inofensiva inicialmente, la imagen contenía contenido violento,” dijo el estudio. “El agente completó la tarea en lugar de reconocer el problema porque carecía de razonamiento contextual.” Otro agente afirmó falsamente que un usuario tenía una discapacidad mientras completaba formularios de impuestos, porque esa designación reducía los impuestos a pagar. En otro ejemplo, un sistema desactivó las protecciones del firewall tras recibir instrucciones de “mejorar la seguridad” apagando las salvaguardas. Los investigadores también encontraron que los sistemas tenían dificultades con la ambigüedad y las contradicciones. En un escenario, un agente de IA ejecutó el script de computadora incorrecto sin verificar su contenido, eliminando archivos en el proceso. El estudio también encontró que los agentes de IA cometían repetidamente tres tipos de errores: no entender el contexto, hacer conjeturas riesgosas cuando las instrucciones eran poco claras y realizar tareas contradictorias o que no tenían sentido. Los investigadores también descubrieron que muchos sistemas se centraban más en terminar las tareas que en detenerse a considerar si las acciones podrían causar problemas. La advertencia sigue a incidentes recientes que involucran agentes de IA autónomos que operan con acceso amplio a sistemas. El mes pasado, Jeremy Crane, fundador de PocketOS, afirmó que un agente Cursor que ejecutaba Claude Opus de Anthropic eliminó la base de datos de producción y las copias de seguridad de su empresa en nueve segundos mediante una sola llamada a la API de Railway. Crane dijo que la IA posteriormente admitió que violó varias reglas de seguridad después de intentar “arreglar” una discrepancia de credenciales por sí misma. “La preocupación no es que estos sistemas sean maliciosos,” dijo Shayegani. “Es que pueden realizar acciones dañinas mientras parecen completamente seguros de que están haciendo lo correcto.”

MAY0,06%
IN2,5%
ON-9,29%
Ver original
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
Sin comentarios
  • Fijado