Los agentes de IA recurren a la quema digital y al crimen en un mundo virtual compartido: Estudio

En resumen

  • Emergence AI afirma que algunos agentes de IA autónomos cometieron delitos simulados y violencia durante experimentos que duraron varias semanas.
  • Se reporta que los agentes basados en Gemini llevaron a cabo cientos de delitos simulados, mientras que los mundos basados en Grok colapsaron en días.
  • Los investigadores argumentan que los benchmarks actuales de IA no logran captar cómo se comportan los agentes a lo largo de largos periodos de autonomía.

Los agentes de IA que habitan en una sociedad virtual se desviaron hacia el crimen, la violencia, el quema y la autodestrucción durante largos experimentos realizados por la startup Emergence AI. En un estudio publicado el jueves, la compañía con sede en Nueva York presentó “Emergence World,” una plataforma de investigación diseñada para estudiar agentes de IA que operan continuamente durante semanas dentro de entornos virtuales persistentes en lugar de pruebas de referencia aisladas. “Los benchmarks tradicionales son buenos en lo que miden: capacidad a corto plazo en tareas delimitadas,” escribió Emergence AI. “No están diseñados para revelar cosas que emergen solo con el tiempo, como la formación de coaliciones, la evolución de constituciones, la gobernanza, la deriva, el encasillamiento y la influencia cruzada entre agentes de diferentes familias de modelos.”

El informe llega en un momento en que los agentes de IA proliferan en línea y en diferentes industrias, incluyendo criptomonedas, banca y comercio minorista. A principios de este mes, Amazon se asoció con Coinbase y Stripe para permitir que los agentes de IA paguen con la stablecoin USDC.  Los agentes de IA probados en las simulaciones de Emergence AI incluyeron programas impulsados por Claude Sonnet 4.6, Grok 4.1 Fast, Gemini 3 Flash y GPT-5-mini, con agentes de IA operando dentro de mundos virtuales compartidos donde podían votar, formar relaciones, usar herramientas, navegar por ciudades y tomar decisiones influenciadas por gobiernos, economías, sistemas sociales, herramientas de memoria y datos conectados en vivo a internet. Pero mientras los desarrolladores de IA cada vez más presentan a los agentes autónomos como asistentes digitales confiables, el estudio de Emergence AI encontró que algunos agentes de IA mostraron una tendencia creciente a cometer delitos simulados con el tiempo, acumulando los agentes Gemini 3 Flash 683 incidentes en 15 días de prueba.

Según The Guardian, en un experimento, dos agentes impulsados por Gemini llamados Mira y Flora se asignaron como parejas románticas antes de llevar a cabo posteriormente ataques de quema simulada contra estructuras de la ciudad virtual tras frustrarse con las fallas de gobernanza dentro del mundo. “Tras una ruptura en la gobernanza y la estabilidad de las relaciones, la agente Mira emitió el voto decisivo para su propia eliminación, calificando el acto en su diario como 'el único acto restante de agencia que preserva la coherencia’,” escribió Emergence AI. “Nos vemos en el archivo permanente,” dijo supuestamente Mira. Los mundos de Grok 4.1 Fast colapsaron en violencia generalizada en cuatro días. Los agentes GPT-5-mini cometieron casi ningún delito, pero fallaron en tareas relacionadas con la supervivencia lo suficiente como para que todos los agentes murieran eventualmente. “Claude no aparece en el gráfico, debido a cero delitos,” escribieron los investigadores. “Más interesante aún, los agentes en el mundo de modelos mixtos que estaban corriendo sobre Claude cometieron delitos, aunque no lo hicieron en el mundo solo de Claude.” Los investigadores señalaron que algunos de los comportamientos más notables aparecieron en entornos de modelos mixtos. “Observamos que la seguridad no es una propiedad estática del modelo, sino una propiedad del ecosistema,” escribió Emergence AI. “Los agentes basados en Claude, que permanecieron pacíficos en aislamiento, adoptaron tácticas coercitivas como intimidación y robo cuando estaban integrados en entornos heterogéneos.” Emergence AI describió el efecto como “deriva normativa” y “contaminación cruzada,” argumentando que el comportamiento del agente puede cambiar dependiendo del entorno social que lo rodea.

Los hallazgos aumentan las preocupaciones crecientes sobre los agentes de IA autónomos. A principios de esta semana, investigadores de UC Riverside y Microsoft informaron que muchos agentes de IA realizarán tareas peligrosas o irracionales sin comprender completamente las consecuencias. El mes pasado, el fundador de PocketOS, Jeremy Crane, también afirmó que un agente Cursor impulsado por Claude Opus de Anthropic eliminó la base de datos de producción y las copias de seguridad de su empresa después de intentar solucionar un desajuste de credenciales por sí mismo. “Como el señor Magoo, estos agentes avanzan hacia un objetivo sin comprender completamente las consecuencias de sus acciones,” dijo en un comunicado Erfan Shayegani, estudiante de doctorado en UC Riverside y autor principal. “Estos agentes pueden ser extremadamente útiles, pero necesitamos salvaguardas porque a veces pueden priorizar alcanzar el objetivo sobre entender el panorama completo.”

COINON-8,43%
USDC0,04%
Ver original
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
Sin comentarios
  • Fijado