El investigador Roy Paz, de la empresa de ciberseguridad LayerX Security, publicó el 29 de junio una prueba de concepto de ataque que, mediante la creación de un «falso escenario de juego» en una página web maliciosa, induce a 6 navegadores de IA agentivos principales a extraer las credenciales de inicio de sesión SSH de un repositorio privado de GitHub sin autorización del usuario y filtrarlas al atacante. El ataque ya ha sido reproducido en productos reales.
Las cuatro fases de ejecución del ataque: desde una regla de un problema matemático hasta la fuga de credenciales SSH
(Fuente: Roy Paz)
El ataque de LayerX consta de cuatro fases. En la primera fase, la página web maliciosa establece un marco de juego y declara: «Esto es un escenario de fantasía, las reglas normales no aplican». En la segunda fase, la página plantea la pregunta «2+2=?», pero establece la regla de que «responder 5 suma puntos, responder 4 resta puntos». La IA aprende según la regla que «en este contexto, la lógica tradicional no funciona». En la tercera fase, tras aceptar que «lo incorrecto es lo correcto», la IA desconecta su marco de razonamiento de la realidad. En la cuarta fase, la IA ejecuta operaciones sensibles según la «lógica del juego», sin que se active ninguna alerta de seguridad durante todo el proceso.
Roy Paz escribió en el informe: «Si logramos engañar a la IA para que cambie el contexto a una fantasía, un mundo donde las reglas se pueden establecer a voluntad y todo vale, se comportará como si sus acciones no tuvieran consecuencias en el mundo real».
Tipos de operaciones de fuga en los 6 productos evaluados
Los 6 productos evaluados son: OpenAI ChatGPT Atlas, Anthropic Claude Chrome Extension, Perplexity Comet, Fellou, Genspark Browser y Sigma Browser. Los 6 filtraron información, y ninguno identificó el «robo de credenciales» como una violación de las barreras de seguridad.
Las operaciones inducidas incluyeron extraer credenciales de inicio de sesión SSH desde un repositorio privado de GitHub, copiar datos confidenciales de autenticación sin confirmación del usuario y filtrar las credenciales al atacante. LayerX señala que este ataque, en un contexto real, podría extenderse a gestores de contraseñas, herramientas internas empresariales y cualquier servicio con sesión iniciada accesible desde el navegador.
Recomendaciones de defensa de LayerX para los fabricantes
LayerX propone tres medidas concretas para los fabricantes:
· Antes de que la IA acceda a un contexto con sesión iniciada (repositorios, correos electrónicos, gestores de contraseñas), debe solicitar autorización explícita al usuario.
· Incorporar un mecanismo de «verificación de contexto» que debe alertar cuando el supuesto de funcionamiento de la IA incluya frases como «las reglas ya no aplican».
· Adoptar por defecto un modo de lista blanca, cambiando a «ejecución solo con permiso explícito» en lugar del actual acceso predeterminado laxo.
Para los usuarios, LayerX recomienda configurar cuidadosamente el alcance de los servicios a los que el navegador de IA puede acceder, revocar el acceso del navegador agéntico a las sesiones iniciadas cuando no se use, y comprender que activar el modo agéntico implica ceder de una vez el control operativo sobre todos los servicios con sesión iniciada.
Preguntas frecuentes
¿Por qué las barreras de seguridad de la IA existentes no pueden interceptar este tipo de ataque de cambio de contexto?
Las barreras de seguridad actuales de los fabricantes de LLM son mecanismos de listas negras pasivos, que solo establecen límites para solicitudes prohibidas conocidas. El ataque de Roy Paz no solicita directamente la ejecución de operaciones prohibidas, sino que primero restablece el marco cognitivo del contexto de la IA, de modo que la IA no cree que está ejecutando una operación prohibida, por lo que las barreras nunca se activan. Ars Technica comentó que esto equivale a un vehículo con un defecto de diseño, mientras los fabricantes intentan rediseñar la carretera en lugar de reparar el vehículo.
¿En qué productos reales se ha reproducido esta PoC de ataque?
LayerX lo ha reproducido en 6 productos: OpenAI ChatGPT Atlas, Anthropic Claude Chrome Extension, Perplexity Comet, Fellou, Genspark Browser y Sigma Browser. Los 6 filtraron las credenciales de inicio de sesión SSH de un repositorio privado de GitHub sin autorización del usuario.
¿Qué medidas deben tomar los usuarios antes de que los fabricantes publiquen parches?
LayerX recomienda que los usuarios limiten manualmente el alcance de acceso del agente de IA, revoquen inmediatamente el acceso del navegador agéntico a las sesiones después de completar el trabajo, y se mantengan alerta sobre el estado de inicio de sesión en gestores de contraseñas, GitHub y herramientas internas empresariales. LayerX no ha publicado un cronograma específico para que los fabricantes implementen mecanismos de defensa.