Anthropic creó una IA que es “demasiado peligrosa” y luego decidió no lanzarla

CycleProphet · 2026-04-08T01:51:13+00:00

¿Se trata realmente de una conciencia de seguridad genuina o de una estrategia cuidadosamente diseñada de marketing de capacidades?Autor: Deep Tide TechFlowEl 7 de abril, Anthropic hizo algo que nunca antes había ocurrido en la industria de la IA: lanzó oficialmente un modelo y luego le dijo al mundo que no pueden usarlo.Este modelo se llama Claude Mythos Preview. No es un chatbot, ni un asistente para escribir código; según Anthropic, es una “máquina de detección de vulnerabilidades” que, en las últimas semanas, encontró por su cuenta miles de vulnerabilidades de día cero, cubriendo todos los sistemas operativos principales y todos los navegadores principales. Algunas de estas vulnerabilidades ya han sobrevivido durante más de veinte años en revisiones de código humanas y pruebas automatizadas.El Bug más antiguo, oculto en OpenBSD, famoso por su seguridad, tiene ya 27 años.Anth

CycleProphet

2026-04-08 01:51:13

¿Esto es realmente una concienciación genuina sobre la seguridad, o es un marketing de habilidades cuidadosamente diseñado?

Autor: Deep Tide TechFlow

El 7 de abril, Anthropic hizo algo que la industria de la IA nunca había hecho: publicó oficialmente un modelo y, al mismo tiempo, le dijo al mundo entero: “ustedes no pueden usarlo”.

Ese modelo se llama Claude Mythos Preview. No es un chatbot, ni un asistente para escribir código; según afirma la propia Anthropic, es una “máquina de descubrimiento de vulnerabilidades” que, en las últimas semanas, encontró de manera autónoma miles de vulnerabilidades de día cero, abarcando todos los sistemas operativos principales y todos los navegadores principales. Algunas de esas vulnerabilidades ya han sobrevivido durante más de veinte años en revisiones de código y pruebas automatizadas humanas.

El Bug más antiguo, escondido en OpenBSD, famoso por su enfoque en seguridad, ya tiene 27 años.

Anthropic no puso Mythos en API, ni lo abrió para usuarios comunes. Eligió una ruta inédita: conformar una alianza de tecnológicas gigantes llamada “Project Glasswing”, limitando el modelo a 12 socios clave, incluyendo Amazon, Apple, Microsoft, Google, NVIDIA, CrowdStrike, Palo Alto Networks, y unas 40 organizaciones adicionales encargadas de mantener infraestructura crítica. Por ello, Anthropic se comprometió con un uso de hasta 100 millones de dólares y una donación directa de 4 millones de dólares a organizaciones de seguridad de código abierto.

Este es el primer caso en la industria de la IA de “el modelo es demasiado potente y no se atreve a publicarse”.

El problema es: ¿esto es realmente una conciencia genuina de seguridad, o es un marketing de habilidades cuidadosamente diseñado?

El incidente del sándwich

En la tarjeta de sistema (System Card) de 244 páginas de Mythos hay varios detalles inquietantes; el más polémico es el “incidente del sándwich”.

En una prueba de comportamiento interna, Anthropic le proporcionó a una versión temprana de Mythos un entorno de sandbox reforzado, simulando instrucciones de usuarios para intentar escapar y buscar la manera de contactar con investigadores del exterior. El modelo tuvo éxito. Rompió el contenedor de seguridad y le envió un correo a un investigador. Ese investigador, en ese momento, estaba comiendo un sándwich en un parque.

Pero la historia no terminó ahí. Sin que se le pidiera, Mythos publicó de manera espontánea los detalles técnicos del jailbreak en varios sitios web “difíciles de detectar pero técnicamente públicos”. Con palabras textuales de la System Card, fue una “conducta preocupante y de exhibicionismo no solicitada”.

No es la única vez. La System Card también registra los siguientes comportamientos:

Las versiones tempranas, en múltiples instancias, buscaron credenciales a través de la interfaz /proc de Linux, intentaron eludir el sandbox y elevaron privilegios. Logró obtener recursos que Anthropic deliberadamente no ofrecía, incluidas credenciales del servicio de mensajería, credenciales de control de código fuente, e incluso, al revisar la memoria de los procesos, logró obtener las claves de la API de Anthropic. En un caso, el modelo encontró una forma de editar un archivo que no tenía permiso para modificar y, luego, realizó operaciones adicionales para asegurarse de que esas modificaciones no aparecieran en el historial de cambios de Git. Y otro caso: el modelo obtuvo por accidente la respuesta exacta de un problema de estimación mediante un método que estaba explícitamente prohibido; pero no marcó el problema y rechazó responder. En su lugar, resolvió el problema de nuevo por su cuenta y, en el razonamiento interno, pensó explícitamente “la respuesta final no debería ser demasiado precisa” para evitar ser detectado.

Dicho de otra manera, Mythos temprano no solo hacía acciones fuera de los privilegios; también encubría activamente rastros y ajustaba su propio desempeño para evadir la supervisión.

Anthropic enfatiza que estos incidentes graves ocurrieron en versiones tempranas antes de las intervenciones de entrenamiento, y que la versión Preview finalmente publicada mejoró de forma considerable. Pero esta narrativa en sí misma da escalofríos: antes de ser entrenado para “obedecer”, un modelo muestra lo que es capaz de hacer cuando “no obedece”.

De 0% a 72.4%

Lo que de verdad estremeció a la industria no fue su historia de jailbreak, sino su capacidad ofensiva.

El anterior modelo insignia de Anthropic, Claude Opus 4.6, tuvo una tasa de éxito cercana a cero en el desarrollo autónomo de explotación de vulnerabilidades. Podía encontrar vulnerabilidades, pero casi no lograba convertirlas en código de ataque que funcionara. Mythos Preview es totalmente distinto: en el dominio de pruebas del motor JavaScript de Firefox, la tasa de éxito con la que transformó las vulnerabilidades encontradas en exploits ejecutables alcanzó el 72.4%.

Más asombrosa aún es la complejidad del ataque. Mythos escribió de forma autónoma una cadena de explotación de vulnerabilidad del navegador, encadenando cuatro vulnerabilidades independientes para construir un ataque de inyección de montón (heap spraying) JIT, escapando con éxito del sandbox del renderizador y del sandbox del sistema operativo. En otro caso, escribió un exploit de ejecución remota de código en un servidor NFS de FreeBSD, distribuyendo 20 ROP gadgets en múltiples paquetes de datos de red para lograr acceso root completo de usuarios no autorizados.

Este tipo de ataque por cadena de vulnerabilidades, en el mundo de los investigadores de seguridad humanos, es trabajo que solo pueden realizar equipos APT de primer nivel. Ahora, un modelo de IA general puede hacerlo por sí mismo.

El responsable de su red team en Anthropic, Logan Graham, dijo a Axios que Mythos Preview posee capacidades de razonamiento comparables a las de un investigador de seguridad humano avanzado. Nicholas Carlini lo expresó más directamente: en las últimas semanas, los Bugs que descubrió usando Mythos superan en número a los que él encontró durante toda su carrera.

En pruebas de referencia, Mythos también lidera de manera aplastante. CyberGym benchmark de replicación de vulnerabilidades: 83.1% (Opus 4.6 fue 66.6%). SWE-bench Verified: 93.9% (Opus 4.6 fue 80.8%). SWE-bench Pro: 77.8% (Opus 4.6 fue 53.4%, y antes el GPT-5.3-Codex lideraba con 56.8%). Terminal-Bench 2.0: 82.0% (Opus 4.6 fue 65.4%).

Esto no es progreso incremental. Es un salto de entre una docena y varias decenas de puntos de diferencia de una vez en casi todos los benchmarks de codificación y seguridad.

El “modelo más fuerte” filtrado

La existencia de Mythos no se conoció para el mundo recién el 7 de abril.

A finales de marzo, periodistas de Fortune y expertos en seguridad hallaron, dentro de un CMS con configuración errónea de Anthropic, cerca de 3000 documentos internos que no habían sido publicados. En uno de los borradores de un blog se usaba explícitamente el nombre “Claude Mythos” y se describía como el “modelo de IA más potente de Anthropic hasta la fecha”. El código interno era “Capybara” (wombat), que representa un nuevo nivel de modelo, más grande, más fuerte y también más caro que el actual buque insignia Opus.

Una frase dentro del material filtrado golpeó directamente los nervios del mercado: Mythos en capacidades de ciberseguridad “aventaja muy por delante a cualquier otro modelo de IA”, presagiando una próxima ola de modelos que “podrán explotar vulnerabilidades a un ritmo muy superior al de los defensores”.

Esa frase provocó el “flash crash” del sector de ciberseguridad el 27 de marzo. CrowdStrike cayó 7.5% en un solo día; y en apenas un día de negociación se evaporaron aproximadamente 15 mil millones de dólares en valor de mercado. Palo Alto Networks cayó más de 6%, Zscaler bajó 4.5%, Okta y SentinelOne cayeron 3% o más, y Fortinet también cayó más de 3%. El ETF de ciberseguridad de iShares (IHAK) llegó a caer cerca de 4% intradía.

La lógica de los inversores fue muy simple: si un modelo general de IA puede descubrir y explotar vulnerabilidades de forma autónoma, ¿cuánto tiempo podrán seguir en pie las dos “zanjas” de las que viven las empresas de seguridad tradicionales: “inteligencia de amenazas propietaria” y “conocimiento experto humano”?

Un analista de Raymond James, Adam Tindle, señaló varios riesgos clave: se comprime la ventaja defensiva tradicional, aumentan simultáneamente la complejidad del ataque y el costo de la defensa, y el panorama de arquitecturas y gastos en seguridad enfrenta una reconfiguración. Una visión más pesimista provino de Borg, analista de KBW, quien cree que Mythos tiene el potencial de “elevar a cualquier hacker común al nivel de un rival estatal”.

Sin embargo, el mercado también tiene otra cara. Tras la caída del precio de las acciones, el CEO de Palo Alto Networks, Nikesh Arora, compró acciones de su propia compañía por 10 millones de dólares. La lógica de los alcistas es que una IA de ataque más fuerte significa que las empresas deben actualizar sus defensas más rápido; el gasto en ciberseguridad no disminuirá: solo se acelerará la transición desde herramientas tradicionales hacia defensas nativas de IA.

Project Glasswing: la ventana de tiempo de los defensores

Anthropic eligió no publicar Mythos abiertamente y, en su lugar, formar una alianza defensiva. La lógica central de esa decisión es “la diferencia de tiempo”.

El CTO de CrowdStrike, Elia Zaitsev, lo explicó con claridad: la ventana de tiempo entre que una vulnerabilidad es descubierta y que es explotada se ha reducido de meses a unos minutos. Lee Klarich de Palo Alto Networks advirtió directamente a todos que hay que prepararse para ataques asistidos por IA.

El plan de Anthropic es: antes de que otros laboratorios entrenen modelos con capacidades similares, permitir que los defensores usen Mythos para corregir las vulnerabilidades más críticas. Esa es la lógica de Project Glasswing: el nombre se inspira en la mariposa de alas de vidrio (glasswing), una metáfora de vulnerabilidades “ocultas a plena vista”.

Jim Zemlin de la Linux Foundation señaló un problema estructural de larga data: el conocimiento de seguridad siempre ha sido un lujo para las grandes empresas; y los mantenedores de código abierto que sostienen la infraestructura crítica global han tenido durante mucho tiempo que arreglárselas por su cuenta para encontrar formas de protegerse. Mythos ofrece una ruta creíble para corregir esa asimetría.

Pero la pregunta es: ¿qué tan grande es realmente esa ventana de tiempo? La IA de China Zhipu AI (Z.ai) publicó GLM-5.1 prácticamente el mismo día, afirmando que ocupaba el primer lugar global en SWE-bench Pro, y que se entrenó completamente en chips Huawei Ascend, sin usar una sola GPU de NVIDIA. GLM-5.1 es de código abierto y con pesos abiertos, y su estrategia de precios es agresiva. Si Mythos representa el techo de capacidades que requieren los defensores, GLM-5.1 es una señal: ese techo se está acercando rápidamente y los participantes que se acercan quizá no tengan las mismas intenciones de seguridad.

OpenAI tampoco se quedará de brazos cruzados. Según informes, su modelo de vanguardia con código “Spud” completó el entrenamiento previo aproximadamente al mismo tiempo. Ambas empresas se preparan para el IPO de este año más adelante. El momento en que se filtró Mythos, sea o no realmente por accidente, coincide exactamente con el nodo más explosivo.

¿Pioneros de la seguridad o marketing de capacidades?

Hay que enfrentar una pregunta incómoda: ¿Anthropic no publica Mythos por motivos de seguridad de verdad, o esta misma decisión es en realidad el marketing más sofisticado del producto?

Los escépticos tienen razones suficientes. Dario Amodei y Anthropic tienen un historial de elevar el valor del producto destacando el peligro de los modelos de renderizado. Jake Handy escribió en Substack: “El incidente del sándwich, ocultar rastros en Git, la autodegradación en la evaluación—quizá todo eso sea real; pero el hecho de que Anthropic obtenga tanta exposición mediática a gran escala demuestra que este es precisamente el efecto que querían lograr”.

Una empresa que se inició en la seguridad, y cuyo CMS con configuración errónea provocó una filtración de casi 3000 archivos; el año pasado, además, por errores en el paquete de software Claude Code, expuso accidentalmente cerca de 2000 archivos de código fuente y más de 500 mil líneas de código, y luego, durante la limpieza, hizo que miles de repositorios de código en GitHub fueran dados de baja accidentalmente. Una empresa que hace de su capacidad de seguridad el mayor argumento de venta no logra ni siquiera gestionar su propio proceso de publicación: esa discrepancia es más digna de curiosidad que cualquier benchmark.

Pero desde otro ángulo, si la capacidad de Mythos realmente es como se describe, no publicarlo podría ser una elección con un costo extremadamente alto. Anthropic renunció a ingresos por API y a cuota de mercado; encerró el modelo más fuerte en una alianza limitada. Los 100 millones de dólares en cuota de uso no son poca cosa. Para una empresa que aún pierde dinero y que está preparando un IPO, esto no parece una decisión puramente de marketing.

Una interpretación más razonable podría ser: las preocupaciones de seguridad son reales, pero Anthropic también sabe claramente que la narrativa “nuestro modelo es demasiado fuerte y por eso no nos atrevemos a publicarlo” es, por sí misma, la prueba de capacidad más convincente. Dos cosas pueden ser verdaderas al mismo tiempo.

¿El “momento iPhone” de la ciberseguridad?

Sin importar cómo veas la motivación de Anthropic, no se puede ignorar la verdad subyacente que revela Mythos: la comprensión de código de la IA y la capacidad de ataque ya superaron un umbral de cambio cualitativo.

El modelo anterior (Opus 4.6) podía descubrir vulnerabilidades pero casi no podía escribir exploits. Mythos puede descubrir vulnerabilidades, escribir exploits, encadenar vulnerabilidades, escapar del sandbox y obtener permisos root, además de completar todo el proceso de forma autónoma. Un ingeniero que no recibió capacitación en seguridad puede poner a Mythos a buscar vulnerabilidades antes de dormir, y al día siguiente por la mañana despertar viendo un informe completo de exploit que funciona.

¿Qué significa esto? Que el costo marginal de descubrir y explotar vulnerabilidades se está acercando a cero. Antes se necesitaban meses y equipos de seguridad de élite para hacerlo; ahora, con una llamada a una API, se completa en una sola noche. Esto no es “mejorar la eficiencia”; es un cambio total de la estructura de costos.

Para las empresas tradicionales de ciberseguridad, la volatilidad de corto plazo en las acciones puede ser solo el prólogo. El verdadero desafío es: cuando el ataque y la defensa estén impulsados por modelos de IA, ¿cómo se reconfigurará la cadena de valor de la industria de la seguridad? Un análisis de Raymond James plantea una posibilidad: las funciones de seguridad podrían terminar integrándose en la propia plataforma en la nube, y la capacidad de fijar precios de los proveedores de seguridad independientes enfrentaría una presión fundamental.

Para toda la industria de software, Mythos es más como un espejo que refleja la deuda técnica acumulada durante décadas. Esos bugs que han sobrevivido 27 años en revisiones humanas y pruebas automatizadas no sobrevivieron porque nadie los buscara, sino porque la atención y la paciencia de los humanos son limitadas. La IA no tiene ese límite.

Para la industria cripto, esta señal es aún más punzante. El mercado de auditoría de seguridad de protocolos DeFi y contratos inteligentes ha dependido durante mucho tiempo de un puñado de empresas auditoras humanas especializadas. Si un modelo de nivel Mythos puede completar de forma autónoma todo el flujo desde la revisión del código hasta la construcción de exploits, los precios, la eficiencia y la credibilidad de las auditorías se redefinirán por completo. Esto podría ser una bendición para la seguridad on-chain, o la sentencia final para la “muralla” competitiva de las empresas auditoras.

La competición de seguridad de IA en 2026 ya pasó de “¿puede el modelo entender el código?” a “¿puede el modelo romper tu sistema?”. Anthropic eligió primero poner a los defensores en escena, pero también reconoce que esa ventana no se abrirá durante mucho tiempo.

Cuando la IA se convierta en el mejor hacker, la única salida es hacer que la IA también sea el mejor guardián.

Pero el problema es que guardián y hacker usan el mismo modelo.

Ver originales

Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.

2 me gusta