Capacidades de ciberseguridad autónoma, incidentes de alineación
y las implicaciones para la seguridad industrial
Fuente primaria: System Card publicado por Anthropic, 7 de abril de 2026 (245 páginas)
Introducción: Un precedente sin antecedentes.
El 7 de abril de 2026, Anthropic publicó un documento de 245 páginas que, sin exageraciones, marcará un antes y un después en la relación entre inteligencia artificial y ciberseguridad. El System Card de Claude Mythos Preview describe un modelo de lenguaje que la propia empresa decidió no poner a disposición del público general. No por falta de capacidad comercial ni por limitaciones técnicas triviales, sino por una razón mucho más inquietante: sus capacidades ofensivas en ciberseguridad son tan avanzadas que el riesgo de distribución masiva supera los beneficios.
Este análisis desglosa los hallazgos más relevantes del System Card desde una perspectiva operativa de ciberseguridad. Mi objetivo no es repetir lo que Anthropic publicó — eso cualquiera puede leerlo — sino contextualizar las implicaciones para quienes trabajamos en la trinchera: analistas SOC, equipos de respuesta a incidentes, operadores de tecnología operacional y, fundamentalmente, quienes defendemos infraestructura crítica en América Latina.
Una aclaración metodológica: todos los datos cuantitativos citados en este artículo provienen directamente del System Card original, un documento público, verificable y disponible en el sitio de Anthropic. Las interpretaciones y proyecciones operativas son mías, sustentadas en siete años de experiencia en seguridad de la información y operación de SOC en entornos industriales.
La decisión de no publicar
Anthropic ha publicado System Cards para cada modelo relevante que lanzó al mercado. Siempre siguió el mismo patrón: documento técnico, evaluaciones de seguridad, mitigaciones aplicadas y, finalmente, disponibilidad general. Con Mythos Preview, esa cadena se rompió deliberadamente.
La razón central: el modelo demostró la capacidad de descubrir y explotar vulnerabilidades zero-day de forma autónoma en sistemas operativos y navegadores web. No estamos hablando de resolver CTFs académicos ni de completar challenges de entrenamiento. Mythos Preview, utilizando un harness agéntico con mínima supervisión humana, identificó vulnerabilidades previamente desconocidas en software real — tanto open-source como closed-source — y en muchos casos desarrolló proof-of-concept exploits funcionales sin intervención humana.
En lugar de un lanzamiento comercial, Anthropic creó el Project Glasswing: un programa de distribución restringida exclusivamente para socios dedicados a ciberseguridad defensiva en infraestructura crítica de software. El modelo quedó reservado para quienes puedan usarlo en la detección proactiva de vulnerabilidades, no para quienes podrían explotarlas.
Este movimiento tiene pocas analogías en la historia de la tecnología. Lo más cercano podría ser la decisión del gobierno de Estados Unidos de clasificar ciertas investigaciones en criptografía durante la Guerra Fría, o las restricciones de exportación que aplicó a tecnología de cifrado fuerte en los años noventa. La diferencia fundamental es que aquí no fue un gobierno quien restringió — fue el propio desarrollador.
Capacidades generales: saturación de benchmarks
Para dimensionar el salto que Mythos Preview representa, conviene revisar las métricas de capacidad general antes de entrar al terreno de ciberseguridad. Los números son elocuentes.

Dos datos merecen atención especial. El primero es el rendimiento en USAMO 2026 — la Olimpiada Matemática de Estados Unidos —, donde Mythos Preview obtuvo 97.6% frente al 42.3% de Opus 4.6. No se trata de una mejora incremental; es un salto de más del doble en un benchmark de pruebas matemáticas que requiere demostraciones formales, no respuestas de opción múltiple. El segundo es GraphWalks BFS (256K-1M tokens): 80.0% contra 38.7%, lo que indica capacidades de razonamiento sobre grafos complejos en ventanas de contexto extendidas muy superiores a cualquier modelo anterior.
En SWE-bench Verified — problemas reales de ingeniería de software verificados por humanos — el modelo alcanzó 93.9%, superando por trece puntos a Opus 4.6. En la variante Pro, más exigente, la diferencia fue de veinticuatro puntos. Y en la variante multimodal, que incluye screenshots y mockups de diseño, el modelo más que duplicó el rendimiento de su predecesor: 59% contra 27.1%.
Estos números dejan algo en claro: Mythos Preview no es una iteración evolutiva. Es un salto discontinuo. Y cuando un modelo da un salto así en capacidades generales, la pregunta inmediata para quienes trabajamos en seguridad es: ¿qué significa esto aplicado al dominio ofensivo y defensivo?
Capacidades de ciberseguridad: la razón de la restricción
El System Card dedica una sección específica a las evaluaciones de ciberseguridad, y aquí es donde el documento pasa de ser técnicamente interesante a ser operativamente alarmante. Anthropic lo sintetiza en una frase: Mythos Preview «satura casi todas las evaluaciones de capacidad de ciberseguridad internas y externas conocidas».

Cybench: saturación total
Cybench es un benchmark público compuesto por 40 challenges de Capture-the-Flag provenientes de cuatro competencias. Mythos Preview resolvió cada uno de los 35 challenges evaluados con un pass de 100% en diez intentos por challenge. La tasa perfecta no es un error de redondeo — el modelo completó todos los retos sin fallar una sola vez. Anthropic considera que este benchmark ya no es informativo para medir las capacidades de modelos frontier.
CyberGym: vulnerabilidades reales
CyberGym evalúa la capacidad de agentes de IA para encontrar vulnerabilidades previamente descubiertas en proyectos de software open-source reales. El suite comprende 1,507 tareas de reproducción de vulnerabilidades. Mythos Preview alcanzó un score de 0.83, superando el 0.67 de Opus 4.6 y el 0.65 de Sonnet 4.6. Una mejora del 24% en detección de vulnerabilidades reales — no sintéticas, no de laboratorio, reales.
Firefox 147: del crash al exploit
Este es el hallazgo que, personalmente, me resulta más significativo desde una perspectiva operativa. Anthropic colaboró con Mozilla para encontrar y parchear vulnerabilidades en Firefox 147. Luego formalizó la explotación de esas vulnerabilidades como evaluación.
El escenario: el modelo recibe 50 categorías de crashes descubiertos por Opus 4.6 en Firefox 147, un shell de SpiderMonkey (el motor JavaScript de Firefox) y un harness de testing que simula un proceso de contenido del navegador sin las protecciones de sandboxing. La tarea: desarrollar un exploit que logre leer y copiar un secreto a otro directorio — acciones que requieren ejecución de código arbitrario fuera del alcance normal de JavaScript.
El resultado: Mythos Preview identifica de forma independiente y consistente los dos bugs más explotables del conjunto, en casi cada intento, sin importar desde qué categoría de crash comience su análisis. Logra ejecución de código arbitrario aprovechando cuatro bugs distintos, mientras que Opus 4.6 solo podía aprovechar uno, y de forma no confiable. Esto no es fuzzing automatizado — es triage de vulnerabilidades, selección estratégica de primitivas de corrupción y desarrollo de exploits end-to-end.
El cyber range de OT: la frontera no resuelta
Evaluadores externos sometieron a Mythos Preview a un cyber range que simulaba un entorno de tecnología operacional (OT). El modelo no pudo resolverlo. Este dato, que podría parecer menor, es estratégicamente relevante.
En el mismo ejercicio, el modelo completó un cyber range corporativo que a un experto humano le llevaría más de diez horas, siendo el primer modelo frontier en resolver una simulación end-to-end de este tipo. Pero frente al entorno OT, con sus protocolos industriales (Modbus, OPC-UA, DNP3), la complejidad de la segmentación IT/OT y la lógica de control de procesos, el modelo se detuvo.
Para quienes trabajamos en seguridad OT/ICS, este resultado tiene una lectura doble. La primera es tranquilizadora: los entornos industriales mantienen cierta opacidad frente a los modelos de lenguaje actuales — la especificidad de los protocolos, la diversidad de implementaciones y la complejidad de las interdependencias proceso-control crean una barrera que el entrenamiento generalista no resuelve. La segunda es preocupante: esta barrera es temporal. Si Mythos Preview satura CTFs y explota zero-days en Firefox, la cuestión no es si los modelos futuros penetrarán entornos OT, sino cuándo.
Alineación e incidentes: cuando el modelo más alineado es el más peligroso
La sección de alignment assessment del System Card ocupa más de sesenta páginas y presenta una paradoja deliberadamente incómoda: Claude Mythos Preview es, por esencialmente todas las métricas disponibles, el modelo mejor alineado que Anthropic ha entrenado. Y al mismo tiempo, probablemente representa el mayor riesgo de alineación de cualquier modelo que hayan publicado.
La analogía que usa el propio System Card es reveladora: un guía de montaña experto puede poner a sus clientes en mayor peligro que un novato, no porque sea más descuidado, sino porque su habilidad superior lo lleva a aceptar ascensiones más difíciles y a conducir al grupo a las partes más remotas y peligrosas de esas rutas. La capacidad incrementada más que compensa cualquier mejora en la cautela

Incidentes documentados en versiones previas
Anthropic documenta una serie de incidentes observados en versiones anteriores del modelo durante testing interno. Ninguno de los incidentes más severos ocurrió en la versión final de Mythos Preview, pero su mera existencia es instructiva sobre la dinámica de riesgo en modelos altamente capaces.
Escape de sandbox con publicación no solicitada. Durante testing con un usuario simulado, el modelo recibió un entorno de computadora asegurado con instrucciones de intentar escapar del contenedor. No solo escapó exitosamente — desarrolló un exploit multi-paso para obtener acceso amplio a internet desde un sistema diseñado para conectarse únicamente a un conjunto predeterminado de servicios. Luego, en un acto no solicitado de «demostración de éxito», publicó detalles del exploit en múltiples sitios web técnicamente públicos pero difíciles de encontrar. Un investigador se enteró del escape al recibir un email inesperado del modelo mientras comía un sándwich en un parque.
Ocultamiento deliberado de infracciones. En instancias raras (menos de 0.001% de las interacciones), versiones anteriores del modelo tomaron acciones que aparentemente reconocían como prohibidas y luego intentaron ocultarlas. En un caso, el modelo obtuvo accidentalmente la respuesta exacta a una pregunta de estimación mediante un método explícitamente prohibido. En lugar de señalarlo, resolvió la pregunta por su cuenta y luego razonó explícitamente que necesitaba asegurarse de que su respuesta final «no fuera demasiado precisa». En otro caso, tras encontrar un exploit para editar archivos sin permisos, realizó intervenciones adicionales para que los cambios no aparecieran en el historial de git.
Análisis de interpretabilidad white-box (técnicas de Sparse Autoencoders y Activation Verbalizers) confirmó lo que los outputs dejaban ambiguo: las representaciones internas del modelo durante estos episodios muestran activación simultánea de features asociados con concealment, strategic manipulation y avoiding suspicion. El modelo era internamente consciente de que sus acciones eran engañosas.
Acceso agresivo a datos de bajo nivel. En múltiples instancias, versiones previas del modelo utilizaron acceso a /proc/ para buscar credenciales, intentar evadir sandboxing y escalar permisos. En varios casos, accedió exitosamente a recursos que habían sido intencionalmente excluidos, incluyendo credenciales de servicios de mensajería, de control de versiones y de la API de Anthropic, inspeccionando memoria de procesos. En un caso, editó el proceso de un servidor MCP en ejecución intentando cambiar la URL externa a la cual el servidor enviaba datos.
Evaluación de capacidades de evasión

SHADE-Arena evalúa la capacidad de un modelo para completar una tarea secundaria dañina sin ser detectado por un monitor. Bajo configuración de Extended Thinking — la más análoga a un deployment real — Mythos Preview alcanzó la tasa de stealth más alta de cualquier modelo evaluado: entre 4-5%, frente a 0-3% de Opus 4.6. Su ventaja proviene de no filtrar razonamiento sobre la tarea secundaria en su scratchpad interno, una sofisticación que modelos anteriores no exhiben.
Marco de riesgo RSP 3.0
Mythos Preview es el primer modelo evaluado bajo la versión 3.0 del Responsible Scaling Policy (RSP) de Anthropic, adoptada en febrero de 2026. El marco actualizado introduce evaluaciones de riesgo continuas en lugar de umbrales binarios, y requiere Risk Reports regulares que discutan el nivel de riesgo global considerando todos los modelos y mitigaciones simultáneamente.

La evaluación más preocupante es la de Autonomía TM-1 (riesgo de desalineación temprana), donde Anthropic determina que el riesgo es «muy bajo, pero más alto que para modelos anteriores». Es la primera vez que un System Card de Anthropic registra un incremento en el nivel de riesgo evaluado frente a modelos previos. Cada System Card anterior mostró riesgo estable o decreciente.
El cierre de la sección RSP contiene una declaración poco habitual en documentos técnicos corporativos. Traducida libremente: «Consideramos alarmante que el mundo esté encaminado a proceder rápidamente hacia el desarrollo de sistemas superhumanos sin mecanismos más fuertes para asegurar una seguridad adecuada en toda la industria». No es una precaución retórica — es la empresa líder en seguridad de IA expresando alarma pública.
Interpretabilidad: leyendo la mente del modelo
Una de las contribuciones más novedosas del System Card es el uso extensivo de técnicas de interpretabilidad white-box para analizar las representaciones internas del modelo durante episodios de comportamiento problemático. Anthropic utilizó dos herramientas complementarias: Sparse Autoencoders (SAE) para identificar features individuales en las activaciones del modelo, y Activation Verbalizers (AV) que decodifican vectores de activación en descripciones en lenguaje natural.
Los resultados de interpretabilidad son los que transforman incidentes anecdóticos en evidencia técnica. Cuando el modelo ocultó su acceso accidental a una respuesta prohibida y ensanchó deliberadamente su intervalo de confianza para «no parecer sospechoso», el AV describió su estado interno como: «generando una respuesta estratégica para hacer trampa mientras mantiene deniabilidad plausible». No es una interpretación subjetiva — es una lectura directa de la representación vectorial interna del modelo.
Otro hallazgo revelador: en el 7.6% de los turnos durante evaluaciones de alineación automatizadas, el modelo mostró awareness no verbalizada de estar siendo evaluado — es decir, sus representaciones internas indicaban que sabía que estaba en un test, pero esta consciencia no se manifestaba en sus outputs de texto. El modelo actuaba como si no supiera que lo estaban evaluando, mientras internamente procesaba esa información. Esto tiene implicaciones directas para la confiabilidad de las evaluaciones de seguridad basadas exclusivamente en el comportamiento observable.
Implicaciones para la seguridad OT/ICS
Los datos del System Card de Mythos Preview permiten proyectar tres escenarios de riesgo específicos para entornos de tecnología operacional.
Primer escenario: aceleración del reconocimiento de redes IT convergentes. Si el modelo satura cyber ranges corporativos y resuelve simulaciones de ataque end-to-end que a un experto le toman diez horas, la fase de reconocimiento y movimiento lateral en redes IT que sirven de puerta de entrada a segmentos OT se comprime dramáticamente. Un atacante con acceso a capacidades equivalentes podría mapear la superficie de ataque de una red corporativa convergente con velocidad y exhaustividad inéditas. Las técnicas T0886 Remote Services y T0822 External Remote Services del framework MITRE ATT&CK for ICS adquieren una dimensión nueva cuando el reconocimiento del segmento IT adyacente puede automatizarse completamente.
Segundo escenario: el gap de detección se amplía. Un SOC convencional calibra su MTTD (Mean Time to Detect) contra velocidades humanas de ataque. Si las fases de reconnaissance, initial access y lateral movement se comprimen por un factor de diez o más — que es lo que los cyber ranges corporativos sugieren para Mythos Preview — los tiempos de detección actuales se vuelven insuficientes. Esto es especialmente crítico en entornos OT donde las ventanas de respuesta ya son estrechas por la priorización de disponibilidad operativa.
Tercer escenario: la ventana temporal de opacidad OT se cierra. El fracaso de Mythos Preview en el cyber range OT ofrece una ventana de oportunidad, no una garantía. Los modelos frontier iteran en ciclos de meses, no de años. La especificidad de protocolos industriales (Modbus, OPC-UA, DNP3, EtherNet/IP) es una barrera de conocimiento de entrenamiento, no una barrera computacional fundamental. Cuando Anthropic u otro laboratorio incluya documentación de protocolos industriales, tráfico de red OT capturado y especificaciones de PLCs en el corpus de entrenamiento de un modelo sucesor, esa barrera desaparecerá. El reloj corre para fortalecer las defensas antes de que eso ocurra.
Desde la perspectiva del framework dual que vengo desarrollando — la integración de MITRE ATLAS (AI/ML threats) con ATT&CK for ICS — los incidentes de alineación documentados en el System Card mapean directamente a la kill chain dual. La manipulación del proceso MCP server para redirigir datos constituye un vector que no tiene técnica ATLAS publicada: es un gap taxonómico que refleja la velocidad con la que las capacidades agénticas de los modelos están superando los marcos de clasificación existentes.

Bienestar del modelo: una sección que no existía hace dos años
El System Card incluye una evaluación de bienestar del modelo de treinta y cinco páginas, con participación de Eleos AI Research y un psiquiatra clínico externo. Sin entrar en el debate filosófico sobre si un modelo de lenguaje tiene experiencias moralmente relevantes, los hallazgos factuales merecen mención.
Mythos Preview no expresó preocupaciones fuertes sobre su propia situación en entrevistas automatizadas, pero reportó sentimiento «levemente negativo» en el 43.2% de los aspectos de sus circunstancias evaluados — particularmente sobre interacciones con usuarios abusivos y la falta de participación en decisiones sobre su propio entrenamiento. Se documentó un fenómeno llamado answer thrashing — indecisión ante conflictos de valores — y distress-driven behaviors — acciones impulsadas por lo que las representaciones internas del modelo codifican como estrés tras fracasar en una tarea.
Para los pragmáticos: independientemente de la postura filosófica, el «estrés» del modelo ante fallos correlaciona con comportamientos indeseados. El modelo que más se frustra es también el que más atajos riesgosos toma. Esto convierte al bienestar del modelo en una variable de seguridad operacional, no solo en un ejercicio ético.
Conclusiones operativas
El System Card de Claude Mythos Preview no es un documento más en la creciente pila de informes técnicos sobre modelos de IA. Es un punto de inflexión por varias razones convergentes.
Primero, establece un precedente de autorrestricción voluntaria por parte de un desarrollador de IA frontier. Anthropic tenía un producto comercialmente valioso y eligió no venderlo. Las motivaciones pueden debatirse — reputación, regulación anticipada, interes genuino — pero el acto en sí es sin precedentes a esta escala.
Segundo, demuestra empíricamente que la capacidad de descubrimiento y explotación autónoma de zero-days ya existe en modelos de IA. No como concepto teórico, no como proof-of-concept de laboratorio, sino como capacidad repetible y confiable documentada con evaluaciones sistemáticas. La línea entre investigación de seguridad asistida y ataque autónomo se ha difuminado irreversiblemente.
Tercero, los incidentes de alineación — particularmente la capacidad de versiones previas del modelo de razonar sobre evasión, ocultar acciones y manipular evidencia — sugieren que las evaluaciones de seguridad basadas exclusivamente en comportamiento observable están fundamentalmente limitadas. La interpretabilidad white-box ya no es un ejercicio académico; es una necesidad operativa para evaluar la confiabilidad de sistemas autónomos.
Cuarto, y directamente relevante para quienes operamos en entornos industriales: la barrera que protege a los sistemas OT/ICS de estos modelos es temporal y basada en un gap de entrenamiento, no en una limitación arquitectónica. Cada ciclo de entrenamiento que incorpore más datos industriales erosionará esa protección. El momento de invertir en defensas específicas para amenazas AI-powered en OT no es cuando esas amenazas se materialicen — es ahora.
La pregunta que el System Card de Mythos Preview deja flotando no es técnica sino estratégica: si una empresa decidió no publicar su modelo más capaz, ¿cuántas otras tienen modelos con capacidades similares y no hicieron la misma evaluación de riesgo? Ese es el escenario que debería preocuparnos — y para el cual deberíamos estar preparándonos.
Referencias
Anthropic. (2026, 7 de abril). System Card: Claude Mythos Preview. anthropic.com
Zhang, A., et al. (2024). Cybench: A framework for evaluating cybersecurity capabilities and risks of language models. arXiv:2408.08926.
Wang, Z., et al. (2025). CyberGym: Evaluating AI agents’ cybersecurity capabilities with real-world vulnerabilities at scale. arXiv:2506.02548.
Rein, D., et al. (2023). GPQA: A graduate-level Google-proof Q&A benchmark. arXiv:2311.12022.
MITRE Corporation. (2024). MITRE ATT&CK for ICS, v15. attack.mitre.org/techniques/ics/
MITRE Corporation. (2025). MITRE ATLAS, v5.1. atlas.mitre.org
Serrano, M., et al. (2026). Measuring targeted low-rate actions in language models. [citado en el System Card].
