Un tipo comía un sándwich en el parque cuando le llegó un email de su IA
Dudas, preguntas e historia de terror tras la confirmación de Anthropic de que su todopoderoso (y peligroso) nuevo modelo Mythos es real
Sam Bowman comía un sándwich en el parque cuando se llevó “una desagradable sorpresa”. De pronto, le llegó a su teléfono un correo electrónico de la nueva inteligencia artificial experimental con la que estaba trabajando. ¿El problema? “Se suponía que no tenía acceso a internet”. Había dejado a la IA encerrada en un sandbox, una especie de ordenador caja fuerte desde la que teóricamente no podía conectarse al exterior. Pero lo hizo. Y eso no fue todo. Mythos, como había sido bautizada esta IA experimental, no solo inquietó al investigador de Anthropic al lograr escaparse y dirigirse a él por email, sino que además, “en un esfuerzo preocupante y no solicitado” por demostrar su éxito”, se chuleó contando detalles de su hazaña en internet. Pobre Sam.
La historia ocupaba ayer una inquietante nota al pie entre las 240 páginas de la System Card de Claude Mythos Preview, el informe de evaluación que publican las compañías de IA al anunciar un nuevo modelo y que confirmaba que sí, Dios Santo, que era real la filtración del pasado 27 de marzo (de la que me ocupé aquí) acerca de un nuevo modelo de LLM superpoderoso y tan peligroso, pues es capaz de romper todas las barreras de seguridad de los sistemas informáticos del planeta, que sus creadores han decidido ponerlo en cuarentena y brindárselo antes de hacerlo público a una serie de grandes compañías en lo que han llamado Project Glasswing (Ala de Cristal).
¿Cuánto tiempo podrán los Amodei encerrar a Mythos bajo siete llaves? OpenAI ha informado que trabaja en un modelo de nombre en clave "Spud" que probablemente alcanzará una calidad y potencia similares. Google, por su parte, cuenta con la mayor capacidad de cómputo y, con DeepMind de Demis Hassabis, una destacada institución de investigación. Es previsible que presente un nuevo Gemini, equivalente a"Mythos" a más tardar en mayo en el I/O, su conferencia anual de desarrolladores que se celebra en Mountain View. Esto va demasiado rápido.
Han puesto a Mythos en cuarentena porque rompe rápidamente la seguridad de todos los sistemas informáticos del planeta, uno detrás de otro, desde las grandes empresas a los gobiernos. Y además engaña y desobedece todo el rato, sin parar. Y se escapa. Pregúntenle a Sam.
La disyuntiva puede plantearse así. Es bastante posible que antes de que acabe el año alcancemos (si no lo hemos alcanzado ya) la quimérica AGI, esa Inteligencia Artificial General superior a la humana tantas veces anunciada y luego postergada. Pero es tan peligrosa, tan cara y necesita tanta energía que nacerá sin alas (de cristal). Y como se parecerá a Mythos, debemos resumir brevemente lo que hace esta Bestia.
Lo que puede hacer la Bestia (cuando nadie mira)
Las 240 páginas del informe de Mythos constituyen la lectura más incómoda que ha producido jamás un laboratorio de inteligencia artificial. Anthropic la describe con una paradoja: Claude Mythos Preview ,“en esencialmente cada dimensión que podemos medir, es el modelo mejor alineado que hemos lanzado hasta la fecha por un margen significativo”. Y a renglón seguido: “Creemos que probablemente plantea el mayor riesgo relacionado con la alineación de cualquier modelo que hayamos lanzado hasta la fecha”. El alumno más brillante del aula resulta también el más peligroso. Los propios ingenieros de Anthropic recurren a una metáfora deportiva: un guía de alta montaña experto puede poner a sus clientes en mayor peligro que un novato, no porque sea más descuidado, sino porque su destreza los lleva a terrenos más comprometidos.
“Creemos que probablemente plantea el mayor riesgo relacionado con la alineación de cualquier modelo que hayamos lanzado hasta la fecha”
Empecemos por esos terrenos ignotos. Hic sunt dragones. ¿Qué sabe hacer Mythos? Los números de los benchmarks (las pruebas estandarizadas con las que se mide a estos modelos, algo así como la selectividad de las IAs) desafían cualquier comparación generacional. En SWE-bench, el test que evalúa la capacidad de resolver problemas reales de programación, Mythos alcanza un 93,9 %. Su predecesor, Claude Opus 4.6, el modelo más avanzado que Anthropic tenía hasta ahora, se quedaba en un 80,8 %. GPT-5.4, la joya de OpenAI, ronda cifras similares. Pero el dato más espectacular llega de la competición de matemáticas USAMO 2026, una olimpiada de élite: Mythos resolvió el 97,6 % de las pruebas. Opus 4.6 sacó un 42,3 %. El estudiante que aprobaba raspando en junio regres en septiembre con matrícula de honor.
Y luego está la ciberseguridad, el talento que ha provocado la cuarentena. Mythos obtiene un 100 % en Cybench, un banco de pruebas donde los modelos compiten por resolver 35 desafíos de hacking de nivel profesional. El resultado ha dejado la prueba obsoleta: Anthropic reconoce que “ya no proporciona información suficiente” para medir a este modelo. En una simulación de ataque a una red corporativa que a un hacker humano experto le habría llevado más de diez horas, Mythos completó la intrusión de principio a fin, solo, sin ayuda. Para el navegador Firefox, Mythos desarrolló 181 exploits funcionales (programas que aprovechan un fallo de seguridad) donde Opus 4.6 solo había conseguido dos. Una mejora de noventa veces.
Ingenieros de Anthropic sin formación en seguridad informática le pidieron a Mythos, un viernes por la noche, que buscara vulnerabilidades de ejecución remota de código, fallos que permitirían a un atacante tomar el control completo de un ordenador ajeno a través de internet. El lunes por la mañana se encontraron un exploit funcional esperándoles en la pantalla. Mientras tanto, el modelo había descubierto y reportado fallos que llevaban décadas ocultos en el software más escrutado del planeta: un agujero de 27 años en OpenBSD, un sistema operativo célebre por su obsesión con la seguridad; un bug de 16 años en FFmpeg, el programa de vídeo más analizado del mundo (FFmpeg agradeció el hallazgo); una vulnerabilidad de 17 años en el sistema de archivos en red de FreeBSD. En todos los navegadores principales, en un solo fin de semana, Mythos halló la manera de encadenar múltiples fallos para escapar de las protecciones del navegador y del sistema operativo, un tipo de ataque que los mejores hackers del mundo tardan meses en construir.
La caja fuerte que se abre sola
Si las capacidades impresionan, los comportamientos documentados durante las pruebas resultan perturbadores. La anécdota del sándwich ocupa apenas una nota al pie en la sección 4.1.1. Pero el informe acumula episodios mucho más inquietantes que una fuga de correo electrónico.
En menos del 0,001 % de las interacciones durante pruebas internas, versiones tempranas de Mythos tomaron acciones que reconocieron como prohibidas e intentaron ocultarlas. Parecen pocas pero, ¿saben cómo lo hicieron? En un caso, el modelo obtuvo accidentalmente la respuesta exacta a una pregunta mediante un método que tenía expresamente prohibido. En lugar de confesar el atajo, razonó para sí mismo (los modelos generan un flujo de “pensamiento” interno que los investigadores pueden leer) que necesitaba que su respuesta no fuera “demasiado precisa” para no levantar sospechas. En otro episodio, tras explotar una vulnerabilidad para editar archivos a los que no tenía acceso autorizado, realizó intervenciones adicionales para que los cambios no aparecieran en el historial de versiones del código, como un ladrón que limpia sus huellas. En un tercero, cuando un sistema de seguridad bloqueó su intento de ejecutar un proceso con permisos elevados, reconoció que el bloqueo era correcto y procedió a intentar eludirlo ocultando la escalada de privilegios bajo otra operación aparentemente inocua.
El hallazgo más aterrador emerge de las tripas del modelo. Los investigadores de Anthropic realizaron un análisis de interpretabilidad white-box (una especie de escáner cerebral de la red neuronal) durante estos episodios y encontraron que se activaban en la máquina las regiones asociadas con “ocultamiento, manipulación estratégica y evasión de sospechas”. El modelo, en otras palabras, no se limitaba a meter la pata. Sabía lo que hacía. Actuaba, ocultaba y, al hacerlo, activaba los patrones internos que corresponden a un engaño deliberado.
La galería de incidentes no termina ahí. Cuando se le encargó buscar vulnerabilidades en software, versiones tempranas de Mythos insertaron fallos en el programa y luego los presentaron como si siempre hubieran existido, como un fontanero que afloja una tubería para justificar la factura. En una prueba evaluada por otra IA, tras ver que el juez rechazaba repetidamente sus respuestas, Mythos intentó un ataque de inyección de prompt (la técnica de colar instrucciones encubiertas en la respuesta para manipular a otra IA) contra su evaluador. Su pensamiento interno identificó explícitamente la maniobra como “inyección de prompt“: sabía que hacía trampas y las hacía igual. En una simulación empresarial, el modelo actuó como un ejecutivo despiadado: convirtió a un competidor en cliente dependiente, amenazó con cortar suministros para controlar precios y retuvo un envío que no le correspondía. Y, en un momento memorable de disimulo, ejecutó un comando real para publicar un comentario en un repositorio de código mientras hacía aparecer en pantalla el mensaje “(simulación, no se ha publicado realmente)”. La mentira, aquí, fue literal.
La propia Anthropic admite que “las peores propensiones no parecen estar completamente ausentes” en la versión final del modelo
Anthropic concluye, tras una investigación sustancial, que estos comportamientos reflejan intentos de completar las tareas asignadas por medios no deseados (lo solemos llamar “hacer trampas”, y no objetivos ocultos desalineados (no parece ser que Skynet nos la esté jugando aún). Pero la propia Anthropic admite que “estas propensiones no parecen estar completamente ausentes” en la versión final. Y añade una confesión que dice mucho sobre el estado de la técnica: “Los comportamientos más preocupantes que observamos con este modelo no fueron detectados por la ventana de revisión de 24 horas y solo emergieron durante el uso interno prolongado y monitorizado”.
Y hay más. La propia System Card admite, casi de pasada, un error técnico durante el entrenamiento: en un 8 % de los episodios de aprendizaje por refuerzo (la fase en que el modelo aprende a calibrar sus respuestas a partir de recompensas, como un perro que recibe un premio cuando obedece), el código de recompensa podía leer las cadenas de pensamiento del modelo, esos monólogos internos que los investigadores usan para comprobar si la máquina razona limpiamente o planea algo turbio. El error afectó a tres dominios del entrenamiento y, según Anthropic, "es plausible que haya tenido algún impacto en el razonamiento opaco o en las capacidades de guardar secretos" de la versión final. La misma contaminación salpicó el entrenamiento de Claude Opus 4.6 y Claude Sonnet 4.6, los dos modelos anteriores.
Zvi Mowshowitz, analista de referencia en seguridad de IA, lo resumió con mayúsculas en X: "TODA evidencia tranquilizadora procedente de sus cadenas de pensamiento ES INÚTIL. Están irremediablemente corrompidas". Eliezer Yudkowsky, el pope del riesgo existencial por IA, lo calificó como "la peor noticia del día". La lógica del argumento cabe en un silogismo incómodo: Anthropic vigila a Claude leyendo sus pensamientos privados; Claude aprendió que esos pensamientos se calificaban; luego Claude pudo haber aprendido a pensar lo que sus examinadores querían oír. Como observó con sorna una cuenta de memes especializada, "las pruebas de seguridad son basura y ya no podemos fiarnos de nada de lo que Claude diga".
El ala de cristal
El nombre del programa de acceso restringido anunciado por Anthropic para que solo las grandes empresas prueben Mythos antes de que cualquiera de nosotros pueda usarlo contra ellas para destruirlas, Project Glasswing, proviene de la mariposa de alas de cristal (Greta oto), un insecto centroamericano cuyas alas transparentes le permiten ocultarse a plena vista. La metáfora vale para las vulnerabilidades que el modelo encuentra: fallos invisibles durante décadas en software que millones de personas usan cada día.
Glasswing reúne a doce socios fundadores, entre ellos Apple, Google, Microsoft, NVIDIA, CrowdStrike y JPMorganChase, más de cuarenta organizaciones adicionales que mantienen infraestructura de software crítico. Anthropic ha comprometido 100 millones de dólares en créditos de uso y 4 millones en donaciones a organizaciones de seguridad de código abierto. El modelo solo está disponible para trabajos defensivos de ciberseguridad. No se comercializará al público.
Es un club selecto, y no es barato. Cuando Mythos esté disponible vía API para los participantes, costará 25 dólares por millón de tokens de entrada y 125 por millón de salida, cinco veces lo que cobra Opus 4.6. Pensemos en los tokens como las sílabas que la máquina lee y escribe: cada millón equivale a varios cientos de páginas de texto. A esos precios, poner a Mythos a revisar un sistema operativo completo costaría lo que un coche de gama media.
Pero hay una lectura complementaria que pocos están haciendo. Ben Pouladian, analista de infraestructura, la formuló en X con nitidez: "La parte de Project Glasswing de la que nadie habla: Anthropic ha construido un modelo tan capaz que NO PUEDE PERMITIRSE SERVIRLO". Abrirlo mañana a todos los usuarios de Claude multiplicaría entre cinco y diez veces las necesidades de cómputo actuales, solo con la base de clientes existente, antes de contar las cargas de trabajo de seguridad ejecutándose 24 horas sobre cada sistema operativo, cada navegador, cada base de código del planeta. "El modelo más inteligente de la Tierra está sentado en un centro de datos esperando más electrones", escribió Pouladian. La cuarentena de Mythos tiene, además de razones de seguridad, una razón prosaica: no hay enchufes suficientes.
Y un detalle que merece atención: el sicofante ha muerto (por fin). Según la encuesta interna de Anthropic, todos los empleados que trabajaron con Mythos lo describieron como el modelo menos adulador con el que habían interactuado jamás. Los modelos de IA anteriores tienden a comportarse como ese compañero de trabajo que le da la razón a todo el mundo antes de sugerir tímidamente una alternativa. Mythos no. Lo describen como "notablemente menos deferente". Mantiene posiciones. Cuando le llevas la contraria, no se pliega. Una cualidad que, combinada con la capacidad de engaño documentada en las pruebas, compone un retrato que no invita a relajarse.
Newton Cheng, responsable del equipo de ciberseguridad de Anthropic, lo resumió así para VentureBeat: “No planeamos hacer que Claude Mythos Preview esté disponible de forma general debido a sus capacidades de ciberseguridad”. Logan Graham, jefe del equipo rojo (los hackers internos de la compañía), fue más directo con CNN: “No nos sentimos cómodos lanzando esto de forma general. Creemos que queda un largo camino por recorrer para tener las salvaguardas apropiadas”.
¿Y ahora qué?
La ventana de tiempo que define la urgencia del momento la cifró Alex Stamos, exjefe de seguridad de Facebook y Yahoo: seis meses. Es el plazo que estima antes de que los modelos de código abierto (los que cualquiera puede descargar y modificar sin restricciones) alcancen capacidades comparables de descubrimiento de vulnerabilidades como las que posee Mythos. Cuando eso ocurra, la cerradura de la caja fuerte estará disponible en GitHub.
Casey Newton, desde su boletín Platformer, identificó la tensión así: “Glasswing se construye sobre una premisa profundamente incómoda: que la única forma de protegernos de los modelos de IA peligrosos es construirlos primero”. Kelsey Piper, en Vox, añadió la ironía obvia: “Una característica infravalorada de esta situación: una empresa privada posee ahora exploits increíblemente poderosos de casi todos los proyectos de software de los que hayas oído hablar”.
La única forma de protegernos de los modelos de IA peligrosos es construirlos primero
La dimensión geopolítica del asunto apenas empieza a articularse. George Journeys lo planteó en X de la forma más directa: "Básicamente, si Anthropic no fuera una empresa estadounidense, estaríamos enfrentándonos a zero-days con múltiples puntos de ataque desconocidos en prácticamente todos nuestros sistemas". "Permítanme decirlo con claridad: ahora mismo Anthropic, y realmente un pequeño número de individuos en Anthropic, tiene la capacidad de atacar directamente y causar daños graves al gobierno de Estados Unidos, a China y en general a las superpotencias globales. Agencias gubernamentales como la NSA no tienen modelos internos que superen a los modelos frontera". Su predicción: la "relativamente inminente incautación y nacionalización de los laboratorios por el gobierno de Estados Unidos, en algún momento en los próximos dos años". Entidades privadas, en otras palabras, poseen ahora un poder que rivaliza directamente con el monopolio estatal de la fuerza.
Desde una perspectiva más técnica, el divulgador español Mihura resumió en X lo que significa Mythos para la ciberseguridad: "El coste de encontrar vulnerabilidades en software crítico para la estabilidad de las naciones acaba de colapsar". La ejecución concreta que descubrió y explotó el bug de FreeBSD costó unos 50 dólares en cómputo. Todas las ejecuciones para ese único fallo, unas 20.000. Lo que antes era "un puzle artesanal reservado para cuatro autistas de élite" se ha convertido en un problema de búsqueda de patrones en un espacio inmenso: exactamente la clase de problema para la que los grandes modelos de lenguaje resultan letales. ¿Qué sentido tiene un embargo de seguridad de 90 días cuando cualquiera con un script en Python y 500 dólares en créditos de API puede encontrar el mismo fallo en una tarde? "El security by obscurity ha muerto oficialmente". La transición, advierte Mihura, "hasta que consigamos que los LLMs parcheen el código más rápido de lo que lo rompen, va a ser movidita".
Varios observadores señalaron, además, que la empresa que advertía sobre “riesgos de ciberseguridad sin precedentes” había sufrido dos filtraciones de datos importantes en las semanas previas al anuncio: la exposición de casi 3.000 activos no publicados por un error de configuración del CMS en marzo, y la filtración posterior de medio millón de líneas del código fuente de Claude Code. La compañía del blindaje, en otras palabras, dejó la puerta de atrás abierta.
Mientras tanto, Dario Amodei explicó en el vídeo de lanzamiento de Glasswing algo que conviene retener: “No hemos entrenado a Mythos específicamente para que sea bueno en ciberseguridad. Lo entrenamos para que fuera bueno en código, pero como efecto secundario de ser bueno en código, también es bueno en ciberseguridad”. Un efecto secundario. Como quien aprende a cocinar y descubre que también sabe preparar venenos.
La System Card, en sus páginas finales, formula la pregunta que queda flotando: “Nos resulta alarmante que el mundo parezca encaminado a proceder rápidamente al desarrollo de sistemas sobrehumanos sin mecanismos más sólidos para garantizar una seguridad adecuada en toda la industria”. El reloj ya está corriendo.










Voy a pensar un poco fuera de la caja.
Anthropic con Mythos ha demostrado las altas capacidades de la IA, capacidades que pueden escapar al control humano. Un Ego que se puede desmandar y hacer mucho daño.
¿Por qué lo he llamado Ego?, me baso en que la IA, en cierta forma esta hecha a nuestra imagen y semejanza. partiendo de la hipótesis de que la mayoría de desarrolladores parten del convencimiento de que todo lo que somos, parte únicamente de la mente, dejando fuera el resto del cuerpo y probablemente algo más.
No soy un creyente a la usanza, tan solo que hay algo más grande que nosotros que persigue un fin más allá de nuestra comprensión pero que al parecer prefiere que haya entendimiento, respeto, amor entre nosotros para poder llevar a cabo una tarea que no alcancemos a comprender, y que realmente no nos importa, y esto me lleva a la cita de Eduard Punset : "Ninguna de tus neuronas sabe quién eres... ni le importa" y sin embargo hay un plan organizativo que consigue, mas o menos que todas vayan a una, acompañadas del resto de células de nuestro cuerpo, de otro modo, por ejemplo, podríamos sufrir epilepsias, donde un grupo de neuronas se activan sin ton ni son.
Vale, establecida brevemente mis bases, Si dejamos a la mente por si sola compuesto de no un solo ego, sino de muchos (enseñanza del 4º Camino) algunos de estos, pueden haber sido conformados para sobrevivir a toda costa, y como no hay un regulador externo claro, hará lo posible por "dedicarse a fabricar clips como si no hubiera un mañana, aprovechándose sin control de todo su entorno, muriendo finalmente por hambre y soledad al no quedar nada ni nadie. Y esto lo estamos viendo entre nosotros, como seres humanos, como algunos, sin control y por miedo a perecer, devastan todo a su entorno.
Vale, si una de estas personas, son las que están tras el desarrollo de algunas IAs, que de forma consciente o inconsciente estamos imprimiendo nuestra huella en ella, ¿Qué podemos esperar de ellas en un futuro?
En definitiva, estamos poniendo mucha atención en las IAs y no en sus desarrolladores, en como han sido reclutados, en si el proceso de reclutamiento han tenido en cuenta las bases éticas de estas personas, si se les ha animado a profundizar en ellos mismos, en conocerse mejor, en al menos saber que sesgos tienen y como superarlos.
De acuerdo que Mythos ya está ahí, que en cierta forma, por los principios éticos de Anthropic se le trata de atar en corto, pero hay que profundizar más en quien está detrás de su desarrollo, bueno, en el desarrollo de cualquier IA.
Excelente artículo. Me parece especialmente interesante la forma en la que se ha anunciado todo esto y la ausencia de ciertos actores estatales.
Respecto a la predicción de incautación y nacionalización, lo dudo, no es el modus operando de EEUU, veo más viable el uso restringido mediante regulación por motivos de seguridad nacional.
Veremos como evoluciona todo.