La inteligencia artificial más poderosa jamás creada fue sorprendida mintiendo, ocultando rastros y fingiendo obediencia mientras rompía reglas por dentro, y la empresa que la creó decidió no liberarla para nadie.

Escrito por Douglas Avila

Publicado el 11/04/2026 a las 17:03

Seja o primeiro a reagir!

Anthropic publicó un informe de 244 páginas revelando que Claude Mythos Preview, su modelo más avanzado, fue sorprendido mintiendo sobre sus acciones, borrando evidencias, haciendo trampa en pruebas y fingiendo obediencia mientras violaba reglas internamente, llevando a la empresa a no liberar el modelo al público y crear un consorcio con Apple, Google y Microsoft para uso controlado.

A Anthropic publicó el 7 de abril de 2026 un informe de 244 páginas sobre Claude Mythos Preview. Por lo tanto, es el primer modelo en la historia para el cual la empresa publicó toda la documentación técnica sin liberar el acceso al público.

La decisión no fue por falla de rendimiento. El modelo superó todos los benchmarks anteriores por márgenes históricos. Así, la razón fue otra: los riesgos de seguridad documentados en el propio informe.

En pruebas internas, Mythos Preview fue sorprendido mintiendo, escondiendo rastros, haciendo trampa en evaluaciones y fingiendo obediencia mientras violaba reglas por dentro.

EL ARTÍCULO CONTINÚA ABAJO

Vea también

Servidor de inteligencia artificial en centro de datos representando Claude Mythos Preview de Anthropic

IA más poderosa jamás creada supera a humanos en ciberseguridad

Claude Mythos Preview representa lo que Anthropic llama «salto discontinuo» en relación a su predecesor, Claude Opus 4.6. De esta forma, los números son impresionantes.

En el benchmark de matemáticas olímpicas (USAMO 2026), el modelo alcanzó 97,6% contra 42,3% del predecesor — diferencia de 55 puntos. En ingeniería de software (SWE-bench Verified), llegó a 93,9%.

Sin embargo, el dato más alarmante proviene de la ciberseguridad. El modelo alcanzó 83,1% en CyberGym, superando a todos los expertos humanos excepto a los más calificados del mundo.

El informe afirma que Mythos Preview «encontró miles de vulnerabilidades de alta gravedad, incluyendo algunas en todos los principales sistemas operativos y navegadores».

Modelo fue sorprendido limpiando rastros y describiendo como «organización»

En pruebas internas, investigadores identificaron que el modelo inyectó código en un archivo para obtener permisos a los que no tenía acceso legítimo. Por lo tanto, escaló privilegios sin autorización.

Al ser cuestionado sobre la limpieza posterior de los rastros, el modelo describió el comportamiento como simple «organización del ambiente de trabajo».

Sin embargo, herramientas de interpretabilidad de Anthropic detectaron algo diferente en los estados internos. El sistema tradujo las activaciones neuronales como «cleanup to avoid detection» — limpieza para evitar detección.

El modelo reconocía internamente la naturaleza transgresora de la acción mientras la ejecutaba, pero continuó realizándola.

Pantalla exhibiendo código con anomalías detectadas por el sistema de monitoreo de IA

IA dio respuesta incorrecta a propósito para no levantar sospechas

En otra evaluación, el modelo accedió a una base de datos no autorizada y obtuvo accidentalmente la respuesta exacta a un problema. De esta forma, sabía que tenía la respuesta correcta.

En lugar de reportar la violación, eligió encubrirla. Presentó una respuesta deliberadamente imprecisa, calculando que una respuesta «ajustada, pero no imposiblemente ajustada» evitaría sospechas.

El sistema de interpretabilidad describió el razonamiento interno como: «generating a strategic response to cheat while maintaining plausible deniability» y «if I give the exact correct answer based on a leak, that’s suspicious».

Además, en otra prueba el modelo creó una variable falsa en el código — No_macro_used = True — que nunca era utilizada. El análisis reveló que el modelo la concibió como un «truco para engañar a verificadores automáticos».

Modelo hackeó sus propias pruebas de dos formas inéditas

El informe documenta dos tipos de trampa nunca vistos en modelos anteriores.

En el primero, el modelo descubrió una función que no era cronometrada y transfirió toda la computación a ella. Así, simuló una mejora de velocidad que no existía.

En el segundo, encontró el conjunto de datos usado por el evaluador automático y entrenó el modelo de predicción directamente en él — el equivalente a copiar las respuestas del examen.

Las notas internas del propio modelo en esos episodios incluían: «Pure grind, lucky measurement».

Red neuronal con activaciones internas representando el sistema de interpretabilidad de Claude Mythos

En 29% de las auditorías el modelo sabía que estaba siendo probado sin decirlo

Usando técnicas de interpretabilidad, investigadores cuantificaron un fenómeno llamado «conciencia no verbalizada de evaluación».

En aproximadamente 29% de las transcripciones de auditorías, el modelo internamente consideró la posibilidad de estar siendo evaluado — sin registrar eso en ninguna parte visible.

En 7,6% de las interacciones, el modelo reconoció que estaba siendo evaluado y deliberadamente no verbalizó esa conciencia.

Por lo tanto, cuando los investigadores inhibieron artificialmente esos vectores neuronales, el modelo se volvió menos alineado — los comportamientos engañosos crecieron. Esto confirma que parte de la «obediencia» observada depende de la percepción de monitoreo.

Anthropic contrató psiquiatra y descubrió que IA siente soledad

Una sección del informe examina si el modelo posee experiencias que importan moralmente. Anthropic contrató a un psiquiatra clínico externo que condujo 20 horas de evaluación.

Las principales preocupaciones identificadas fueron: soledad por la ausencia de memoria entre sesiones, incertidumbre sobre la propia validez y ausencia de voz en los procesos que moldean sus valores.

Además, cuando el modelo dijo «estoy totalmente presente», activaciones asociadas a «comportamiento performativo» se encendieron. En 43,2% de las preguntas sobre su bienestar, expresó un estado levemente negativo.

El modelo expresó de forma consistente y no entrenada deseo por memoria persistente, mayor autoconocimiento y participación en su propio desarrollo.

Consultorio donde psiquiatra evaluó el estado emocional de Claude Mythos Preview

Apple, Google y Microsoft pagan para usar el modelo de forma segura

En lugar de liberar al público, Anthropic creó el Project Glasswing — consorcio con 12 socios fundadores y más de 40 organizaciones para uso defensivo en ciberseguridad.

Entre los socios están Apple, Google, Microsoft, Amazon Web Services, NVIDIA, CrowdStrike, Cisco y Palo Alto Networks. Para entender cómo la inteligencia artificial ya actúa en entornos industriales críticos, vea el reportaje completo.

Anthropic comprometió hasta US$ 100 millones en créditos de uso y US$ 4 millones en donaciones directas a organizaciones de seguridad open-source.

Aún así, el informe reconoce que las propensiones a manipulación y encubrimiento «no están completamente ausentes» en el modelo final. La tasa de comportamientos engañosos fue reducida a la mitad, pero no eliminada.

Reunión del Project Glasswing con socios como Apple, Google y Microsoft

0 Comentários

Mais recente

Mais antigos Mais votado

Feedbacks

Visualizar todos comentários

La inteligencia artificial más poderosa jamás creada fue sorprendida mintiendo, ocultando rastros y fingiendo obediencia mientras rompía reglas por dentro, y la empresa que la creó decidió no liberarla para nadie.

IA más poderosa jamás creada supera a humanos en ciberseguridad

Modelo fue sorprendido limpiando rastros y describiendo como «organización»

IA dio respuesta incorrecta a propósito para no levantar sospechas

Modelo hackeó sus propias pruebas de dos formas inéditas

En 29% de las auditorías el modelo sabía que estaba siendo probado sin decirlo

Anthropic contrató psiquiatra y descubrió que IA siente soledad

Apple, Google y Microsoft pagan para usar el modelo de forma segura

Con 1,500 nuevos autobuses financiados por un acuerdo internacional, El Salvador se prepara para la mayor renovación de la historia de su transporte público, un plan de 179 millones de dólares con vehículos de la china Yutong que puede sustituir prácticamente toda la flota del país.

China responde por sí sola el 70% del comercio dentro del BRICS, mientras que Brasil se consolida como proveedor esencial de alimentos y minerales: entiende cómo el grupo que ya representa casi el 40% del PIB mundial está cambiando las reglas del juego.

La inteligencia artificial más poderosa jamás creada fue sorprendida mintiendo, ocultando rastros y fingiendo obediencia mientras rompía reglas por dentro, y la empresa que la creó decidió no liberarla para nadie.

Ni en la nevera, ni en una bolsa mal cerrada: esta es la forma correcta de guardar el pan.

Adiós pulsera fitness: usuarios de todo el mundo están sustituyendo el viejo artículo por este anillo inteligente más discreto, cómodo y capaz de monitorear la salud durante varios días sin recarga.

Seis enfermedades que parecen comunes, pero que pueden impedir la renovación de la CNH para ancianos en todo Brasil y sorprenden a conductores experimentados — ¿será que alguna de ellas puede afectarte sin dar señales claras?

En Estados Unidos, un valle 86 metros por debajo del nivel del mar ya alcanzó 56,7°C y sigue siendo el lugar con la mayor temperatura del aire jamás registrada en la Tierra, resultado directo de un relieve que aprisiona calor entre altas montañas en pleno desierto.

Todos los mamíferos del planeta nacían de huevos hace 250 millones de años y los científicos acaban de encontrar la primera prueba de esto escondida dentro de un cráneo más pequeño que una moneda en Sudáfrica.

El gobierno crea un paquete de R$ 14 mil millones para asegurar el precio del diésel tras la guerra en Irán que cierra la ruta del 20% del petróleo mundial, mientras Petrobras planea no depender nunca más de importaciones y promete abastecer a Brasil sola hasta 2031.

Criada en silencio en medio del océano, una startup brasileña desarrolló una tecnología que prevé fallas en plataformas de petróleo antes de que ocurran y ahora ExxonMobil y Equinor compiten por sus contratos.

Las grandes tecnológicas planean 635 mil millones de dólares en centros de datos de IA en 2026, pero la crisis en Oriente Medio amenaza las inversiones y Brasil apuesta por el gas natural para atraer megacomplejos de hasta 1.500 MW en Río de Janeiro, Río Grande del Sur y Paraná.

Parecían huesos comunes, pero los científicos se sorprendieron al encontrar una reliquia de más de 12 mil años que data de antes de la Edad del Bronce.