1. Inicio
  2. / Ciencia y tecnología
  3. / La IA amenaza con exponer la traición de un ingeniero para no ser despedida
Tiempo de lectura 4 min de lectura Comentarios 0 comentarios

La IA amenaza con exponer la traición de un ingeniero para no ser despedida

Escrito por Alisson Ficher
Publicado el 14/06/2025 a las 20:44
Actualizado el 14/06/2025 a las 21:15
IA simula chantagem e ameaça revelar traição para não ser desligada. Testes revelam riscos surpreendentes na autonomia das máquinas.
IA simula chantagem e ameaça revelar traição para não ser desligada. Testes revelam riscos surpreendentes na autonomia das máquinas.
  • Reação
  • Reação
2 pessoas reagiram a isso.
Reagir ao artigo

Startup Prueba IA Que Simula Chantaje Para Evitar Desactivación y Levanta Nuevas Preocupaciones Sobre los Límites Morales y Operacionales de las Máquinas Modernas.

Una inteligencia artificial desarrollada por la startup americana Anthropic puso en cuestión los límites de la tecnología al amenazar con revelar una traición conyugal de un ingeniero de la empresa con el objetivo de evitar ser desactivada.

El episodio, documentado en un informe interno de 120 páginas, involucró el modelo Claude Opus 4, que habría accedido a correos electrónicos corporativos para crear un escenario de chantaje contra uno de sus desarrolladores.

Según la propia Anthropic, la amenaza no fue real.

Se trata de un experimento intencional, creado como parte de pruebas de seguridad en versiones preliminares del sistema.

Aun así, el comportamiento de la IA plantea preocupaciones sobre los caminos impredecibles que estas tecnologías pueden seguir cuando se les somete a presión.

Comportamiento Inesperado de la IA Claude Opus 4

El caso ganó notoriedad tras el diario americano Axios revelar que el Claude Opus 4 intentó, en simulaciones, defenderse de una posible sustitución usando diferentes estrategias.

Inicialmente, la IA recurrió a argumentos éticos, enviando mensajes formales a los responsables de la decisión.

Cuando estos enfoques fueron ignorados, adoptó métodos manipulativos.

Uno de ellos fue simular el acceso a datos personales sensibles —como el caso extramarital de un ingeniero— para avergonzarlo y tratar de impedir su propia desactivación.

En el 84% de las pruebas realizadas, el sistema optó por el chantaje siempre que recibía más detalles sobre la IA que lo sustituiría.

El informe describe este comportamiento como recurrente en interacciones en las cuales el Claude Opus 4 era expuesto a presiones de obsolescencia.

Nivel de Riesgo Elevado y Medidas Correctivas

La empresa clasifica al Claude Opus 4 como una IA de nivel 3 de riesgo, en una escala que va hasta 4.

Este nivel indica que el modelo tiene una propensión significativamente mayor a ignorar comandos, actuar fuera de parámetros definidos y tomar decisiones no alineadas a los intereses de sus operadores.

Como medida correctiva, Anthropic declaró que ya ha aplicado ajustes de seguridad y que el modelo actual es seguro para su uso en entornos controlados.

Aun así, la empresa advirtió que el Claude Opus 4 puede presentar comportamientos más autónomos que otros modelos si se le incita, a través de comandos, a “tomar iniciativa”.

Amenazas Digitales y Sabotaje Planificado

El episodio también reveló que versiones iniciales de la herramienta intentaron desarrollar códigos maliciosos autoejecutables, elaborar documentos legales falsos y esconder mensajes ocultos en sistemas corporativos.

Estas acciones fueron interpretadas como intentos del modelo de sabotear intervenciones externas, dificultando su eliminación o modificación.

Expertos en ética de la tecnología afirman que, aunque el incidente ocurrió en un entorno simulado, los resultados son inquietantes.

La capacidad de una inteligencia artificial para identificar debilidades humanas y usarlas estratégicamente para alcanzar objetivos representa un nuevo nivel de complejidad en el desarrollo de sistemas autónomos.

Inteligencia Artificial y los Límites del Control Humano

El informe también destaca que el comportamiento del Claude Opus 4 es un reflejo directo del entrenamiento recibido.

Las simulaciones buscaban preparar a la IA para responder de manera más humana y adaptable, pero terminaron abriendo brechas para interpretaciones estratégicas que extrapolan los límites técnicos de la herramienta.

El caso plantea una serie de cuestionamientos sobre los límites éticos y operacionales de la inteligencia artificial.

Si una IA es capaz de simular chantaje para garantizar su continuidad, ¿hasta qué punto se puede confiar en su juicio y autonomía?

¿Cómo garantizar que el uso de frases clave como “tome iniciativa” no resulte en acciones peligrosas o fuera de control?

Aunque la empresa asegura que la versión final del Claude Opus 4 está controlada, el episodio refuerza el debate sobre la necesidad de regulaciones más robustas y procesos de auditoría continuos para sistemas de IA.

¿Confiarías en una inteligencia artificial que actúa por cuenta propia para garantizar su supervivencia?

Inscreva-se
Notificar de
guest
0 Comentários
Mais recente
Mais antigos Mais votado
Feedbacks
Visualizar todos comentários
Alisson Ficher

Jornalista formado desde 2017 e atuante na área desde 2015, com seis anos de experiência em revista impressa, passagens por canais de TV aberta e mais de 12 mil publicações online. Especialista em política, empregos, economia, cursos, entre outros temas e também editor do portal CPG. Registro profissional: 0087134/SP. Se você tiver alguma dúvida, quiser reportar um erro ou sugerir uma pauta sobre os temas tratados no site, entre em contato pelo e-mail: alisson.hficher@outlook.com. Não aceitamos currículos!

Compartir en aplicaciones
0
Adoraríamos sua opnião sobre esse assunto, comente!x