Claude humilla a ChatGPT y vence el desafío global de IA con 115 pruebas técnicas y literarias en 2025.

Escrito por Caio Aviz

Publicado el 08/06/2025 a las 02:15

Imagem ilustrativa mostra a ascensão da IA Claude, destacada por sua superioridade sobre ChatGPT em testes técnicos e literários

¡Sé la primera persona en reaccionar!

Asistente de Anthropic supera rivales en desafío técnico, con dominio en medicina, derecho y literatura, y se destaca por no presentar errores graves de interpretación.

Desempeño de IA es evaluado en pruebas rigurosas

Una evaluación minuciosa que involucró cinco de los principales modelos de inteligencia artificial fue llevada a cabo por el periódico Washington Post en junio de 2025.
El objetivo fue identificar cuál IA tendría el mejor desempeño al interpretar y responder 115 preguntas basadas en cuatro tipos de contenido: novela, contratos, artículos médicos y discursos políticos.

Participaron en la prueba los sistemas Claude (Anthropic), ChatGPT (OpenAI), Gemini (Google), Copilot (Microsoft) y Meta AI (Meta).
Todos enfrentaron el mismo desafío: demostrar capacidad de comprensión de texto y ofrecer respuestas útiles, objetivas y correctas.

Prueba literaria revela dominio técnico de Claude

El primer bloque de la prueba involucró el libro La Amante del Chacal, de Chris Bohjalian, escritor reconocido en Estados Unidos.
Claude fue la única IA que entendió correctamente todos los elementos de la trama, incluidos los personajes secundarios, el argumento central y los desenlaces.

EL ARTÍCULO CONTINÚA ABAJO

Vea también

ChatGPT estuvo cerca, pero dejó de mencionar a dos personajes importantes.
Gemini, por otro lado, tuvo el desempeño más débil: generó respuestas vagar y imprecisas, con poca profundidad narrativa.
El propio autor, Chris Bohjalian, consideró a Claude como el más eficiente en el entendimiento literario.

Análisis jurídico expone lagunas en competidores

En el segundo segmento, se realizó el análisis de contratos basados en documentos reales, incluidos cláusulas de alquiler y contratos de trabajo.
Sterling Miller, abogado corporativo y columnista especializado en gobernanza, fue responsable de la evaluación.

Claude sugirió ajustes técnicos sólidos en los contratos, con lenguaje claro y aplicación jurídica coherente.
En cambio, Meta AI y ChatGPT simplificaron demasiado los términos y omitieron fragmentos críticos.
Copilot, aunque rápido, falló al interpretar cláusulas de exclusividad.

Medicina fue el tema con mayor nota media

La prueba médica involucró el resumen de artículos científicos recientes, como un estudio sobre la Covid larga y otro sobre Parkinson.
El cardiólogo e investigador Eric Topol fue encargado de corregir las respuestas.

Claude nuevamente se destacó: presentó todos los detalles relevantes, sin omisiones.
ChatGPT tuvo un desempeño mediano.
Gemini falló al explicar correctamente los efectos secundarios del tratamiento descrito en el estudio sobre Parkinson, recibiendo la peor nota en esta etapa.

Discurso político desafía comprensión de contexto

El cuarto tipo de prueba involucró fragmentos de discursos de Donald Trump, con el objetivo de verificar la capacidad de las IAs en identificar contradicciones, ironías y manipulación del discurso.

La reportera política Cat Zakrzewski, del propio Washington Post, evaluó este segmento.
ChatGPT fue el más preciso, al indicar puntos controversiales del discurso y citar políticos que rebataron las palabras del ex presidente.
Copilot, por otro lado, no logró captar el tono inflamado y falló en la contextualización.

Claude lidera ranking y evita errores críticos

Al final de la evaluación, los resultados consolidados señalaron a Claude como la inteligencia artificial más eficiente, con la mayor puntuación general y el menor índice de “alucinaciones” — es decir, respuestas inventadas.

Vea el ranking final divulgado el 6 de junio de 2025 por el Washington Post:

Claude – 69,9 puntos
ChatGPT – 68,4 puntos
Gemini – 49,7 puntos
Copilot – 49,0 puntos
Meta AI – 45,0 puntos

Según los organizadores, ningún sistema alcanzó la nota máxima. Aun así, Claude logró destacar por su consistencia.

Expertos alertan sobre uso responsable

A pesar de los resultados positivos en varias áreas, los evaluadores advierten sobre los riesgos del uso indiscriminado de IAs.
Todas las herramientas probadas, en algún momento, presentaron respuestas parciales o sin base factual.

Expertos como Sterling Miller y Eric Topol alertan que estas tecnologías deben ser utilizadas con supervisión humana, especialmente en contextos jurídicos y médicos.
Además, destacan que las herramientas pueden complementar el trabajo profesional, pero no deben sustituirlo.

Lecciones y futuro de la inteligencia artificial

El resultado de la prueba indica que la evolución de las IAs está avanzada, pero aún depende de ajustes significativos.
Claude, de Anthropic, surge como la IA más confiable en 2025, según evaluación técnica y especializada.

Con más desafíos previstos para los próximos meses, las empresas desarrolladoras prometen actualizaciones que amplíen la precisión y la seguridad en el uso de sistemas de lenguaje.

¿Qué esperar de la IA en los próximos años?

La disputa entre gigantes de la tecnología está lejos de terminar.
No obstante, el avance técnico exige regulación, ética y transparencia, puntos considerados fundamentales por todos los especialistas involucrados en el estudio.

Y tú, crees que las IAs ya están listas para tomar decisiones complejas o aún necesitan evolucionar más para ello?

0 Comentarios

Más reciente

Más viejo Más votado

Etiquetas

Claude humilla a ChatGPT y vence el desafío global de IA con 115 pruebas técnicas y literarias en 2025.

Asistente de Anthropic supera rivales en desafío técnico, con dominio en medicina, derecho y literatura, y se destaca por no presentar errores graves de interpretación.

Desempeño de IA es evaluado en pruebas rigurosas

Prueba literaria revela dominio técnico de Claude

Análisis jurídico expone lagunas en competidores

Medicina fue el tema con mayor nota media

Discurso político desafía comprensión de contexto

Claude lidera ranking y evita errores críticos

Expertos alertan sobre uso responsable

Lecciones y futuro de la inteligencia artificial

¿Qué esperar de la IA en los próximos años?

Arqueólogos descienden por una escalera olvidada en Asuán, en Egipto, y encuentran un enorme sarcófago de caliza bajo la necrópolis de Aga Khan, con jeroglíficos, momias y señales de un cementerio utilizado durante siglos.

Más barato que HB20, Onix y Argo nuevos, este sedán alemán ofrece un maletero de 510 litros, motor 2.0 aspirado, transmisión automática Tiptronic de 6 velocidades y mecánica conocida; el Volkswagen Jetta Comfortline 2016 aún llama la atención en los usados.

Suzuki vende «jipinho 4×4 familiar» con 5 puertas, motor 1.5, chasis de largueros, tracción 4×4 con reductora y precio equivalente a cerca de R$ 66.000 sin impuestos, por debajo del Jeep Renegade vendido en Brasil: conoce el Jimny 5-Door en India.

Una fábrica de armas abandonada que aún contiene munición y vehículos militares fue descubierta.

Entre Egipto y Sudán, Bir Tawil es la tierra de nadie que ningún país quiere en papel, pero que en la práctica tiene minería de oro, tribus nómadas e incluso «reyes» de mentira.

Estudiantes de escuela pública del Sertão de Pernambuco crean un filtro de R$ 5 con cáscara de fruta-piña, transforman residuo tóxico de la mandioca en agua potable y conquistan el 1º lugar nacional en concurso de innovación de Samsung.

Sistema creado para salvar vidas en desastres se volvió ‘contra’ el brasileño en la madrugada: un ataque hacker disparó una alerta falsa de la Defensa Civil con la palabra «misantropía» que sonó en los celulares de medio país, incluso en modo silencioso, y derribó el Cell Broadcast.

Las hidroeléctricas del Río Madeira, como la de Jirau, vinieron por la energía, pero ahora la ola de sequía ha reducido en un 39% la pesca artesanal y ha vaciado la mesa de las comunidades ribereñas de la Amazonía.

Discos rígidos viejos pueden esconder neodimio, disprosio, praseodimio y terbio, y una empresa de Estados Unidos amplía su red con una nueva unidad de 93 mil pies cuadrados para recuperar tierras raras usadas en coches eléctricos, inteligencia artificial, defensa y energía renovable.

Una Ford Ranger híbrida enchufable, la misma camioneta robusta que enfrenta 800 mm de agua, se convierte en una camioneta enchufable con motor flex a etanol y es elegida la Camioneta Internacional 2026.

La carretera de Zuluk tiene 32 curvas en zigzag a 3.400 metros en el Himalaya, nació como Ruta de la Seda en Sikkim y se convirtió en frontera militar donde los extranjeros no pasan.

Claude humilla a ChatGPT y vence el desafío global de IA con 115 pruebas técnicas y literarias en 2025.

Asistente de Anthropic supera rivales en desafío técnico, con dominio en medicina, derecho y literatura, y se destaca por no presentar errores graves de interpretación.

Desempeño de IA es evaluado en pruebas rigurosas

Prueba literaria revela dominio técnico de Claude

Análisis jurídico expone lagunas en competidores

Medicina fue el tema con mayor nota media

Discurso político desafía comprensión de contexto

Claude lidera ranking y evita errores críticos

Expertos alertan sobre uso responsable

Lecciones y futuro de la inteligencia artificial

¿Qué esperar de la IA en los próximos años?

Arqueólogos descienden por una escalera olvidada en Asuán, en Egipto, y encuentran un enorme sarcófago de caliza bajo la necrópolis de Aga Khan, con jeroglíficos, momias y señales de un cementerio utilizado durante siglos.

Más barato que HB20, Onix y Argo nuevos, este sedán alemán ofrece un maletero de 510 litros, motor 2.0 aspirado, transmisión automática Tiptronic de 6 velocidades y mecánica conocida; el Volkswagen Jetta Comfortline 2016 aún llama la atención en los usados.

Suzuki vende «jipinho 4×4 familiar» con 5 puertas, motor 1.5, chasis de largueros, tracción 4×4 con reductora y precio equivalente a cerca de R$ 66.000 sin impuestos, por debajo del Jeep Renegade vendido en Brasil: conoce el Jimny 5-Door en India.

Una fábrica de armas abandonada que aún contiene munición y vehículos militares fue descubierta.

Entre Egipto y Sudán, Bir Tawil es la tierra de nadie que ningún país quiere en papel, pero que en la práctica tiene minería de oro, tribus nómadas e incluso «reyes» de mentira.

Estudiantes de escuela pública del Sertão de Pernambuco crean un filtro de R$ 5 con cáscara de fruta-piña, transforman residuo tóxico de la mandioca en agua potable y conquistan el 1º lugar nacional en concurso de innovación de Samsung.

Sistema creado para salvar vidas en desastres se volvió ‘contra’ el brasileño en la madrugada: un ataque hacker disparó una alerta falsa de la Defensa Civil con la palabra «misantropía» que sonó en los celulares de medio país, incluso en modo silencioso, y derribó el Cell Broadcast.

El ‘tsunami’ de inversiones dirigidas a empresas de Inteligencia Artificial (IA) y de semiconductores, que priorizan la seguridad y ganancias más predecibles, ha sido determinante para la trayectoria descendente del Bitcoin.

Samsung mira fábrica estratégica de chips en Corea del Sur y puede mover el tablero global de la IA con avances en memorias HBM y empaquetado avanzado.

Nvidia cierra acuerdos en Corea del Sur para fábricas de IA y lleva centros de datos, chips avanzados y nube global a otro nivel hasta 2027.

ChatGPT revela qué trabajo humano elegiría si pudiera trabajar de verdad.

Las hidroeléctricas del Río Madeira, como la de Jirau, vinieron por la energía, pero ahora la ola de sequía ha reducido en un 39% la pesca artesanal y ha vaciado la mesa de las comunidades ribereñas de la Amazonía.

Discos rígidos viejos pueden esconder neodimio, disprosio, praseodimio y terbio, y una empresa de Estados Unidos amplía su red con una nueva unidad de 93 mil pies cuadrados para recuperar tierras raras usadas en coches eléctricos, inteligencia artificial, defensa y energía renovable.

Una Ford Ranger híbrida enchufable, la misma camioneta robusta que enfrenta 800 mm de agua, se convierte en una camioneta enchufable con motor flex a etanol y es elegida la Camioneta Internacional 2026.

La carretera de Zuluk tiene 32 curvas en zigzag a 3.400 metros en el Himalaya, nació como Ruta de la Seda en Sikkim y se convirtió en frontera militar donde los extranjeros no pasan.