Asistente de Anthropic supera rivales en desafío técnico, con dominio en medicina, derecho y literatura, y se destaca por no presentar errores graves de interpretación.
Desempeño de IA es evaluado en pruebas rigurosas
Una evaluación minuciosa que involucró cinco de los principales modelos de inteligencia artificial fue llevada a cabo por el periódico Washington Post en junio de 2025.
El objetivo fue identificar cuál IA tendría el mejor desempeño al interpretar y responder 115 preguntas basadas en cuatro tipos de contenido: novela, contratos, artículos médicos y discursos políticos.
Participaron en la prueba los sistemas Claude (Anthropic), ChatGPT (OpenAI), Gemini (Google), Copilot (Microsoft) y Meta AI (Meta).
Todos enfrentaron el mismo desafío: demostrar capacidad de comprensión de texto y ofrecer respuestas útiles, objetivas y correctas.
Prueba literaria revela dominio técnico de Claude
El primer bloque de la prueba involucró el libro La Amante del Chacal, de Chris Bohjalian, escritor reconocido en Estados Unidos.
Claude fue la única IA que entendió correctamente todos los elementos de la trama, incluidos los personajes secundarios, el argumento central y los desenlaces.
-
El ‘tsunami’ de inversiones dirigidas a empresas de Inteligencia Artificial (IA) y de semiconductores, que priorizan la seguridad y ganancias más predecibles, ha sido determinante para la trayectoria descendente del Bitcoin.
-
Samsung mira fábrica estratégica de chips en Corea del Sur y puede mover el tablero global de la IA con avances en memorias HBM y empaquetado avanzado.
-
Nvidia cierra acuerdos en Corea del Sur para fábricas de IA y lleva centros de datos, chips avanzados y nube global a otro nivel hasta 2027.
-
ChatGPT revela qué trabajo humano elegiría si pudiera trabajar de verdad.
ChatGPT estuvo cerca, pero dejó de mencionar a dos personajes importantes.
Gemini, por otro lado, tuvo el desempeño más débil: generó respuestas vagar y imprecisas, con poca profundidad narrativa.
El propio autor, Chris Bohjalian, consideró a Claude como el más eficiente en el entendimiento literario.
Análisis jurídico expone lagunas en competidores
En el segundo segmento, se realizó el análisis de contratos basados en documentos reales, incluidos cláusulas de alquiler y contratos de trabajo.
Sterling Miller, abogado corporativo y columnista especializado en gobernanza, fue responsable de la evaluación.
Claude sugirió ajustes técnicos sólidos en los contratos, con lenguaje claro y aplicación jurídica coherente.
En cambio, Meta AI y ChatGPT simplificaron demasiado los términos y omitieron fragmentos críticos.
Copilot, aunque rápido, falló al interpretar cláusulas de exclusividad.
Medicina fue el tema con mayor nota media
La prueba médica involucró el resumen de artículos científicos recientes, como un estudio sobre la Covid larga y otro sobre Parkinson.
El cardiólogo e investigador Eric Topol fue encargado de corregir las respuestas.
Claude nuevamente se destacó: presentó todos los detalles relevantes, sin omisiones.
ChatGPT tuvo un desempeño mediano.
Gemini falló al explicar correctamente los efectos secundarios del tratamiento descrito en el estudio sobre Parkinson, recibiendo la peor nota en esta etapa.
Discurso político desafía comprensión de contexto
El cuarto tipo de prueba involucró fragmentos de discursos de Donald Trump, con el objetivo de verificar la capacidad de las IAs en identificar contradicciones, ironías y manipulación del discurso.
La reportera política Cat Zakrzewski, del propio Washington Post, evaluó este segmento.
ChatGPT fue el más preciso, al indicar puntos controversiales del discurso y citar políticos que rebataron las palabras del ex presidente.
Copilot, por otro lado, no logró captar el tono inflamado y falló en la contextualización.
Claude lidera ranking y evita errores críticos
Al final de la evaluación, los resultados consolidados señalaron a Claude como la inteligencia artificial más eficiente, con la mayor puntuación general y el menor índice de “alucinaciones” — es decir, respuestas inventadas.
Vea el ranking final divulgado el 6 de junio de 2025 por el Washington Post:
- Claude – 69,9 puntos
- ChatGPT – 68,4 puntos
- Gemini – 49,7 puntos
- Copilot – 49,0 puntos
- Meta AI – 45,0 puntos
Según los organizadores, ningún sistema alcanzó la nota máxima. Aun así, Claude logró destacar por su consistencia.
Expertos alertan sobre uso responsable
A pesar de los resultados positivos en varias áreas, los evaluadores advierten sobre los riesgos del uso indiscriminado de IAs.
Todas las herramientas probadas, en algún momento, presentaron respuestas parciales o sin base factual.
Expertos como Sterling Miller y Eric Topol alertan que estas tecnologías deben ser utilizadas con supervisión humana, especialmente en contextos jurídicos y médicos.
Además, destacan que las herramientas pueden complementar el trabajo profesional, pero no deben sustituirlo.
Lecciones y futuro de la inteligencia artificial
El resultado de la prueba indica que la evolución de las IAs está avanzada, pero aún depende de ajustes significativos.
Claude, de Anthropic, surge como la IA más confiable en 2025, según evaluación técnica y especializada.
Con más desafíos previstos para los próximos meses, las empresas desarrolladoras prometen actualizaciones que amplíen la precisión y la seguridad en el uso de sistemas de lenguaje.
¿Qué esperar de la IA en los próximos años?
La disputa entre gigantes de la tecnología está lejos de terminar.
No obstante, el avance técnico exige regulación, ética y transparencia, puntos considerados fundamentales por todos los especialistas involucrados en el estudio.
Y tú, crees que las IAs ya están listas para tomar decisiones complejas o aún necesitan evolucionar más para ello?

¡Sé la primera persona en reaccionar!