Cinco bots de IA enfrentaron una dura prueba de lectura. Uno fue el más inteligente… y no fue ChatGPT

Qué tan bien entienden los asistentes de inteligencia artificial lo que leen? Para averiguarlo, The Washington Post puso a prueba a cinco de los chatbots de IA más populares del mercado: ChatGPT, Claude, Copilot, Meta AI y Gemini. El desafío: leer y analizar cuatro tipos de textos complejos —literarios, científicos, legales y políticos— y demostrar comprensión y capacidad crítica. El resultado reveló aciertos sorprendentes… y errores bastante preocupantes.

Desde simplificar investigaciones médicas hasta detectar errores en discursos políticos, esta competencia puso a prueba la verdadera capacidad de comprensión lectora de la inteligencia artificial. Y aunque algunos bots ofrecieron análisis notables, otros dejaron claro que aún hay mucho por mejorar. La gran sorpresa: el asistente más destacado no fue ChatGPT.

Cuatro disciplinas, cinco asistentes, un ganador inesperado

La prueba incluyó:

Literatura: la novela The Jackal’s Mistress, evaluada por su autor, Chris Bohjalian.
Derecho: dos contratos legales analizados por Sterling Miller, abogado con más de dos décadas de experiencia.
Ciencia: investigaciones sobre covid prolongado y Parkinson, juzgadas por el reconocido cardiólogo Eric Topol.
Política: discursos del expresidente Donald Trump, revisados por la periodista de la Casa Blanca Cat Zakrzewski.

Se formularon un total de 115 preguntas a los bots sobre estos documentos. Las respuestas fueron evaluadas de forma ciega por expertos de cada campo.

ChatGPT brilló en literatura, pero falló en otras áreas

En la categoría literaria, ChatGPT obtuvo la mejor puntuación (7.8/10), aunque aún con observaciones. Su resumen de The Jackal’s Mistress fue el más completo, pero omitió personajes clave y aspectos fundamentales como la esclavitud. Aun así, sus respuestas emocionales al epílogo impresionaron al propio autor: “Estas respuestas expresan exactamente lo que intentaba transmitir”, dijo Bohjalian.

¿Qué IA fue la más confiable?

La evaluación completa —que incluye puntuaciones por categoría— reveló que Claude de Anthropic fue el asistente más equilibrado y preciso en la mayoría de los temas, superando incluso a ChatGPT en cuestiones de análisis jurídico y científico. Gemini, en contraste, obtuvo la peor puntuación general, con errores graves de interpretación y resúmenes inexactos.

Lo que aprendimos

Todas las IA, menos una, “alucinaron” datos, mostrando un problema persistente de generación de información falsa.
Los bots pueden ofrecer respuestas útiles, pero aún carecen de criterio humano en temas complejos o sensibles.
Las IA se desempeñan mejor cuando se les solicita análisis subjetivo o emocional, pero fallan en detectar omisiones o errores factuales críticos.
Este tipo de herramientas no reemplazan la lectura humana, pero pueden funcionar como una especie de “superpoder” para obtener contexto rápido o simplificar el contenido.

¿Debemos confiar en las IA para leer por nosotros?

“El resumen y la interpretación automática de textos complejos es uno de los usos más demandados de la IA hoy en día”, afirma Geoffrey A. Fowler, autor de la investigación. “Pero nuestra prueba muestra que no todas las IA son iguales, y que incluso las más avanzadas necesitan vigilancia y juicio humano.”

Fuente: Washington post