En un estudio presentado en una gran conferencia de tecnología en San Diego, investigadores usaron Dungeons & Dragons con 3 modelos de IA en combates de 10 turnos para evaluar planificación, reglas y colaboración.
Dungeons & Dragons suele ser recordado como un juego de mesa con dados, personajes y decisiones improvisadas. Sin embargo, tiene un detalle que interesa mucho a la tecnología: reglas claras, objetivos definidos y conversación todo el tiempo.
Fue exactamente por eso que investigadores colocaron modelos de inteligencia artificial para jugar Dungeons & Dragons, no por diversión, sino como una prueba de estrategia y trabajo en equipo. La idea es observar si estos modelos pueden planificar en varias etapas, seguir reglas sin contradecirse y colaborar con otros modelos y hasta con personas.
Este tipo de evaluación tiene un objetivo muy directo: entender si la IA puede operar durante más tiempo sin intervención humana, manteniendo coherencia y decisiones confiables, algo que requiere memoria y pensamiento estratégico.
-
Satélites revelan bajo el Sahara un río gigante enterrado por miles de kilómetros: un estudio muestra que el mayor desierto cálido del planeta ya fue atravesado por un sistema fluvial comparable a los más grandes de la Tierra.
-
Científicos han capturado algo nunca visto en el espacio: estrellas recién nacidas están creando anillos gigantescos de luz mil veces mayores que la distancia entre la Tierra y el Sol y esto cambia todo lo que sabíamos sobre el nacimiento estelar.
-
Geólogos encuentran los rastros de un continente que desapareció hace 155 millones de años tras separarse de Australia y revelan que no se hundió, sino que se partió en fragmentos esparcidos por el Sudeste Asiático.
-
Samsung lanza aspiradora vertical inalámbrica con hasta 400W de succión y apuesta por IA para reconocer automáticamente esquinas, alfombras y diferentes superficies.
Por qué Dungeons & Dragons se convirtió en un campo de pruebas para decisiones largas y reglas rígidas
Los investigadores argumentan que Dungeons & Dragons es un entorno casi perfecto para este tipo de prueba porque junta dos cosas que suelen entrar en conflicto.
La primera es la creatividad, ya que todo ocurre en diálogo. La segunda es rigidez, porque el juego tiene reglas y límites bien definidos. Para desempeñarse bien, el modelo necesita comunicar, recordar lo que se decidió, planificar y también percibir las intenciones y tácticas del oponente.
El juego funciona como un puente entre lenguaje natural y mecánicas de juego, dejando claro cuándo la IA está solo hablando bien y cuándo está tomando decisiones que realmente tienen sentido dentro de un sistema de reglas.
Cómo funciona el D&D Agents, con Maestro del Juego, héroes y mezcla de IA con humanos
El experimento usó una estructura llamada D&D Agents. En ella, un único modelo puede asumir el papel del Dungeon Master, el Maestro del Juego que conduce la historia y controla monstruos, y también puede asumir el papel de un héroe.
En cada escenario, la configuración fue de 1 Maestro del Juego y 4 héroes. Y el formato es flexible: modelos pueden jugar con otros modelos, y humanos pueden ocupar cualquier papel. Un ejemplo posible es que un modelo sea el Maestro del Juego, mientras dos modelos y dos personas juegan como héroes.
Esta mezcla importa porque la prueba no mide solo la eficiencia individual, sino la coordinación y la comunicación cuando existen voces diferentes en el mismo equipo.
La prueba no fue una campaña entera, fue combate corto con 3 escenarios y 10 turnos
El sistema no intentó simular una campaña completa, aquellas que duran horas o semanas. El foco fue en encuentros de combate extraídos de una aventura lista llamada Lost Mine of Phandelver.
Para montar cada ronda, el equipo eligió 1 de 3 escenarios de combate, definió un conjunto de 4 personajes y ajustó el nivel de poder de esos personajes, con tres rangos: bajo, medio o alto.
Cada episodio duró 10 turnos, y después de eso los resultados fueron recolectados para comparar desempeño, elecciones y consistencia a lo largo del tiempo.
Tres modelos fueron comparados, y uno de ellos fue mejor cuando el juego se complicó
Los investigadores probaron tres modelos en la simulación: DeepSeek V3, Claude Haiku 3.5 y GPT 4.
La comparación usó Dungeons & Dragons como una métrica para evaluar planificación a largo plazo y capacidad de usar herramientas, entre otras cualidades.
Esto tiene relación con aplicaciones reales mencionadas en el estudio, como optimización de cadenas de suministro y creación de líneas de manufactura, además de escenarios que requieren coordinación entre agentes, como modelado de respuesta a desastres y operaciones de búsqueda y rescate.
En el resultado general, Claude Haiku 3.5 tuvo la mejor eficiencia en combate, principalmente en los escenarios más difíciles. GPT 4 quedó justo detrás. DeepSeek V3 fue el que más sufrió.
En escenarios más fáciles, la conservación de recursos fue similar entre los tres, lo que tiene sentido porque la prueba fue combate aislado, sin la presión de ahorrar para una aventura larga.
Cuando las cosas se complicaban, Claude Haiku 3.5 mostró más disposición para gastar recursos y eso llevó a mejores resultados.
Dónde entra la industria: lo que un juego revela sobre fábricas y cadenas de suministro
El puente con la industria está en el tipo de habilidad evaluada. Planificación en varios pasos, coordinación entre agentes y uso inteligente de recursos son exactamente lo que aparece en tareas como optimización de cadenas de suministro y diseño de líneas de manufactura.
La misma lógica vale para operaciones que requieren equipos de agentes trabajando juntos, como modelado de respuesta a desastres y sistemas de búsqueda y rescate. El juego se convierte en un “mini mundo” con reglas y objetivos claros, donde se puede medir si la IA puede mantenerse consistente durante suficiente tiempo para ser útil fuera del laboratorio.
El detalle más curioso: medir actuación y consistencia de personaje
Además de ganar o perder, el estudio también evaluó cómo los modelos se mantenían en el personaje, con una métrica de calidad de actuación que observa consistencia y variación de voces a lo largo de la partida.
Los investigadores observaron que algunos modelos creaban diálogos cortos y repetían estilos, mientras que otros adaptaban mejor el modo de hablar según el personaje o monstruo en escena.
Si una IA puede mantener estrategia y cooperación durante 10 turnos de decisiones encadenadas, ¿parece un buen “ensayo” para problemas largos del mundo real, o todavía es temprano para tomar en serio el resultado fuera del juego? Déjanos en los comentarios el punto que más te llamó la atención.

-
-
-
-
-
-
32 pessoas reagiram a isso.