Investigación de la Universidad Brown combina lenguaje, gestos humanos y visión computacional para mejorar la búsqueda de objetos por robots, con un 89% de éxito medio en simulaciones e inspiración en la forma en que los perros interpretan señalamientos, miradas e intenciones en la convivencia con personas.
Robots capaces de localizar objetos por lenguaje, gestos y visión alcanzaron un 89% de éxito medio en simulaciones de la Universidad Brown, en un estudio aceptado para la HRI 2026, programada para marzo en Edimburgo.
Robots aprenden de los perros a interpretar comandos humanos
El avance parte de una dificultad común en el uso doméstico y profesional de máquinas: entender pedidos incompletos. Para una persona, pedir una llave, una taza o una herramienta parece simple. Para un sistema robótico, la tarea implica ambigüedad, movimiento, objetos parecidos y pistas imperfectas.
El equipo de la Universidad Brown desarrolló el LEGS-POMDP, sistema que combina lenguaje, señalamiento humano y observación visual. La inspiración vino de investigaciones del Brown Dog Lab sobre cómo los perros interpretan gestos y miradas, especialmente cuando los humanos señalan algo.
-
En una tumba en la antigua capital egipcia de Tanis, en el delta del Nilo, arqueólogos encontraron 225 estatuillas funerarias que deberían servir al muerto en la vida después de la muerte.
-
La IA promete revolucionar el mundo, pero sus centros de datos pueden crear una crisis tóxica invisible: un estudio de Nature calcula hasta 5 millones de toneladas de desechos electrónicos para 2030, con servidores, GPUs, plomo, cadmio y metales raros que el reciclaje global aún no puede absorber.
-
11 países africanos corren contra el avance del Sahara con una muralla verde de 8 mil km, miles de millones de dólares en apoyo internacional y la misión casi imposible de restaurar 100 millones de hectáreas antes de que el desierto transforme tierras fértiles en zonas muertas.
-
Parecía ciencia ficción, pero ya está en prueba: los científicos quieren rociar sal en el cielo para transformar nubes en espejos gigantes, reflejar la luz del Sol e intentar enfriar el planeta antes de que el calentamiento global se salga aún más de control.
La propuesta no trata el gesto como una línea exacta. El señalamiento se modela como un cono de probabilidad, más cercano al comportamiento humano real. Así, el robot estima un área probable del objetivo, en lugar de asumir que el dedo indica una dirección perfectamente precisa.
Este detalle es central porque las personas rara vez se comunican como manuales técnicos. Hablan de manera abreviada, señalan de forma aproximada, cambian de posición y pueden ocultar parcialmente el objeto que desean. El sistema intenta transformar este escenario inestable en decisiones calculadas.
Cómo el sistema decide dónde buscar
El nombre LEGS-POMDP hace referencia a una estructura probabilística basada en proceso de decisión de Markov parcialmente observable. En la práctica, ayuda a la máquina a actuar cuando no tiene toda la información necesaria sobre el entorno, el objeto o la intención humana.
En lugar de decidir demasiado rápido, el sistema mantiene hipótesis sobre la identidad y la ubicación del objeto buscado. Estas hipótesis se actualizan a medida que aparecen nuevas pistas, incluyendo descripción verbal, dirección del gesto y lectura visual de la escena.
La combinación permite que el robot explore mejor el espacio antes de concluir la búsqueda. Puede ajustar el punto de vista, revisar una posibilidad y posponer la elección final hasta reunir evidencias más sólidas sobre dónde está el objeto correcto.
En los experimentos, la integración multimodal superó enfoques basados solo en lenguaje o solo en gestos. El resultado refuerza la idea de que la comunicación humana depende de la suma de señales, y no de una única instrucción aislada.
Pruebas indican avance, pero aún con límites
La tasa media de 89% fue registrada en simulaciones descritas como exigentes. El equipo también realizó pruebas con un robot cuadrúpedo real, usadas como validación cualitativa del enfoque. La investigación será presentada en la HRI 2026, entre el 16 y 19 de marzo de 2026.
El uso de un modelo de visión-lenguaje amplía la capacidad del sistema de interpretar escenas. Con ello, la máquina puede relacionar descripciones verbales, restricciones espaciales y objetos visibles, incluso cuando hay desorganización, similitud entre elementos u obstáculos en el camino.
Las aplicaciones sugeridas involucran entornos cotidianos e industriales. En una casa, los robots podrían buscar medicamentos en una encimera llena de objetos o encontrar gafas entre elementos esparcidos. En un taller, podrían recuperar piezas y herramientas sin comandos excesivamente precisos.
Aun así, los resultados no significan que asistentes mecánicos totalmente intuitivos ya estén disponibles. El dato de 89% proviene de simulaciones, mientras que las pruebas físicas apuntan a robustez, pero no eliminan los desafíos de entornos reales, variados e imprevisibles.
El avance ayuda a acercar laboratorios a situaciones cotidianas, donde pedidos simples siempre llevan ruidos, pausas e imprecisiones.
El principal avance está en la forma de lidiar con la incertidumbre. Al observar perros, gestos humanos y lenguaje natural, la robótica gana un camino para crear máquinas menos dependientes de comandos rígidos y más capaces de interpretar intenciones en el contexto.
Haga clic aquí para consultar el estudio.

¡Sé la primera persona en reaccionar!