Investigación de la Universidad Brown combina lenguaje, gestos humanos y visión computacional para mejorar la búsqueda de objetos por robots, con un 89% de éxito medio en simulaciones e inspiración en la forma en que los perros interpretan señalamientos, miradas e intenciones en la convivencia con personas.
Robots capaces de localizar objetos por lenguaje, gestos y visión alcanzaron un 89% de éxito medio en simulaciones de la Universidad Brown, en un estudio aceptado para la HRI 2026, programada para marzo en Edimburgo.
Robots aprenden de los perros a interpretar comandos humanos
El avance parte de una dificultad común en el uso doméstico y profesional de máquinas: entender pedidos incompletos. Para una persona, pedir una llave, una taza o una herramienta parece simple. Para un sistema robótico, la tarea implica ambigüedad, movimiento, objetos parecidos y pistas imperfectas.
El equipo de la Universidad Brown desarrolló el LEGS-POMDP, sistema que combina lenguaje, señalamiento humano y observación visual. La inspiración vino de investigaciones del Brown Dog Lab sobre cómo los perros interpretan gestos y miradas, especialmente cuando los humanos señalan algo.
-
El invierno de 2026 ya tiene fecha para comenzar en Brasil, pero el avance de El Niño puede cambiar completamente el patrón climático esperado con más lluvia, frío menos intenso y riesgo reducido de nieve en el sur del país.
-
En Alemania, ingenieros perforan kilómetros de roca para montar un radiador subterráneo gigante que extrae el calor más caliente jamás alcanzado en un pozo geotérmico.
-
Píldora contra cáncer de páncreas sorprende a oncólogos al duplicar la supervivencia en estudio de fase 3 y transformar datos científicos en una escena rara de emoción
-
Novo EV da Fiat, de R$ 77 mil, traerá una reinterpretación del 147 y un consumo equivalente a 70 km/l.
La propuesta no trata el gesto como una línea exacta. El señalamiento se modela como un cono de probabilidad, más cercano al comportamiento humano real. Así, el robot estima un área probable del objetivo, en lugar de asumir que el dedo indica una dirección perfectamente precisa.
Este detalle es central porque las personas rara vez se comunican como manuales técnicos. Hablan de manera abreviada, señalan de forma aproximada, cambian de posición y pueden ocultar parcialmente el objeto que desean. El sistema intenta transformar este escenario inestable en decisiones calculadas.
Cómo el sistema decide dónde buscar
El nombre LEGS-POMDP hace referencia a una estructura probabilística basada en proceso de decisión de Markov parcialmente observable. En la práctica, ayuda a la máquina a actuar cuando no tiene toda la información necesaria sobre el entorno, el objeto o la intención humana.
En lugar de decidir demasiado rápido, el sistema mantiene hipótesis sobre la identidad y la ubicación del objeto buscado. Estas hipótesis se actualizan a medida que aparecen nuevas pistas, incluyendo descripción verbal, dirección del gesto y lectura visual de la escena.
La combinación permite que el robot explore mejor el espacio antes de concluir la búsqueda. Puede ajustar el punto de vista, revisar una posibilidad y posponer la elección final hasta reunir evidencias más sólidas sobre dónde está el objeto correcto.
En los experimentos, la integración multimodal superó enfoques basados solo en lenguaje o solo en gestos. El resultado refuerza la idea de que la comunicación humana depende de la suma de señales, y no de una única instrucción aislada.
Pruebas indican avance, pero aún con límites
La tasa media de 89% fue registrada en simulaciones descritas como exigentes. El equipo también realizó pruebas con un robot cuadrúpedo real, usadas como validación cualitativa del enfoque. La investigación será presentada en la HRI 2026, entre el 16 y 19 de marzo de 2026.
El uso de un modelo de visión-lenguaje amplía la capacidad del sistema de interpretar escenas. Con ello, la máquina puede relacionar descripciones verbales, restricciones espaciales y objetos visibles, incluso cuando hay desorganización, similitud entre elementos u obstáculos en el camino.
Las aplicaciones sugeridas involucran entornos cotidianos e industriales. En una casa, los robots podrían buscar medicamentos en una encimera llena de objetos o encontrar gafas entre elementos esparcidos. En un taller, podrían recuperar piezas y herramientas sin comandos excesivamente precisos.
Aun así, los resultados no significan que asistentes mecánicos totalmente intuitivos ya estén disponibles. El dato de 89% proviene de simulaciones, mientras que las pruebas físicas apuntan a robustez, pero no eliminan los desafíos de entornos reales, variados e imprevisibles.
El avance ayuda a acercar laboratorios a situaciones cotidianas, donde pedidos simples siempre llevan ruidos, pausas e imprecisiones.
El principal avance está en la forma de lidiar con la incertidumbre. Al observar perros, gestos humanos y lenguaje natural, la robótica gana un camino para crear máquinas menos dependientes de comandos rígidos y más capaces de interpretar intenciones en el contexto.
Haga clic aquí para consultar el estudio.

¡Sé la primera persona en reaccionar!