Nuevo sistema de auriculares con inteligencia artificial identifica voces en grupo, traduce en tiempo real y simula el tono de cada persona, ofreciendo una experiencia más natural y fluida en diferentes idiomas.
Pronto será posible comunicarse con personas de varios idiomas diferentes sin aprender el idioma de ellos. Ese es el objetivo de un nuevo sistema de auriculares con inteligencia artificial.
Llamado Spatial Speech Translation, traduce las hablas de múltiples personas, en tiempo real, con base en la dirección de la voz y las características únicas de cada orador.
Tecnología para romper barreras lingüísticas
El proyecto fue desarrollado por investigadores de la Universidad de Washington, en Estados Unidos.
-
Las pilas de combustible que usan bacterias en el fondo del mar podrían acabar con el costoso cambio de baterías y permitir que los sensores sumergidos funcionen por mucho más tiempo.
-
Mientras los países disputan terreno para paneles solares, Suiza desenrolla paneles solares como una alfombra entre los rieles de una vía férrea activa.
-
Piauí podría recibir tecnología solar inédita en Brasil con espejos gigantes y almacenamiento térmico, en un proyecto de 100 MW que busca almacenar el calor del sol para generar energía incluso después del anochecer.
-
Científicos vierten 10 toneladas de cemento en un hormiguero abandonado en Brasil y revelan una “ciudad subterránea” con túneles, cámaras y ventilación construida por millones de hormigas
La idea surgió de experiencias personales, como cuenta el profesor Shyam Gollakota. “Mi madre tiene ideas increíbles cuando habla en telugu, pero es difícil para ella comunicarse con las personas en EE.UU. cuando nos visita”, dice. “Creemos que este sistema puede transformar la vida de personas como ella.”
A diferencia de otras soluciones que se enfocan en solo un hablante, el nuevo sistema reconoce y traduce múltiples voces al mismo tiempo.
Además, evita el sonido artificial común en otras traducciones automáticas. Funciona con auriculares con cancelación de ruido y micrófonos comunes, conectados a una laptop con chip M2 de Apple, el mismo usado en el Vision Pro.
La presentación del proyecto ocurrió este mes en la conferencia ACM CHI on Human Factors in Computing Systems, en Yokohama, Japón.
Cómo funciona el sistema
El Spatial Speech Translation utiliza dos modelos de inteligencia artificial. El primero divide el espacio alrededor del usuario en pequeñas áreas y localiza las fuentes sonoras con base en redes neuronales.
El segundo modelo traduce las hablas de idiomas como francés, alemán y español al inglés, además de simular el tono y el estilo de voz de cada hablante.
Esto permite que el sonido traducido parezca venir de la misma dirección del orador original y con una voz muy parecida a la de él, en lugar de un sonido genérico de máquina. La tecnología utiliza bases de datos públicas para realizar las traducciones y simulaciones de voz.
Samuele Cornell, investigador de Carnegie Mellon University, destaca la complejidad de la tarea. “Separar voces humanas ya es difícil para sistemas de IA. Hacerlo en tiempo real y con baja latencia es impresionante”, afirma. Aunque no participó del proyecto, considera que los primeros resultados son bastante prometedores.
Desafíos aún persisten
A pesar de los avances, el sistema aún enfrenta desafíos. El principal de ellos es el tiempo de respuesta entre la habla y la traducción. Hoy hay un pequeño retraso, y el equipo de Gollakota quiere reducir ese tiempo a menos de un segundo.
“El objetivo es mantener la fluidez de la conversación entre personas de diferentes idiomas”, explica el investigador. Sin embargo, esta reducción en el tiempo puede afectar la precisión de la traducción, según especialistas.
Esto ocurre porque, cuanto más contexto tiene la IA, mejor es la traducción. Menos tiempo puede significar menor calidad.
La velocidad también varía según el idioma. La traducción del francés al inglés es más rápida. El español viene a continuación, y el alemán es el más lento entre los tres. Esto se debe a la estructura de las frases. En alemán, por ejemplo, el verbo suele ir al final, lo que retrasa la interpretación del mensaje.
Una aplicación prometedora
Para Alina Karakanta, profesora de la Universidad de Leiden, en los Países Bajos, y especialista en lingüística computacional, el sistema tiene gran potencial. Ella no participó del estudio, pero cree que puede tener un impacto positivo. “Es una aplicación útil. Puede ayudar a las personas”, afirma.
La traducción en tiempo real aún es un campo en evolución. Modelos de lenguaje más avanzados ya han mejorado bastante los resultados en los últimos años.
En aplicaciones como Google Traductor o herramientas como ChatGPT, los idiomas con muchos datos disponibles ya son traducidos con excelente calidad. Sin embargo, aún no es algo totalmente instantáneo.
El sistema presentado ahora da un paso más. Combina localización espacial, identificación de voz y traducción simultánea. Todo esto con un sonido más natural y personalizado.
El futuro de la comunicación sin barreras
El proyecto muestra un camino prometedor para el uso de la inteligencia artificial en interacciones humanas. La posibilidad de entender a varias personas hablando diferentes idiomas, al mismo tiempo, puede transformar reuniones internacionales, encuentros familiares y situaciones cotidianas en ambientes multilingües.
Pero, como recuerda el investigador Claudio Fantinuoli, de la Universidad Johannes Gutenberg, en Alemania, aún hay limitaciones técnicas que superar. “Es necesario equilibrar velocidad y precisión. Esperar más trae más contexto, pero reduce la fluidez”, explica.
El equipo sigue trabajando para mejorar el sistema. Si logra reducir el tiempo de respuesta y mantener la calidad de la traducción, el Spatial Speech Translation puede convertirse en una herramienta esencial para romper barreras lingüísticas en todo el mundo.

¡Sé la primera persona en reaccionar!