Conozca el Innovador Spatial Speech Translation, que Permite Entender Diversas Personas Hablando Idiomas Diferentes al Mismo Tiempo con Precisión y Realismo Sonoro
La nueva tecnología presentada en Japón transforma los encuentros entre diferentes idiomas. La MIT Technology Review divulgó detalles sobre un modelo que combina inteligencia artificial con captación de sonido espacial.
Un desarrollo recientemente presentado en la conferencia ACM CHI en Yokohama (Japón) promete transformar radicalmente la forma en que las personas interactúan en entornos multilingües. Ante el surgimiento de esta nueva tecnología, la MIT Technology Review reveló más información.
Se trata del Spatial Speech Translation, un sistema de traducción simultánea basado en inteligencia artificial que permite a los usuarios de auriculares identificar y comprender lo que varias personas dicen al mismo tiempo — incluso si hablan idiomas diferentes.
-
Parece ciencia ficción, pero ya existe: un barco eléctrico sueco usa batería de coche, casco de fibra de carbono e hidrofólios inteligentes para volar sobre el agua y navegar 105 km en silencio casi total.
-
Visita de Trump a China puede revelar el futuro que asusta a los obreros: fábricas oscuras, robots trabajando sin parar y empleos industriales desapareciendo ante los ojos de Estados Unidos
-
Un estudiante de escuela pública creó solo una máquina capaz de tratar agua para hasta 50 personas usando solo energía solar, fue premiada con el tercer lugar en una de las ferias científicas más importantes del mundo.
-
Investigadores liderados por Suiza advierten que el turismo en glaciares en derretimiento podría estar destruyendo precisamente los paisajes que los visitantes quieren ver antes de que desaparezcan, y que las cubiertas de geotextil y los vuelos en helicóptero solo agravan el problema en lugar de resolverlo.
Diseñado para funcionar con auriculares convencionales con cancelación de ruido, el sistema no solo traduce, sino que también reproduce la voz traducida con un timbre y dirección espacial que imita a la persona original, generando una experiencia de conversación más natural y contextualizada.
Un Sistema Contra la Barrera del Idioma en Grupos
El objetivo del Spatial Speech Translation es enfrentar uno de los desafíos más complejos para los sistemas automáticos de traducción: la superposición de voces en conversaciones en grupo.
Con esta tecnología, la inteligencia artificial se utiliza para rastrear tanto la origen espacial del sonido como las características individuales de cada voz, lo que permite al usuario identificar con precisión quién está hablando y lo que se está diciendo.
La propuesta va más allá de una simple traducción simultánea. Según la descripción técnica, el modelo divide el ambiente acústico del usuario en pequeñas regiones y analiza cada una de ellas para detectar posibles interlocutores.
Este reconocimiento posibilita generar una versión traducida de cada voz que preserva elementos esenciales como la dirección del sonido, el tono emocional y el timbre original — resultando en una experiencia auditiva más realista.
La Dimensión Personal Detrás del Proyecto
La iniciativa tiene una motivación profundamente personal para uno de sus idealizadores, el profesor Shyam Gollakota, investigador de la Universidad de Washington. En declaraciones compartidas con la MIT Technology Review, Gollakota explicó: “Creemos que este sistema puede ser transformador”.
A partir de una perspectiva humanista, se defiende que la tecnología no debe solo facilitar la comunicación, sino también promover una mayor inclusión social para personas que enfrentan barreras lingüísticas.
Más que resolver casos específicos, el proyecto busca reducir la ansiedad y el aislamiento que muchos sienten al no poder participar plenamente en una conversación por no dominar el idioma.

Inteligencia Artificial en Dos Niveles: Cómo Funciona
El sistema está compuesto por dos modelos interdependientes. El primero analiza el espacio sonoro con una red neuronal que divide el ambiente en pequeñas zonas. A partir de esta segmentación, localiza la dirección exacta de donde provienen las voces.
El segundo modelo procesa las voces detectadas, las traduce al inglés a partir de tres idiomas — francés, alemán y español — y reconstruye una versión de la voz original, replicando elementos como tono, volumen y cadencia emocional.
El aspecto innovador radica en el hecho de que esta “voz clonada” mantiene un alto grado de naturalidad. En lugar de una traducción robótica, la persona que usa los auriculares escucha una versión sintetizada que emula la voz del hablante original, con una latencia de solo algunos segundos. Esta característica permite una dinámica de conversación más fluida que los sistemas convencionales.
Diferencias en Relación a las Tecnologías Existentes
A diferencia de otros dispositivos con traducción automática — como las gafas inteligentes de Meta —, el Spatial Speech Translation fue desarrollado para procesar múltiples voces simultáneamente. Mientras que la mayoría de los sistemas actuales se concentran en un solo interlocutor, esta propuesta busca resolver el problema real de conversaciones en grupo, con superposición de voces e idiomas.
Además, la tecnología utiliza hardware accesible: auriculares con micrófonos incorporados y laptops con chips Apple M2, que permiten la ejecución de los modelos de redes neuronales. Esta compatibilidad con tecnologías disponibles en el mercado favorece una posible adopción a gran escala.
Desafíos y Próximos Pasos
Uno de los principales desafíos enfrentados por el equipo es reducir la latencia entre el habla y su traducción. Actualmente, el retraso es de algunos segundos, lo que afecta la fluidez de la conversación. “Queremos reducir significativamente esa latencia a menos de un segundo, para mantener el ritmo de la conversación”, explicó Gollakota.
Este objetivo presenta dificultades técnicas complejas, ya que la estructura sintáctica de cada idioma influye en la velocidad de la traducción. Por ejemplo, el sistema es más rápido al traducir del francés al inglés, seguido del español y, por último, del alemán.
Según el investigador Claudio Fantinuoli, de la Universidad Johannes Gutenberg de Mainz, esto ocurre porque el alemán suele colocar los verbos — y, por lo tanto, gran parte del significado — al final de las frases.
Varios especialistas que no participaron en el desarrollo elogiaron el avance. Samuele Cornell, investigador del Instituto de Tecnologías del Lenguaje de Carnegie Mellon, destacó que el proyecto es técnicamente impresionante, pero advirtió que, para su aplicación masiva, será necesario más entrenamiento con datos reales y grabaciones en entornos ruidosos.


¡Sé la primera persona en reaccionar!