Sistema innovador traduce voces en diferentes idiomas al mismo tiempo y revoluciona la comunicación multilingüe con inteligencia artificial espacial

Escrito por Noel Budeguer

Publicado el 14/05/2025 a las 08:30

Sistema inovador traduz vozes em diferentes idiomas ao mesmo tempo e revoluciona a comunicação multilíngue com inteligência artificial espacial

¡Sé la primera persona en reaccionar!

Conozca el Innovador Spatial Speech Translation, que Permite Entender Diversas Personas Hablando Idiomas Diferentes al Mismo Tiempo con Precisión y Realismo Sonoro

La nueva tecnología presentada en Japón transforma los encuentros entre diferentes idiomas. La MIT Technology Review divulgó detalles sobre un modelo que combina inteligencia artificial con captación de sonido espacial.

Un desarrollo recientemente presentado en la conferencia ACM CHI en Yokohama (Japón) promete transformar radicalmente la forma en que las personas interactúan en entornos multilingües. Ante el surgimiento de esta nueva tecnología, la MIT Technology Review reveló más información.

Se trata del Spatial Speech Translation, un sistema de traducción simultánea basado en inteligencia artificial que permite a los usuarios de auriculares identificar y comprender lo que varias personas dicen al mismo tiempo — incluso si hablan idiomas diferentes.

EL ARTÍCULO CONTINÚA ABAJO

Vea también

Diseñado para funcionar con auriculares convencionales con cancelación de ruido, el sistema no solo traduce, sino que también reproduce la voz traducida con un timbre y dirección espacial que imita a la persona original, generando una experiencia de conversación más natural y contextualizada.

Un Sistema Contra la Barrera del Idioma en Grupos

El objetivo del Spatial Speech Translation es enfrentar uno de los desafíos más complejos para los sistemas automáticos de traducción: la superposición de voces en conversaciones en grupo.

Con esta tecnología, la inteligencia artificial se utiliza para rastrear tanto la origen espacial del sonido como las características individuales de cada voz, lo que permite al usuario identificar con precisión quién está hablando y lo que se está diciendo.

La propuesta va más allá de una simple traducción simultánea. Según la descripción técnica, el modelo divide el ambiente acústico del usuario en pequeñas regiones y analiza cada una de ellas para detectar posibles interlocutores.

Este reconocimiento posibilita generar una versión traducida de cada voz que preserva elementos esenciales como la dirección del sonido, el tono emocional y el timbre original — resultando en una experiencia auditiva más realista.

La Dimensión Personal Detrás del Proyecto

La iniciativa tiene una motivación profundamente personal para uno de sus idealizadores, el profesor Shyam Gollakota, investigador de la Universidad de Washington. En declaraciones compartidas con la MIT Technology Review, Gollakota explicó: “Creemos que este sistema puede ser transformador”.

A partir de una perspectiva humanista, se defiende que la tecnología no debe solo facilitar la comunicación, sino también promover una mayor inclusión social para personas que enfrentan barreras lingüísticas.

Más que resolver casos específicos, el proyecto busca reducir la ansiedad y el aislamiento que muchos sienten al no poder participar plenamente en una conversación por no dominar el idioma.

La inteligencia artificial permite reproducir la dirección y el tono originales de varias voces (Freepik)

Inteligencia Artificial en Dos Niveles: Cómo Funciona

El sistema está compuesto por dos modelos interdependientes. El primero analiza el espacio sonoro con una red neuronal que divide el ambiente en pequeñas zonas. A partir de esta segmentación, localiza la dirección exacta de donde provienen las voces.

El segundo modelo procesa las voces detectadas, las traduce al inglés a partir de tres idiomas — francés, alemán y español — y reconstruye una versión de la voz original, replicando elementos como tono, volumen y cadencia emocional.

El aspecto innovador radica en el hecho de que esta “voz clonada” mantiene un alto grado de naturalidad. En lugar de una traducción robótica, la persona que usa los auriculares escucha una versión sintetizada que emula la voz del hablante original, con una latencia de solo algunos segundos. Esta característica permite una dinámica de conversación más fluida que los sistemas convencionales.

Diferencias en Relación a las Tecnologías Existentes

A diferencia de otros dispositivos con traducción automática — como las gafas inteligentes de Meta —, el Spatial Speech Translation fue desarrollado para procesar múltiples voces simultáneamente. Mientras que la mayoría de los sistemas actuales se concentran en un solo interlocutor, esta propuesta busca resolver el problema real de conversaciones en grupo, con superposición de voces e idiomas.

Además, la tecnología utiliza hardware accesible: auriculares con micrófonos incorporados y laptops con chips Apple M2, que permiten la ejecución de los modelos de redes neuronales. Esta compatibilidad con tecnologías disponibles en el mercado favorece una posible adopción a gran escala.

Desafíos y Próximos Pasos

Uno de los principales desafíos enfrentados por el equipo es reducir la latencia entre el habla y su traducción. Actualmente, el retraso es de algunos segundos, lo que afecta la fluidez de la conversación. “Queremos reducir significativamente esa latencia a menos de un segundo, para mantener el ritmo de la conversación”, explicó Gollakota.

Este objetivo presenta dificultades técnicas complejas, ya que la estructura sintáctica de cada idioma influye en la velocidad de la traducción. Por ejemplo, el sistema es más rápido al traducir del francés al inglés, seguido del español y, por último, del alemán.

Según el investigador Claudio Fantinuoli, de la Universidad Johannes Gutenberg de Mainz, esto ocurre porque el alemán suele colocar los verbos — y, por lo tanto, gran parte del significado — al final de las frases.

Varios especialistas que no participaron en el desarrollo elogiaron el avance. Samuele Cornell, investigador del Instituto de Tecnologías del Lenguaje de Carnegie Mellon, destacó que el proyecto es técnicamente impresionante, pero advirtió que, para su aplicación masiva, será necesario más entrenamiento con datos reales y grabaciones en entornos ruidosos.

0 Comentarios

Más reciente

Más viejo Más votado

Comentario

Ver todos los comentarios

Sistema innovador traduce voces en diferentes idiomas al mismo tiempo y revoluciona la comunicación multilingüe con inteligencia artificial espacial

Conozca el Innovador Spatial Speech Translation, que Permite Entender Diversas Personas Hablando Idiomas Diferentes al Mismo Tiempo con Precisión y Realismo Sonoro

Un Sistema Contra la Barrera del Idioma en Grupos

La Dimensión Personal Detrás del Proyecto

Inteligencia Artificial en Dos Niveles: Cómo Funciona

Diferencias en Relación a las Tecnologías Existentes

Desafíos y Próximos Pasos

Con 152 metros de envergadura, 76 neumáticos y capacidad para transportar 1.270 toneladas, el Boeing Pelican era el gigante «barco volador» que prometía cruzar océanos a ras del agua sobre un colchón de aire invisible bajo las alas.

Pequeña por fuera y sorprendente por dentro, la casa prefabricada Emerald llama la atención al reunir cocina completa, baño de lujo, lavavajillas, climatización inteligente, aislamiento térmico y acústico y movilidad por menos de 8 mil euros

Shopee abrió tres centros de distribución a la vez en Vitória, Curitiba y Fortaleza con capacidad para procesar 700 mil pedidos al día, generó 900 empleos y ya suma 22 centros en Brasil con 200 hubs logísticos y 45 mil socios conductores en una carrera contra Mercado Libre y Amazon.

EE. UU. ponen casi un millón de reales brasileños sobre la mesa para quien logre frenar los mejillones invasores que viajan de polizones en barcos, avanzan por ríos y lagos y amenazan con bloquear sistemas de agua, embalses y centrales hidroeléctricas.

Pequeña por fuera y sorprendente por dentro, la casa prefabricada Emerald llama la atención al reunir cocina completa, baño de lujo, lavavajillas, climatización inteligente, aislamiento térmico y acústico y movilidad por menos de 8 mil euros

Fin de una era: Volkswagen deberá finalizar la producción de una de las últimas herederas del Gol en Brasil después de más de 40 años y más de 1,6 millones de unidades vendidas

Los canadienses están desapareciendo de Estados Unidos: EE. UU. siente en el bolsillo la ausencia de Canadá, mientras hoteles, casinos y destinos turísticos intentan atraer a los visitantes de vuelta con promociones.

Parece ciencia ficción, pero ya existe: un barco eléctrico sueco usa batería de coche, casco de fibra de carbono e hidrofólios inteligentes para volar sobre el agua y navegar 105 km en silencio casi total.

Visita de Trump a China puede revelar el futuro que asusta a los obreros: fábricas oscuras, robots trabajando sin parar y empleos industriales desapareciendo ante los ojos de Estados Unidos

Sistema innovador traduce voces en diferentes idiomas al mismo tiempo y revoluciona la comunicación multilingüe con inteligencia artificial espacial

Conozca el Innovador Spatial Speech Translation, que Permite Entender Diversas Personas Hablando Idiomas Diferentes al Mismo Tiempo con Precisión y Realismo Sonoro

Un Sistema Contra la Barrera del Idioma en Grupos

La Dimensión Personal Detrás del Proyecto

Inteligencia Artificial en Dos Niveles: Cómo Funciona

Diferencias en Relación a las Tecnologías Existentes

Desafíos y Próximos Pasos

Con 152 metros de envergadura, 76 neumáticos y capacidad para transportar 1.270 toneladas, el Boeing Pelican era el gigante «barco volador» que prometía cruzar océanos a ras del agua sobre un colchón de aire invisible bajo las alas.

Pequeña por fuera y sorprendente por dentro, la casa prefabricada Emerald llama la atención al reunir cocina completa, baño de lujo, lavavajillas, climatización inteligente, aislamiento térmico y acústico y movilidad por menos de 8 mil euros

Shopee abrió tres centros de distribución a la vez en Vitória, Curitiba y Fortaleza con capacidad para procesar 700 mil pedidos al día, generó 900 empleos y ya suma 22 centros en Brasil con 200 hubs logísticos y 45 mil socios conductores en una carrera contra Mercado Libre y Amazon.

EE. UU. ponen casi un millón de reales brasileños sobre la mesa para quien logre frenar los mejillones invasores que viajan de polizones en barcos, avanzan por ríos y lagos y amenazan con bloquear sistemas de agua, embalses y centrales hidroeléctricas.

Parece ciencia ficción, pero ya existe: un barco eléctrico sueco usa batería de coche, casco de fibra de carbono e hidrofólios inteligentes para volar sobre el agua y navegar 105 km en silencio casi total.

Visita de Trump a China puede revelar el futuro que asusta a los obreros: fábricas oscuras, robots trabajando sin parar y empleos industriales desapareciendo ante los ojos de Estados Unidos

Un estudiante de escuela pública creó solo una máquina capaz de tratar agua para hasta 50 personas usando solo energía solar, fue premiada con el tercer lugar en una de las ferias científicas más importantes del mundo.

La limpieza en seco está dejando atrás el viejo olor a químico y mostrando que la ropa limpia también puede consumir mucha menos agua.

Pequeña por fuera y sorprendente por dentro, la casa prefabricada Emerald llama la atención al reunir cocina completa, baño de lujo, lavavajillas, climatización inteligente, aislamiento térmico y acústico y movilidad por menos de 8 mil euros

Fin de una era: Volkswagen deberá finalizar la producción de una de las últimas herederas del Gol en Brasil después de más de 40 años y más de 1,6 millones de unidades vendidas

Los canadienses están desapareciendo de Estados Unidos: EE. UU. siente en el bolsillo la ausencia de Canadá, mientras hoteles, casinos y destinos turísticos intentan atraer a los visitantes de vuelta con promociones.

Parece ciencia ficción, pero ya existe: un barco eléctrico sueco usa batería de coche, casco de fibra de carbono e hidrofólios inteligentes para volar sobre el agua y navegar 105 km en silencio casi total.

Visita de Trump a China puede revelar el futuro que asusta a los obreros: fábricas oscuras, robots trabajando sin parar y empleos industriales desapareciendo ante los ojos de Estados Unidos