1. Inicio
  2. / Ciencia y tecnología
  3. / Nueva tecnología de traducción utiliza inteligencia artificial para traducir, en tiempo real, las intervenciones de varias personas simultáneamente.
Tiempo de lectura 4 min de lectura Comentarios 0 comentarios

Nueva tecnología de traducción utiliza inteligencia artificial para traducir, en tiempo real, las intervenciones de varias personas simultáneamente.

Escrito por Fabio Lucas Carvalho
Publicado el 09/05/2025 a las 22:12
tradução
Foto: Reprodução
¡Sé la primera persona en reaccionar!
Reaccionar al artículo

Nuevo sistema de auriculares con inteligencia artificial identifica voces en grupo, traduce en tiempo real y simula el tono de cada persona, ofreciendo una experiencia más natural y fluida en diferentes idiomas.

Pronto será posible comunicarse con personas de varios idiomas diferentes sin aprender el idioma de ellos. Ese es el objetivo de un nuevo sistema de auriculares con inteligencia artificial.

Llamado Spatial Speech Translation, traduce las hablas de múltiples personas, en tiempo real, con base en la dirección de la voz y las características únicas de cada orador.

Tecnología para romper barreras lingüísticas

El proyecto fue desarrollado por investigadores de la Universidad de Washington, en Estados Unidos.

La idea surgió de experiencias personales, como cuenta el profesor Shyam Gollakota. “Mi madre tiene ideas increíbles cuando habla en telugu, pero es difícil para ella comunicarse con las personas en EE.UU. cuando nos visita”, dice. “Creemos que este sistema puede transformar la vida de personas como ella.

A diferencia de otras soluciones que se enfocan en solo un hablante, el nuevo sistema reconoce y traduce múltiples voces al mismo tiempo.

Además, evita el sonido artificial común en otras traducciones automáticas. Funciona con auriculares con cancelación de ruido y micrófonos comunes, conectados a una laptop con chip M2 de Apple, el mismo usado en el Vision Pro.

La presentación del proyecto ocurrió este mes en la conferencia ACM CHI on Human Factors in Computing Systems, en Yokohama, Japón.

Cómo funciona el sistema

El Spatial Speech Translation utiliza dos modelos de inteligencia artificial. El primero divide el espacio alrededor del usuario en pequeñas áreas y localiza las fuentes sonoras con base en redes neuronales.

El segundo modelo traduce las hablas de idiomas como francés, alemán y español al inglés, además de simular el tono y el estilo de voz de cada hablante.

Esto permite que el sonido traducido parezca venir de la misma dirección del orador original y con una voz muy parecida a la de él, en lugar de un sonido genérico de máquina. La tecnología utiliza bases de datos públicas para realizar las traducciones y simulaciones de voz.

Samuele Cornell, investigador de Carnegie Mellon University, destaca la complejidad de la tarea. “Separar voces humanas ya es difícil para sistemas de IA. Hacerlo en tiempo real y con baja latencia es impresionante”, afirma. Aunque no participó del proyecto, considera que los primeros resultados son bastante prometedores.

Desafíos aún persisten

A pesar de los avances, el sistema aún enfrenta desafíos. El principal de ellos es el tiempo de respuesta entre la habla y la traducción. Hoy hay un pequeño retraso, y el equipo de Gollakota quiere reducir ese tiempo a menos de un segundo.

El objetivo es mantener la fluidez de la conversación entre personas de diferentes idiomas”, explica el investigador. Sin embargo, esta reducción en el tiempo puede afectar la precisión de la traducción, según especialistas.

Esto ocurre porque, cuanto más contexto tiene la IA, mejor es la traducción. Menos tiempo puede significar menor calidad.

La velocidad también varía según el idioma. La traducción del francés al inglés es más rápida. El español viene a continuación, y el alemán es el más lento entre los tres. Esto se debe a la estructura de las frases. En alemán, por ejemplo, el verbo suele ir al final, lo que retrasa la interpretación del mensaje.

Una aplicación prometedora

Para Alina Karakanta, profesora de la Universidad de Leiden, en los Países Bajos, y especialista en lingüística computacional, el sistema tiene gran potencial. Ella no participó del estudio, pero cree que puede tener un impacto positivo. “Es una aplicación útil. Puede ayudar a las personas”, afirma.

La traducción en tiempo real aún es un campo en evolución. Modelos de lenguaje más avanzados ya han mejorado bastante los resultados en los últimos años.

En aplicaciones como Google Traductor o herramientas como ChatGPT, los idiomas con muchos datos disponibles ya son traducidos con excelente calidad. Sin embargo, aún no es algo totalmente instantáneo.

El sistema presentado ahora da un paso más. Combina localización espacial, identificación de voz y traducción simultánea. Todo esto con un sonido más natural y personalizado.

El futuro de la comunicación sin barreras

El proyecto muestra un camino prometedor para el uso de la inteligencia artificial en interacciones humanas. La posibilidad de entender a varias personas hablando diferentes idiomas, al mismo tiempo, puede transformar reuniones internacionales, encuentros familiares y situaciones cotidianas en ambientes multilingües.

Pero, como recuerda el investigador Claudio Fantinuoli, de la Universidad Johannes Gutenberg, en Alemania, aún hay limitaciones técnicas que superar. “Es necesario equilibrar velocidad y precisión. Esperar más trae más contexto, pero reduce la fluidez”, explica.

El equipo sigue trabajando para mejorar el sistema. Si logra reducir el tiempo de respuesta y mantener la calidad de la traducción, el Spatial Speech Translation puede convertirse en una herramienta esencial para romper barreras lingüísticas en todo el mundo.

Suscribir
Notificar de
guest
0 Comentarios
Más reciente
Más viejo Más votado
Comentario
Ver todos los comentarios
Etiquetas
Fabio Lucas Carvalho

Periodista especializado en una amplia variedad de temas, como automóviles, tecnología, política, industria naval, geopolítica, energía renovable y economía. Me desempeño desde 2015 con publicaciones destacadas en importantes portales de noticias. Mi formación en Gestión en Tecnología de la Información por la Facultad de Petrolina (Facape) aporta una perspectiva técnica única a mis análisis y reportajes. Con más de 10 mil artículos publicados en medios de renombre, siempre busco ofrecer información detallada y perspectivas relevantes para el lector.

Compartir en aplicaciones
0
Nos encantaría conocer tu opinión sobre este tema, ¡deja tu comentario!x