Google presenta Gemini 3.5 Live Translate: traducción de voz simultánea y fluida que imita el tono humano

SILICON VALLEY, California – 15 de junio de 2026 – Veinte años después de iniciar sus primeros experimentos de aprendizaje automático aplicados al lenguaje, Google ha anunciado hoy el lanzamiento de Gemini 3.5 Live Translate. Este nuevo modelo de inteligencia artificial enfocado en el procesamiento de audio redefine la traducción simultánea de voz a voz, transformando las conversaciones globales en experiencias fluidas, naturales y sin interrupciones.

A diferencia de los sistemas tradicionales que obligan a los interlocutores a turnarse y esperar a que el otro termine de hablar para procesar el contenido, Gemini 3.5 Live Translate funciona de manera continua. El modelo equilibra de forma inteligente el tiempo de espera necesario para captar el contexto y la inmediatez de la traducción, manteniéndose a una distancia de apenas unos segundos del orador y eliminando por completo los silencios incómodos.

Características clave: Naturalidad, contexto y robustez acústica

El nuevo modelo de Google introduce avances críticos para la comunicación en entornos reales:

Fidelidad expresiva: El audio traducido no solo traslada las palabras, sino que preserva la entonación, el ritmo, las pausas y el tono de voz del emisor original.
Detección automática multilingüe: Reconoce de forma autónoma más de 70 idiomas sin necesidad de configurar manualmente las preferencias o cambiar de interfaz.
Cancelación de ruido ambiente: Su arquitectura está optimizada para aislar la voz de manera robusta en entornos ruidosos o caóticos, como calles transitadas o terminales de transporte.

Disponibilidad e integraciones clave

La tecnología de Gemini 3.5 Live Translate comienza su despliegue global a partir de hoy a través de los siguientes canales:

Para Consumidores (Google Translate): Disponible globalmente en las aplicaciones de Android e iOS. Al conectar cualquier par de auriculares, los usuarios experimentarán una traducción fluida en tiempo real. Adicionalmente, en Android se estrena el «Modo Escucha» (listening mode), que permite pegar el teléfono a la oreja como si fuera una llamada convencional para oír la traducción de forma privada a través del auricular del dispositivo.
Para Empresas (Google Meet): Este mes se estrena en versión preliminar privada para clientes selectos de Google Workspace. Esta actualización expande el soporte técnico de solo 5 idiomas a más de 70, permitiendo conversaciones cruzadas en más de 2.000 combinaciones lingüísticas simultáneas en una sola videollamada, rompiendo la histórica barrera de tener el inglés como puente obligatorio.
Para Desarrolladores (Gemini Live API & Google AI Studio): Ya disponible en Public Preview. Plataformas de infraestructura de medios en tiempo real como Agora, Fishjam, LiveKit, Pipecat y Vision Agents ya han integrado el modelo para facilitar la creación de software de voz de terceros.

Pruebas en el mundo real: El caso de Grab

Grandes corporaciones globales ya han validado la eficiencia de la plataforma. Grab, la superapp de transporte y servicios en el sudeste asiático cuyos usuarios realizan más de 10 millones de llamadas de voz al mes, ha estado probando el modelo para conectar a viajeros y conductores internacionales.

«Durante las pruebas con Gemini 3.5 Live Translate, hemos valorado enormemente su capacidad para detectar automáticamente múltiples idiomas y traducir el habla con precisión y baja latencia», destacó Philipp Kandal, Director de Producto de Grab. Otras firmas de entretenimiento y medios, como el gigante surcoreano CJ ENM, también reportaron excelentes resultados en precisión y doblaje automatizado.

Seguridad y lucha contra la desinformación: Tecnología SynthID

En línea con los compromisos de IA responsable de Google, todo el material de audio generado por Gemini 3.5 Live Translate incluye de forma nativa la marca de agua digital SynthID. Esta señal, imperceptible para el oído humano pero completamente detectable mediante herramientas de software, se entrelaza directamente en el flujo de salida de audio para asegurar que el contenido sintético sea rastreable, ayudando a mitigar riesgos de suplantación de identidad y campañas de desinformación.

Sobre Google LLC Google es una empresa tecnológica global líder en soluciones de búsqueda, computación en la nube, software, hardware y herramientas de Inteligencia Artificial dedicadas a organizar la información del mundo y hacerla universalmente accesible y útil.

Fuente: Blog Google

Google presenta Gemini 3.5 Live Translate: traducción de voz simultánea y fluida que imita el tono humano

No sigas las tendencias. Anticípalas.

Características clave: Naturalidad, contexto y robustez acústica

Disponibilidad e integraciones clave

Pruebas en el mundo real: El caso de Grab

Seguridad y lucha contra la desinformación: Tecnología SynthID

Artículos Relacionados