Google acelera Gemma 4: Nuevos «Drafters» de predicción multi-token triplican la velocidad de inferencia

MOUNTAIN VIEW, Calif. – 5 de mayo de 2026 – Tras el exitoso lanzamiento de Gemma 4, que ha superado los 60 millones de descargas […]

Artículos

ESCRITO POR

Comunicación LinkSpace

ACTUALIZADO

8 de mayo, 2026

En este artículo

MOUNTAIN VIEW, Calif. – 5 de mayo de 2026 – Tras el exitoso lanzamiento de Gemma 4, que ha superado los 60 millones de descargas en sus primeras semanas, Google ha anunciado hoy una actualización técnica crucial para su familia de modelos abiertos: la liberación de los MTP Drafters (Multi-Token Prediction). Esta tecnología de decodificación especulativa permite alcanzar una velocidad hasta 3 veces superior sin sacrificar la calidad de las respuestas ni la lógica de razonamiento.

Rompiendo el cuello de botella de la latencia

Tradicionalmente, la inferencia de los modelos de lenguaje (LLM) ha estado limitada por el ancho de banda de la memoria. Los procesadores suelen pasar más tiempo moviendo parámetros de la VRAM que realizando cálculos, lo que resulta en una generación de texto lenta, especialmente en hardware de consumo.

La nueva arquitectura de decodificación especulativa de Google cambia las reglas del juego al desacoplar la generación de la verificación:

  1. Predicción: Un modelo ligero (el «Drafter» MTP) predice múltiples tokens futuros de forma simultánea y ultrarrápida.
  2. Verificación: El modelo principal y más pesado (como el Gemma 4 31B) verifica toda la secuencia sugerida en un solo paso paralelo.
  3. Aceleración: Si el modelo principal coincide con la predicción, se acepta toda la cadena de texto instantáneamente, ahorrando múltiples ciclos de computación.

Beneficios clave para desarrolladores y usuarios

Esta actualización es especialmente relevante para aplicaciones que requieren respuestas en tiempo real y procesamiento local:

  • Desarrollo Local Potenciado: Los modelos más robustos, como el 26B MoE y el 31B Dense, ahora pueden ejecutarse en computadoras personales y GPUs de consumo con una fluidez sin precedentes.
  • Eficiencia en Dispositivos Edge: Para los modelos móviles (E2B y E4B), la generación más rápida de texto se traduce directamente en un menor consumo de recursos y una mayor duración de la batería en dispositivos Android e iOS.
  • Cero Degradación: Dado que el modelo Gemma 4 original mantiene la verificación final, la precisión y la capacidad de razonamiento siguen siendo de «clase frontera» (frontier-class).

Optimización técnica de vanguardia

Para lograr estos incrementos de velocidad, Google ha implementado mejoras arquitectónicas profundas. Los modelos de «borrador» (drafters) comparten el KV Cache y las activaciones del modelo principal, evitando cálculos redundantes. Además, se han optimizado los procesos para hardware específico, logrando mejoras de hasta 2.2x en entornos como Apple Silicon y Nvidia A100 al procesar múltiples solicitudes simultáneamente.

Disponibilidad y licencias

Fiel al compromiso de Google con el ecosistema abierto, los MTP Drafters para la familia Gemma 4 están disponibles desde hoy bajo la licencia Apache 2.0. Los pesos de los modelos pueden descargarse a través de Hugging Face y Kaggle, y son compatibles con los principales marcos de trabajo de la industria, incluidos vLLM, Ollama, MLX y Hugging Face Transformers.

Sobre Gemma, Gemma es una familia de modelos abiertos, ligeros y de vanguardia, construidos a partir de la misma tecnología y componentes utilizados para crear los modelos Gemini de Google. Diseñados para la innovación responsable, Gemma permite a los desarrolladores llevar la inteligencia de Google a sus propias estaciones de trabajo y dispositivos.

Fuente: Blog Google