Google lanza su nuevo modelo: Gemini 1.5

La semana pasada, Google lanzó su nuevo modelo, Gemini 1.0 Ultra, y le dio un importante paso adelante para hacer que los productos de Google sean más útiles, comenzando con Gemini Advanced. Hoy en día, los desarrolladores y clientes de la nube también pueden comenzar a construir con 1.0 Ultra, con su API Gemini en AI Studio y Vertex AI.

Artículos
Tecnología

ESCRITO POR

Link Space

ACTUALIZADO

16 de febrero, 2024

La semana pasada, Google lanzó su nuevo modelo, Gemini 1.0 Ultra, y le dio un importante paso adelante para hacer que los productos de Google sean más útiles, comenzando con Gemini Advanced. Hoy en día, los desarrolladores y clientes de la nube también pueden comenzar a construir con 1.0 Ultra, con su API Gemini en AI Studio y Vertex AI.

Los equipos continúan superando las fronteras de sus últimos modelos con la seguridad en el centro. Están progresando rápidamente. De hecho, están listos para presentar la próxima generación: Gemini 1.5 que muestra mejoras espectaculares en varias dimensiones y 1.5 Pro logra una calidad comparable a la de 1.0 Ultra, mientras utiliza menos computación.

Esta nueva generación también ofrece un gran avance en la comprensión del contexto a largo plazo. Google ha podido aumentar significativamente la cantidad de información que sus modelos pueden procesar: ejecutando hasta 1 millón de tokens de manera constante, logrando la ventana de contexto más larga de cualquier modelo básico a gran escala hasta el momento.

Las ventanas de contexto más largas muestran la promesa de lo que es posible. Permitirán capacidades completamente nuevas y ayudarán a los desarrolladores a crear modelos y aplicaciones mucho más útiles. Google ofrece una vista previa limitada de esta función experimental a desarrolladores y clientes empresariales.

Presentación de Géminis 1.5

Este es un momento emocionante para la Inteligencia Artificial (IA). Los nuevos avances en este campo tienen el potencial de hacer que la IA sea más útil para miles de millones de personas en los próximos años. Desde que se presentó Gemini 1.0, se ha estado probando, refinando y mejorando sus capacidades.

Gemini 1.5 ofrece un rendimiento dramáticamente mejorado. Representa un cambio radical en el enfoque de Google, basándose en innovaciones de investigación e ingeniería en casi todas las partes de su infraestructura y desarrollo de modelos básicos. Esto incluye que Gemini 1.5 sea más eficiente para capacitar y brindar servicios, con una nueva arquitectura de Mezcla de Expertos (MoE).

El primer modelo Gemini 1.5 que se lanzó para pruebas tempranas es Gemini 1.5 Pro. Es un modelo multimodal de tamaño mediano, optimizado para escalar en una amplia gama de tareas y con un rendimiento similar al 1.0 Ultra, su modelo más grande hasta la fecha. También introduce una característica experimental innovadora en la comprensión de contextos prolongados.

Gemini 1.5 Pro viene con una ventana de contexto estándar de 128.000 tokens. Pero a partir de hoy, un grupo limitado de desarrolladores y clientes empresariales pueden probarlo con una ventana contextual de hasta 1 millón de tokens a través de AI Studio y Vertex AI en vista previa privada.

A medida que se irá implementando la ventana de contexto completa de 1 millón de tokens, se está trabajando activamente en optimizaciones para mejorar la latencia, reducir los requisitos computacionales y mejorar la experiencia del usuario. El equipo de Google está entusiasmado de que la gente pruebe esta innovadora capacidad y a continuación se comparte más detalles sobre la disponibilidad futura.

Estos avances continuos en los modelos de próxima generación abrirán nuevas posibilidades para que las personas, los desarrolladores y las empresas creen, descubran y construyan utilizando la IA.

Gemini 1.5 con arquitectura altamente eficiente

Gemini 1.5 se basa en la investigación líder sobre arquitectura Transformer y MoE. Mientras que un Transformer tradicional funciona como una gran red neuronal, los modelos MoE se dividen en redes neuronales «expertas» más pequeñas.

Dependiendo del tipo de información proporcionada, los modelos MoE aprenden a activar selectivamente sólo las vías expertas más relevantes en su red neuronal. Esta especialización mejora enormemente la eficiencia del modelo. Google ha sido pionero de la técnica MoE para el aprendizaje profundo a través de investigaciones como Sparsely-Gated MoE, GShard-Transformer, Switch-Transformer, M4 y más.

Las últimas innovaciones en arquitectura de modelos permiten a Gemini 1.5 aprender tareas complejas más rápidamente y mantener la calidad, al mismo tiempo que es más eficiente para capacitar y prestar servicios. Estas eficiencias están ayudando a nuestros equipos a iterar, entrenar y entregar versiones más avanzadas de Gemini más rápido que nunca, y estamos trabajando en mayores optimizaciones.

Mayor contexto, capacidades más útiles

La “ventana contextual” de un modelo de IA se compone de tokens, que son los componentes básicos utilizados para procesar la información. Los tokens pueden ser partes enteras o subsecciones de palabras, imágenes, vídeos, audio o código. Cuanto más grande sea la ventana de contexto de un modelo, más información podrá absorber y procesar en un mensaje determinado, lo que hará que su resultado sea más consistente, relevante y útil.

A través de una serie de innovaciones en aprendizaje automático, se ha aumentado la capacidad de la ventana de contexto de 1.5 Pro mucho más allá de los 32.000 tokens originales de Gemini 1.0. Ahora se puede ejecutar hasta 1 millón de tokens en producción.

Esto significa que 1.5 Pro puede procesar grandes cantidades de información de una sola vez, incluida 1 hora de video, 11 horas de audio, bases de código con más de 30 000 líneas de código o más de 700 000 palabras. En su investigación, también probaron con éxito hasta 10 millones de tokens.

El razonamiento complejo sobre grandes cantidades de información 1.5 Pro puede analizar, clasificar y resumir sin problemas grandes cantidades de contenido dentro de un mensaje determinado. Por ejemplo, cuando se le dan las transcripciones de 402 páginas de la misión del Apolo 11 a la luna, puede razonar sobre conversaciones, eventos y detalles que se encuentran en el documento.

Mejor comprensión y razonamiento entre modalidades

1.5 Pro puede realizar tareas de comprensión y razonamiento muy sofisticadas para diferentes modalidades, incluido el vídeo. Por ejemplo, cuando se le presenta una película muda de Buster Keaton de 44 minutos, el modelo puede analizar con precisión varios puntos y eventos de la trama, e incluso razonar sobre pequeños detalles de la película que fácilmente podrían pasarse por alto.

Además, el 1.5 Pro puede realizar tareas de resolución de problemas más relevantes en bloques de código más largos. Cuando se le presenta un mensaje con más de 100.000 líneas de código, puede razonar mejor entre ejemplos, sugerir modificaciones útiles y dar explicaciones sobre cómo funcionan las diferentes partes del código.

Rendimiento mejorado

Cuando se probó en un panel completo de evaluaciones de texto, código, imagen, audio y video, 1.5 Pro supera a 1.0 Pro en el 87% de los puntos de referencia utilizados para desarrollar nuestros modelos de lenguajes grandes (LLM). Y en comparación con el 1.0 Ultra en los mismos puntos de referencia, su rendimiento es muy similar.

Gemini 1.5 Pro mantiene altos niveles de rendimiento incluso cuando aumenta su ventana de contexto. En la evaluación Needle In A Haystack (NIAH), donde un pequeño fragmento de texto que contiene un hecho o declaración particular se coloca intencionalmente dentro de un largo bloque de texto, 1.5 Pro encontró el texto incrustado el 99% de las veces, en bloques de datos como hasta 1 millón de tokens.

Gemini 1.5 Pro también muestra impresionantes habilidades de “aprendizaje en contexto”, lo que significa que puede aprender una nueva habilidad a partir de información proporcionada en un mensaje largo, sin necesidad de ajustes adicionales. Se probó esta habilidad en el punto de referencia de traducción automática de One Book (MTOB), que muestra qué tan bien el modelo aprende de información que nunca antes había visto. Cuando se le da un manual de gramática de Kalamang, un idioma con menos de 200 hablantes en todo el mundo, el modelo aprende a traducir del inglés al Kalamang a un nivel similar al de una persona que aprende con el mismo contenido.

Como la ventana de contexto larga de 1.5 Pro es la primera de su tipo entre los modelos a gran escala, estamos desarrollando continuamente nuevas evaluaciones y puntos de referencia para probar sus novedosas capacidades.

Extensas pruebas de ética y seguridad

De acuerdo con los principios de IA que manejo google y sus sólidas políticas de seguridad, se aseguraron de que sus modelos se sometan a exhaustivas pruebas de ética y seguridad. Luego se integrarán estos aprendizajes de la investigación en sus procesos de gobernanza y desarrollo y evaluación de modelos para mejorar continuamente nuestros sistemas de IA.

Desde que presentó 1.0 Ultra en diciembre, sus equipos han seguido perfeccionando el modelo, haciéndolo más seguro para un lanzamiento más amplio. También se llevó a cabo investigaciones novedosas sobre riesgos de seguridad y desarrollamos técnicas de formación de equipos rojos para evaluar una variedad de daños potenciales.

Antes del lanzamiento de 1.5 Pro, se ha adoptado el mismo enfoque de implementación responsable que adoptamos para nuestros modelos Gemini 1.0, se realizaron evaluaciones exhaustivas en áreas que incluyen la seguridad del contenido y los daños a la representación, y continuaremos ampliando estas pruebas. Más allá de esto, se están desarrollando más pruebas que tengan en cuenta las novedosas capacidades de contexto largo de 1.5 Pro.

Construye y experimenta con modelos Gemini

Google está comprometido a llevar cada nueva generación de modelos Gemini a miles de millones de personas, desarrolladores y empresas de todo el mundo de manera responsable. A partir de hoy, se ofrece una vista previa limitada de 1.5 Pro a desarrolladores y clientes empresariales a través de AI Studio y Vertex AI.

Google presenta 1.5 Pro con una ventana de contexto estándar de 128.000 tokens cuando el modelo esté listo para un lanzamiento más amplio. Próximamente, se planeará introducir niveles de precios que comiencen en la ventana de contexto estándar de 128 000 y escale hasta 1 millón de tokens, a medida que mejorá el modelo.

Los primeros evaluadores pueden probar la ventana de contexto de 1 millón de tokens sin costo durante el período de prueba, aunque deberían esperar tiempos de latencia más largos con esta característica experimental. También se vislumbran mejoras significativas en la velocidad.

Los desarrolladores interesados en probar 1.5 Pro pueden registrarse ahora en AI Studio, mientras que los clientes empresariales pueden comunicarse con su equipo de cuentas de Vertex AI.