Google presentó oficialmente Gemini 2.5 Flash Image, su nuevo modelo de generación y edición de imágenes diseñado para ofrecer mayor calidad visual, control creativo y nuevas funcionalidades para desarrolladores y empresas.
Este avance —también conocido como nano-banana— integra capacidades como fusión de múltiples imágenes en una sola, consistencia de personajes para storytelling visual, ediciones precisas mediante lenguaje natural y un entendimiento profundo del mundo real gracias al conocimiento integrado de Gemini.
El modelo ya está disponible a través de la API de Gemini, Google AI Studio y Vertex AI, con un costo de $30 por 1 millón de tokens de salida (aproximadamente $0,039 por imagen).
Innovaciones clave de Gemini 2.5 Flash Image
- Consistencia de personajes: permite mantener el mismo personaje u objeto en diferentes entornos y estilos, útil para marcas, catálogos de productos o narrativas visuales.
- Edición precisa con prompts: desde eliminar objetos y manchas hasta cambiar poses, agregar color o difuminar fondos, todo con simples instrucciones en lenguaje natural.
- Conocimiento del mundo real: posibilita aplicaciones educativas y de análisis de diagramas, así como un mejor contexto en la generación de imágenes.
- Fusión multi-imagen: combina varios insumos visuales en una sola escena fotorealista o en nuevos estilos creativos.
Además, Google integró mejoras en AI Studio, incluyendo plantillas listas para usar y la opción de crear y desplegar aplicaciones de edición de imágenes sin necesidad de código, o exportarlas directamente a GitHub.
Para reforzar la transparencia, todas las imágenes generadas o editadas con Gemini 2.5 Flash Image contarán con una marca de agua digital SynthID invisible, que permitirá identificarlas como creadas por IA.
El lanzamiento llega de la mano de alianzas estratégicas con OpenRouter.ai y fal.ai, ampliando la disponibilidad de Gemini 2.5 Flash Image a millones de desarrolladores en todo el mundo.
Con esta actualización, Google busca posicionar a Gemini 2.5 Flash Image como un modelo ágil, accesible y confiable para creativos, educadores, marcas y desarrolladores que buscan aprovechar al máximo la generación de imágenes con inteligencia artificial.
Fuente: Developers Google