Gemini 3.5 Flash: velocidad antes que inteligencia en agentes de IA

Gemini 3.5 Flash: velocidad antes que inteligencia en agentes de IA

Google presentó Gemini 3.5 Flash en el I/O del 19 de mayo. Rápido, barato, optimizado para agentes. Buenas noticias para desarrolladores. Pero lo más interesante no es lo que hace para Google, sino para quién más lo va a usar.

Apple tiene un acuerdo plurianual con Google para integrar modelos Gemini en Apple Intelligence. La WWDC 2026 es el 8 de junio. Todo apunta a que la nueva Siri —esa que llevan años prometiendo y nunca acaba de llegar— va a correr, al menos en parte, sobre este mismo modelo.

La ironía es considerable: Apple, la empresa que más ha insistido en la privacidad y el procesamiento en el dispositivo, delegando el cerebro de su asistente en los servidores de su mayor competidor en búsqueda.

Pero para entender por qué Flash en concreto, y no otro modelo de Google, hay que entender primero cómo funcionan los agentes de IA.

Qué es un agente

Un modelo de lenguaje normal responde una pregunta. Un agente encadena acciones: consulta una API, lee el resultado, decide qué hacer, llama a otra API, evalúa si ha terminado, y así sucesivamente hasta completar una tarea.

Imagina que le pides a un agente que reserve un vuelo de Madrid a Tokyo para la semana que viene, dentro de un presupuesto de 900 euros, con escala máxima de una hora. El agente no te devuelve una respuesta, ejecuta un plan:

  1. Consulta la API de vuelos con los parámetros
  2. Filtra los resultados por precio
  3. Comprueba las escalas de cada opción
  4. Verifica disponibilidad en las fechas exactas
  5. Compara con una segunda fuente para contrastar precios
  6. Selecciona la mejor opción
  7. Inicia el proceso de reserva
  8. Confirma los datos del pasajero
  9. Completa el pago
  10. Genera un resumen con los detalles

Eso son diez llamadas al modelo. En una tarea real puede ser el doble.

Por qué la velocidad importa más que la inteligencia

Aquí está el problema con usar un modelo muy capaz pero lento para un agente: la latencia se multiplica.

Si cada llamada tarda tres segundos, diez llamadas son treinta segundos de espera. Si son veinte llamadas, un minuto. En producción, con usuarios reales esperando, eso es inaceptable. Con Gemini 3.5 Flash, esas mismas llamadas tardan menos de un segundo. La misma tarea de veinte pasos pasa de cuarenta segundos a ocho.

Pero hay algo más importante que la percepción: en agentes, no necesitas que cada decisión sea perfecta, necesitas que el conjunto llegue al destino correcto. El agente tiene mecanismos de verificación, puede reintentar y puede pedir confirmación cuando algo no cuadra. La inteligencia aplicada en el paso correcto vale más que la inteligencia máxima en cada paso.

El coste también se multiplica. Diez llamadas a un modelo caro cuestan diez veces lo que cuesta una. Gemini 3.5 Flash cuesta diez veces menos que Claude Opus 4.7 por token. En un agente de veinte pasos atendiendo a miles de usuarios al día, esa diferencia es lo que separa un proyecto rentable de uno que no puede escalar.

Los números

Flash no es un modelo de segunda categoría. Según los benchmarks publicados por Google, supera a Gemini 3.1 Pro en programación, razonamiento y comprensión multimodal. La ventana de contexto llega al millón de tokens, tiene pensamiento dinámico activado por defecto —asigna más cómputo según la dificultad del problema— y en flujos de trabajo agénticos con llamadas a herramientas lidera los benchmarks frente a GPT-5.5 y Claude Sonnet 4.6.

Donde Claude Sonnet 4.6 sigue siendo mejor es en revisión de código compleja y tareas donde el resultado lo va a leer un humano directamente. La regla es sencilla: cuando el modelo actúa como cerebro de un proceso automatizado, la velocidad y el coste mandan. Cuando produce algo que alguien va a consumir con atención, la calidad es lo primero.

Dos empresas, dos filosofías, un mismo modelo

Google quiere que Gemini esté en todas partes: en Search, en Android, en la nube, en agentes. Apple quiere que la IA parezca suya aunque no lo sea del todo. El resultado práctico para el usuario es que en unos meses Siri podría ser genuinamente útil por primera vez, algo que con los modelos propios de Apple no había conseguido.

Google ha entendido antes que nadie dónde va el mercado: no en modelos que impresionan en demos, sino en modelos que trabajan en segundo plano mientras tú haces otra cosa.

Quedan dos semanas para la WWDC. Y el próximo mes llega Gemini 3.5 Pro, que Google está probando internamente. Si Flash ya da estos resultados, la versión Pro podría mover bastante el panorama actual.