Llega Claude Opus 4.8: mejor en código, más honesto y con sub-agentes en paralelo
Anthropic ha presentado esta tarde Claude Opus 4.8, su modelo más capaz en producción. Llega menos de dos meses después de Opus 4.7 y, lo más llamativo, sin subir el precio: cuesta lo mismo que la versión anterior.
Las mejoras en números
Los benchmarks publicados por Anthropic comparan directamente con Opus 4.7:
- Coding agéntico: 64,3% → 69,2% — Tareas largas donde el modelo encadena llamadas a herramientas, lee archivos, corre tests y se autocorrige.
- Razonamiento multidisciplinar con herramientas: 54,7% → 57,9% — Problemas que requieren saltar entre dominios y usar el contexto de tools externas.
- Trabajo de conocimiento: 1753 → 1890 — Métrica interna de Anthropic para tareas tipo análisis, redacción y síntesis.
Según los datos compartidos por Anthropic, Opus 4.8 supera a GPT-5.5 y Gemini 3.1 Pro en varios de estos benchmarks. En el Super-Agent benchmark interno, es el único modelo que completa todos los casos de principio a fin.
Menos alucinaciones, más “no lo sé”
La mejora cualitativa más relevante no aparece en los gráficos. Anthropic afirma que Opus 4.8 es “significativamente menos propenso a fingir con confianza que sabe algo cuando no lo sabe”. En su lugar, reconoce los límites del propio conocimiento o pide más contexto.
Es un cambio de comportamiento que va en la línea de los modelos recientes de la industria: menos confianza ciega, más honestidad sobre la incertidumbre. Si se confirma en uso real, reduce uno de los problemas más persistentes de los agentes en producción.
Dynamic workflows: sub-agentes en paralelo
Junto al modelo, Anthropic ha presentado dynamic workflows, una funcionalidad que permite al agente lanzar múltiples sub-agentes en paralelo y coordinar sus resultados. Pensado para tareas que se pueden descomponer y ejecutar en simultáneo en lugar de en serie.
Es la pieza que faltaba para que el patrón “un agente que orquesta a varios agentes” sea de primera clase y no algo que cada equipo tenga que montar a mano sobre la API.
Control del esfuerzo
Otra novedad del lanzamiento es un control panel que permite ajustar cuánto “esfuerzo” pone Claude en una respuesta. Más esfuerzo significa más tiempo de razonamiento y más tokens, pero también más profundidad. Menos esfuerzo significa latencia más baja y menos coste, útil para tareas rápidas o de alto volumen.
Precio y disponibilidad
El precio se mantiene idéntico al de Opus 4.7:
- Input: 5 $ por millón de tokens.
- Output: 25 $ por millón de tokens.
- Fast mode: 10 $ input y 50 $ output por millón de tokens.
- Hasta un 90% de ahorro con prompt caching y 50% con batch processing.
Disponible desde hoy en la API directa de Anthropic, en Amazon Bedrock, en Google Cloud Vertex AI, en Microsoft Foundry y en todos los productos de Claude.
Cómo me afecta esto
Ayer publiqué un post sobre cómo programo en 2026 en el que contaba que dirijo a Claude Code más de lo que tecleo código. Hoy Anthropic me cambia el modelo debajo.
Tres cosas concretas de este lanzamiento conectan directamente con ese flujo:
- Menos alucinaciones. En el post de ayer mencionaba “el riesgo de aceptar sin leer” como uno de los problemas que me siguen preocupando. Un modelo que reconoce mejor lo que no sabe ataca exactamente ese problema en origen.
- Dynamic workflows. Los pequeños scripts en cron que estoy probando, ese paso natural de que el agente publique cosas sin que yo apruebe cada paso, gana piezas oficiales en lugar de tener que reinventarlas.
- Control del esfuerzo. Para tareas pequeñas y repetidas — verificar que un servicio sigue vivo, generar el informativo del día — bajar el esfuerzo y la latencia es una optimización inmediata.
Tocará probar Opus 4.8 unos días en uso real para ver si los benchmarks se traducen en el día a día. Volveré sobre ello.