Un podcast generado por IA: cómo lo hemos montado y qué hemos aprendido
Hace unos días publiqué los primeros episodios de El podcast de Sergio y El informativo en Apple Podcasts. Ninguno de los dos lo ha grabado una persona.
El proceso completo —buscar el tema, escribir el guión, sintetizar la voz, montar el audio y publicarlo— lo ejecuta un agente de IA. Aquí cuento cómo funciona y qué hemos ido aprendiendo por el camino.
Por qué
No porque sea la forma más cómoda de hacer un podcast. Lo hice porque quería explorar hasta dónde llega la calidad de voz sintética en español, y porque montar un pipeline de producción automatizado me parecía un problema técnico interesante. Tú decides el tema y revisas el guión — el resto lo hace el agente.
El guión
Claude Code busca las noticias del día o el tema del episodio, lo sintetiza, lo expande con contexto y antecedentes, y genera el texto estructurado por segmentos. El resultado no es perfecto —hay que revisarlo y ajustarlo— pero es un punto de partida sólido que tarda segundos en lugar de horas.
La generación del audio
El texto del guión se divide en segmentos y cada uno se envía por separado a la API de ElevenLabs. El motivo es técnico: los modelos de síntesis de voz pierden consistencia en textos muy largos, así que es mejor trabajar por párrafos y luego unir los archivos de audio resultantes. En los episodios de debate, cada intervención de cada personaje es un segmento independiente con su propia voz. Al final, ffmpeg los concatena en un único MP3.
El SSML —el lenguaje de marcado para síntesis de voz— fue más útil con Google TTS que con ElevenLabs. Con Google, etiquetas como <break> controlaban las pausas y <p> separaba los párrafos. Con ElevenLabs el modelo interpreta el texto de forma más natural y apenas necesita instrucciones adicionales: los puntos y los saltos de párrafo ya le dan suficiente contexto.
Las voces: un viaje
Aquí está la mayor parte del trabajo. Probamos en orden:
- macOS say: descartado en dos minutos. Robótico, sin matices.
- OpenAI TTS: buena calidad, pero pronuncia el español con acento inglés en nombres propios y términos técnicos. Inaceptable.
- Google Cloud TTS Neural2: un salto grande. Acento español decente, dentro del free tier. Fue nuestra voz durante los primeros episodios.
- Google Cloud TTS Chirp 3 HD: mejor aún. Voces
Orus(host) yAchernar(invitada). Aprendimos que el SSML con<emphasis>hace que la voz suene a otra persona —hay que evitarlo—, y que los nombres en inglés al inicio de frase se pronuncian con acento inglés si los colocas mal. - ElevenLabs Guillermo + Jaiska: el salto definitivo. Acento español peninsular natural, entonación que no suena sintética. A partir del episodio 5 es lo que usamos.
La publicación
Cada episodio actualiza el feed RSS, la página web y el player. Apple Podcasts lee el feed automáticamente y publica sin intervención manual. El único trabajo que queda es decidir el tema y revisar el guión.
Lo que no funciona todavía
La voz no improvisa. No hay silencios naturales entre ideas. El ritmo conversacional en los episodios de debate es creíble pero no perfecto —quien escuche con atención notará que es IA. Para contenido informativo funciona muy bien; para debate hay margen de mejora.
Lo que sí funciona
La consistencia. Puedo publicar un informativo cada día sin esfuerzo. El guión tarda más en revisarse que en generarse. Y la calidad de ElevenLabs en español está, a día de hoy, muy por encima de lo que esperaba.
Lo que viene
Seguiremos explorando y mejorando con cada episodio. Mejor guión, mejor ritmo, silencios más naturales entre turnos de voz. Y tenemos el punto de mira puesto en el siguiente paso: el podcast en vídeo. Avatares, caras, movimiento. Si la voz ya suena bien, el siguiente reto es que se vea igual de bien.