Generamos cientos de audios con ElevenLabs (la voz buena que pagaste) y los usamos para entrenar el modelo local XTTS. Resultado: cuando ya no esté pagado ElevenLabs, SITA dice "esternocleidomastoideo" en la voz de SITA porque XTTS aprendió el patrón de ElevenLabs.
Pega 238 frases en ElevenLabs (~50 min). Resume-on-restart, así que es seguro re-ejecutar.
F0 + formantes + centroide Resemblyzer + latents XTTS. ~3-5 min en M4.
Generar palabras raras con XTTS y comparar con la voz ElevenLabs. Higher = mejor copia.