← Volver

Destilación de voz

Generamos cientos de audios con ElevenLabs (la voz buena que pagaste) y los usamos para entrenar el modelo local XTTS. Resultado: cuando ya no esté pagado ElevenLabs, SITA dice "esternocleidomastoideo" en la voz de SITA porque XTTS aprendió el patrón de ElevenLabs.

frases generadas con ElevenLabs · MB
Paso 1

Generar dataset

Pega 238 frases en ElevenLabs (~50 min). Resume-on-restart, así que es seguro re-ejecutar.

Paso 2

Extraer fingerprint

F0 + formantes + centroide Resemblyzer + latents XTTS. ~3-5 min en M4.

Paso 3

Validar

Generar palabras raras con XTTS y comparar con la voz ElevenLabs. Higher = mejor copia.

Fingerprint de la voz de SITA

Samples
F0 promedio
F0 rango
Hz
Audio total

Resultado de validación

similitud promedio con ElevenLabs