Kokoro-82M: Model de so eficient i potent

21 de gener de 2025466 Views

L’àmbit de la síntesi de veu està vivint una transformació significativa gràcies a Kokoro, un model de text a veu (TTS) de darrera generació amb només 82 milions de paràmetres. Presentat el 25 de desembre de 2024 sota la llicència Apache 2.0, Kokoro ha aconseguit superar altres models més grans i complexos en avaluacions de rendiment, destacant com una eina eficient i potent per a la generació d’àudio d’alta qualitat.

Kokoro marca un abans i un després en el desenvolupament de models TTS, demostrant que no cal comptar amb arquitectures enormes per assolir resultats excepcionals. Amb l’avanç de la tecnologia, és probable que s’incorporin millores en la seva capacitat per treballar en múltiples idiomes i en el seu rendiment global, mantenint sempre un enfocament en l’eficiència i l’accessibilitat.

Característiques principals

Alta eficiència: Kokoro-82M supera models més grans com XTTS v2 (467M), MetaVoice (1.2B) i Fish Speech (~500M) en qualitat i eficiència.
Baixa necessitat de dades: Requereix menys de 100 hores de dades d’àudio per a l’entrenament, en contrast amb altres models que necessiten volums molt més grans.
Varietat de veus: Ofereix 10 paquets de veu únics, com Bella, Sarah, Adam i Michael, per cobrir diversos estils.
Compatibilitat ONNX: Permet implementacions ràpides i eficients.
Idiomes compatibles: Admet principalment anglès americà i britànic.
Arquitectura innovadora: Basada en StyleTTS 2 i ISTFTNet, amb enfocament de descodificador únic.

Rendiment destacat

Kokoro-82M ha assolit la primera posició en TTS Spaces Arena gràcies a la seva capacitat de generar àudio d’alta qualitat amb un nombre limitat de paràmetres i dades d’entrenament. Aquest model redefineix les expectatives d’escalabilitat en TTS.

Detalls d’ús

Integració senzilla: Disponible a la plataforma de Hugging Face.
Opcions personalitzables: Els usuaris poden triar entre diferents paquets de veu per ajustar accents i estils.
Sortida fonèmica: Genera àudio de 24 kHz i sortida fonèmica per a casos d’ús avançats.

Detalls de l’entrenament

Cost i recursos: Entrenat en GPUs A100 80GB durant 500 hores, amb un cost aproximat de 400 $.
Dades utilitzades: Fonts públiques i etiquetatge fonètic IPA.
Limitacions: No inclou capacitats de clonació de veu ni suport multilingüe avançat.

Limitacions

Tot i que Kokoro-82M és impressionant, té certes restriccions:

Manca de clonació de veu: No és possible replicar veus específiques a causa de la mida limitada de les dades d’entrenament.
Dependència externa: Utilitza eines com espeak-ng per a la conversió de text a fonemes (g2p), fet que pot generar errors en alguns casos.
Suport limitat d’idiomes: Actualment només disponible en anglès americà i britànic.