Kokoro-82M: Modelo TTS eficiente y potente

21 de enero de 20252300 Views

El ámbito de la síntesis de voz está viviendo una transformación significativa gracias a Kokoro, un modelo de texto a voz (TTS) de última generación con tan solo 82 millones de parámetros. Presentado el 25 de diciembre de 2024 bajo la licencia Apache 2.0, Kokoro ha logrado superar a otros modelos más grandes y complejos en evaluaciones de desempeño, destacándose como una herramienta eficiente y potente para la generación de audio de alta calidad.

Kokoro marca un antes y un después en el desarrollo de modelos TTS, demostrando que no es necesario contar con arquitecturas enormes para alcanzar resultados excepcionales. Con el avance de la tecnología, es probable que se incorporen mejoras en su capacidad para trabajar en múltiples idiomas y en su rendimiento global, manteniendo siempre un enfoque en la eficiencia y accesibilidad.

Principales características

Alta eficiencia: Kokoro-82M supera a modelos más grandes como XTTS v2 (467M), MetaVoice (1.2B) y Fish Speech (~500M) en calidad y eficiencia.
Baja necesidad de datos: Requiere menos de 100 horas de datos de audio para entrenamiento, en contraste con otros modelos que necesitan volúmenes mucho mayores.
Variedad de voces: Ofrece 10 paquetes de voz únicos, como Bella, Sarah, Adam y Michael, para cubrir diversos estilos.
Compatibilidad ONNX: Permite implementaciones rápidas y eficientes.
Idiomas compatibles: Admite principalmente inglés americano y británico.
Arquitectura innovadora: Basada en StyleTTS 2 e ISTFTNet, con enfoque de decodificador único.

Rendimiento destacado

Kokoro-82M ha alcanzado el puesto número 1 en TTS Spaces Arena gracias a su capacidad de generar audio de alta calidad con un número limitado de parámetros y datos de entrenamiento. Este modelo redefine las expectativas de escalabilidad en TTS.

Detalles de uso

Integración sencilla: Disponible en la plataforma de Hugging Face.
Opciones personalizables: Los usuarios pueden elegir entre diferentes paquetes de voz para ajustar acentos y estilos.
Salida fonémica: Genera audio de 24 kHz y salida fonémica para casos de uso avanzados.

Detalles del entrenamiento

Costo y recursos: Entrenado en GPUs A100 80GB durante 500 horas, con un costo aproximado de $400.
Datos utilizados: Fuentes públicas y etiquetado fonético IPA.
Limitaciones: No incluye capacidades de clonación de voz ni soporte multilingüe avanzado.

Limitaciones

Aunque Kokoro-82M es impresionante, tiene ciertas restricciones:

Falta de clonación de voz: No es posible replicar voces específicas debido al tamaño limitado de los datos de entrenamiento.
Dependencia externa: Utiliza herramientas como espeak-ng para la conversión de texto a fonemas (g2p), lo que puede generar fallos en algunos casos.
Soporte limitado de idiomas: Actualmente solo disponible en inglés americano y británico.

Cómo usar Kokoro-82M gratuitamente

El modelo se puede probar gratuitamente en Hugging Face o integrarlo en proyectos usando plataformas como Google Colab con unas pocas líneas de código.