Matxa, síntesis de voz en catalán


El nuevo modelo Matxa ya está disponible para ser testeado y ejecutado a la plataforma de IA de código abierto Hugging Face

El proyecto Aina de inteligencia artificial y tecnologías del lenguaje celebra San Jorge publicando el primer modelo de síntesis de voz en las principales variantes dialectales del catalán, que lleva el nombre de Matxa. Se trata de la primera solución tecnológica publicada como modelo lingüístico en abierto que ofrece interpretación de texto a voz (Texto To Speech/TTS) en catalán central, noroccidental, balear y valenciano. El proyecto Aina está impulsado y financiado por la Generalitat de Cataluña.

Todos los usuarios pueden acceder al modelo disponible a Hugging Face, la comunidad de IA con recursos de open source o código abierto, desde donde puede ser testado y ejecutado. La tecnología desarrollada por la Unitat de Tecnologies del Llenguatge del Barcelona Supercomputing Center – Centro Nacional de Supercomputación (BSC-CNS) se entrena con diferentes datasets o conjuntos de datos, entre los cuales se encuentra el Festcat, el OpenSLR69 o el recientemente creado Frescat que incluye grabaciones en cuatro variantes dialectales y 8 hablantes diferentes.

Matxa supone un paso adelante en términos de rendimiento y calidad, puesto que mantiene la naturalidad y las características de las voces escogidas para entrenarlo. Para su composición, se basa en la combinación de las arquitecturas Matcha-TTS y Vocos que destacan por su novedad y tiempo de ejecución muy bajos a través de redes neuronales. El sistema de dialectos ha sido configurado y entrenado a través del nuevo superordenador MareNostrum 5 y FinisTerrae III del Centro de Supercomputación de Galicia (CESGA).

A través de la demo pública, se puede hacer un primer testeo del funcionamiento de Matxa.

El nuevo conjunto de datos Frescat es un desarrollo pionero en el ámbito de los recursos digitales en catalán, puesto que incorpora hasta 8 hablantes con diferentes características. En total, dos voces por cada uno de los principales dialectos. El dataset se hará público en las próximas semanas y estará disponible para su descarga y uso por parte de todos los usuarios. Por el investigador del BSC, especializado en voz, Baybars Külebi, se trata “de un recurso innovador que pose a disposición de todo el mundo recursos digitales que tienen en consideración la pluralidad del catalán”.

El desarrollo de las tecnologías de síntesis de voz abre la puerta a un gran volumen de posibles aplicaciones. De hecho, el Proyecto Aina, a través del BSC, ya trabaja con empresas e instituciones para ofrecer soluciones específicas de la mano de las herramientas de inteligencia artificial desarrolladas en el centro.