Text-to-voice

11 d'abril de 2024661 Views

La tecnologia d’assistència de text a veu ( TTS ) utilitza intel·ligència artificial per a traduir la informació escrita en forma llegible per a humans en un idioma en àudio, veu o parla amb accent humà.

Nombroses empreses i organitzacions han utilitzat la intel·ligència artificial per a desenvolupar mètodes i solucions d’avantguarda. El reconeixement de text i la conversió de text a veu són dues àrees on la IA demostra un poder increïble. Dos exemples de grans empreses que fa temps que tenen TTS:

– Google : Text to Speech
– Microsoft: Text to Speech

També podem trobar empreses que inclouen directament vídeo en el Text to speech, concretament amb avatars:

– Synthesia: AI video creation platform

Aquesta tecnologia produeix els següents beneficis:

– Una veu que sona més natural, capturant amb precisió coses com l’entonació.
– Pot produir veus amb accents realistes.
– Una producció més humana que millora les capacitats per a aprendre nous idiomes.
– Ajudant als discapacitats visuals i retornant a les persones les seves veus que els han perdut per raons mediques

Nosaltres ens centrarem principalment sempre en productes Open Source i que puguem instal·lar als nostres ordinadors amb un mínim de requisits tècnics, tot i que haurem d’anar actualitzant perquè està en constant evolució.

COQUI TTS

Coqui TTS és una biblioteca avançada per a generar TTS, i es basa en les últimes recerques en el camp. Ha estat dissenyat per a trobar l’equilibri perfecte entre la facilitat d’entrenament, la velocitat i la qualitat de la parla. Coqui TTS ve amb models i eines preentrenats que ajuden a mesurar la qualitat dels conjunts de dades. Ja s’utilitza en més de 20 idiomes per a diferents productes i projectes de recerca.

És un sistema neuronal de text a veu desenvolupat per Coqui, fundat per un exempleat de Mozilla. Es basa en un model que utilitza una arquitectura de codificador-descodificador per a convertir l’entrada de text en sortida de veu. El codificador agafa el text com a entrada i el converteix en una representació d’alta dimensió, mentre que el descodificador genera la sortida de la parla a partir d’aquesta representació.

Coqui TTS està dissenyat per a produir un discurs d’alta qualitat i so natural que es pot utilitzar en diverses aplicacions, com a assistents de veu, servei al client automatitzat i dispositius habilitats per a la parla. Una de les característiques crítiques de Coqui TTS és la seva capacitat per a generar parla en múltiples idiomes. Això permet que el sistema es faci servir en moltes aplicacions internacionals. Coqui TTS també té una API fàcil de fer anar que es pot integrar en diferents plataformes. També està disponible com un model preentrenat, cosa que significa que els desenvolupadors poden incorporar fàcilment la tecnologia en les seves aplicacions sense requerir una capacitació extensa.

Exemple text en castellà