Modellizzazione della Prosodia e del Timbro per la Sintesi del Parlato Emotivo

Viene descritta una procedura per la creazione di una funzione di trasformazione di un segnale vocale neutro in uno caratterizzato emotivamente. Questa funzione è stata
sviluppata sulla base di un modello statistico, a mistura di funzioni gaussiane, dello spettro del segnale vocale.
Sono utilizzati, come segnali di riferimento per l'allenamento del modello, due database di segnali vocali creati ad hoc: uno registrato da un parlatore, simulando l'emozione della
collera, e uno neutro, con la stessa intonazione e durata dei fonemi, ottenuto con un sintetizzatore vocale per concatenazione di difoni, che utilizza la "voce" dello stesso
parlatore. Il modello a mistura di gaussiane, addestrato sui coefficienti mel-cepstrali estratti dal segnale neutro, è utilizzato per dividere questo spazio acustico in classi fonetiche
equivalenti e per calcolare, per ogni classe identificata, i parametri delle funzioni di conversione.
Il metodo di trasformazione del segnale nel dominio delle frequenze ha fornito delle ottime prestazioni, come è stato dimostrato da un test percettivo in cui un segnale neutro
convertito è stato riconosciuto come "arrabbiato".

Publication type: 
Contributo in atti di convegno
Author or Creator: 
Mauro Nicolao
Carlo Drioli
Piero Cosi
Publisher: 
EDK Editore, Torriana, ITA
Source: 
AISV 2005, 2° Conveno Nazionale Associazione Italiana di Scienze della Voce - "Analisi prosodica - teorie, modelli e sistemi di annotazione", pp. 87 (CD Rom 285)–87 (CD Rom 313), Fisciano, Salerno, Italy, Novembre 30 - December 2, 2005
Date: 
2006
Resource Identifier: 
http://www.cnr.it/prodotto/i/139812
http://www.aisv.it/AISV2005/default.htm
urn:isbn:88-95112-21-0
Language: 
Ita