Confronto tra diverse tecniche di conversione per la sintesi TTS delle emozioni

CONFRONTO TRA DIVERSE TECNI
CHE DI CONVERSIONE PER
LA SINTESI TTS DELLE EMOZONI
Mauro Nicolao, Carlo Drioli, Piero Cosi
Istituto di Scienze e Tecnologie della Cognizione - Sede di Padova "Fonetica e Dialettologia"
Consiglio Nazionale delle Ricerche, via Martiri della Libertà, 2 - 35127 Padova, Italia
nicolao@pd.istc.cnr.it
,
drioli@pd.istc.cnr.it
,
cosi@pd.istc.cnr.it
SOMMARIO
Nel presente lavoro vengono descritti gli sviluppi delle tecniche per la creazione di
una funzione che converte un segnale vocale neutro in uno caratterizzato emotivamente,
basate su quanto già sviluppato in precedenti lavori (Nicolao et alii, 2005; Nicolao et alii,
2006).
Sono stati investigati numerosi metodi per creare questa funzione e si è cercato di
stabilire l'efficienza delle diverse trasformazioni, attraverso dei criteri oggettivi (distanza di
Itakura-Saito) e soggettivi (test percettivi).
Tutte le funzioni sviluppate si basano su un approccio di tipo statistico. Nello
specifico, per descrivere lo spazio acustico del segnale vocale neutro vengono utilizzati sia
modelli a mistura di funzioni gaussiane (GMM), sia catene di Markov nascoste (HMM).
E' stata valutata anche la possibilità di applicare le funzioni di conversione in vari
punti del sistema: o come semplice
post processing
del segnale vocale neutro o agendo
direttamente su un database di difoni utilizzato da un sintetizzatore vocale.
I segnali di riferimento per l'allenamento dei modelli statistici sono ricavati da due
database di segnali vocali creati
ad hoc.
Uno è stato registrato con lo scopo di raccogliere il
materiale per costruire una voce per un sintetizzatore a concatenazione di difoni (MBROLA
o SMS). Si ipotizza che questo insieme di file audio sia privo di caratterizzazione emotiva.
Lo stesso parlatore, ha inoltre registrato un database di file audio cercando di fornire ad essi
una forte componente emotiva (l'emozione utilizzata in questo lavoro è la
collera
).
Da questi insiemi, tramite un processo di
copy synthesis,
si sono ottenuti due
corpora
perfettamente allineati per quanto riguarda durate, intonazione e fonemi pronunciati. Lo
studio si è potuto quindi focalizzare sulla modellizzazione delle sole differenze provocate al
segnale dall'emozione presente.
Lo spazio acustico del segnale sintetizzato è stato diviso in classi omogenee e, ad
ognuna, è stata associata una diversa funzione di trasformazione. Il nostro metodo è, quindi,
costituito da 34 funzioni, specializzate per ogni fonema.
In Tabella 1 sono elencati le differenze progettuali che differenziano i segnali
analizzati nel progetto.

Publication type: 
Contributo in atti di convegno
Author or Creator: 
Nicolao M.
Drioli C.
Cosi P.
Publisher: 
EDK Editore, Torriana, ITA
Source: 
Scienze Vocali e del Linguaggio Metodologie di Valutazione e Risorse Linguistiche - AISV 2006, 3rd Conference of Associazione Italiana di Scienze della Voce, pp. 51 (CD 275)–51 (CD 291), Pantè di Povo - TRENTO, 29-30 Novembre - 1 Dicembre 2006
Date: 
2006
Resource Identifier: 
http://www.cnr.it/prodotto/i/93568
http://aisv2006.fbk.eu/
urn:isbn:978-88-95112-69-5
Language: 
Ita