Due tecniche di vocoding per la sintesi di parlato emotivo mediante trasformazione del timbro vocale

In questo articolo vengono descritte due tecniche di modifica del timbro vocale utilizzate in un esperimento di trasformazione della voce con l'obiettivo di riprodurre alcune caratteristiche del parlato emotivo. Il segnale vocale emesso da un parlatore con stile di lettura neutro viene convertito in modo da riprodurre l'inviluppo spettrale utilizzato dallo stesso parlatore in una situazione emotiva non neutra. La funzione di conversione tra gli inviluppi spettrali è calcolata utilizzando un metodo ricavato con un addestramento su dati reali. Per questo motivo è stato preso in considerazione un database contenente la voce di un parlatore registrato durante la lettura/recitazione di un corpus di testi con diversi stili emozionali: allegro, triste e uno stile neutro di riferimento. Le due tecniche di generazione della forma d'onda (vocoding) prese in considerazione sono il Phase Vocoder e il filtro MLSA (Mel Log Spectrum Approximation). I due prototipi implementati sono stati valutati con test di tipo percettivo, mentre valutazioni oggettive hanno convalidato l'efficacia della funzione di conversione.

Tipo Pubblicazione: 
Contributo in volume
Author or Creator: 
Tesser, Fabio
Zovato, Enrico
Nicolao, Mauro
Cosi, Piero
Publisher: 
Bulzoni, Roma, ITA
Source: 
edited by B. Gili Fivela, A. Stella, L. Garrapa, M. Grimaldi, pp. 404–413. Roma: Bulzoni, 2011
Date: 
2011
Resource Identifier: 
http://www.cnr.it/prodotto/i/205903
urn:isbn:978-88-7870-619-4
Language: 
Ita
ISTC Author: 
Ritratto di Piero Cosi
Real name: