Due tecniche di vocoding per la sintesi di parlato emotivo mediante trasformazione del timbro vocale | Istituto di Scienze e Tecnologie della Cognizione

In questo articolo vengono descritte due tecniche di modifica del timbro vocale utilizzate in un esperimento di trasformazione della voce con l'obiettivo di riprodurre alcune caratteristiche del parlato emotivo. Il segnale vocale emesso da un parlatore con stile di lettura neutro viene convertito in modo da riprodurre l'inviluppo spettrale utilizzato dallo stesso parlatore in una situazione emotiva non neutra. La funzione di conversione tra gli inviluppi spettrali è calcolata utilizzando un metodo ricavato con un addestramento su dati reali. Per questo motivo è stato preso in considerazione un database contenente la voce di un parlatore registrato durante la lettura/recitazione di un corpus di testi con diversi stili emozionali: allegro, triste e uno stile neutro di riferimento. Le due tecniche di generazione della forma d'onda (vocoding) prese in considerazione sono il Phase Vocoder e il filtro MLSA (Mel Log Spectrum Approximation). I due prototipi implementati sono stati valutati con test di tipo percettivo, mentre valutazioni oggettive hanno convalidato l'efficacia della funzione di conversione.

Tipo Pubblicazione:

Contributo in volume

Author or Creator:

Tesser, Fabio

Zovato, Enrico

Nicolao, Mauro

Cosi, Piero

Publisher:

Bulzoni, Roma, ITA

Source:

edited by B. Gili Fivela, A. Stella, L. Garrapa, M. Grimaldi, pp. 404–413. Roma: Bulzoni, 2011

Date: