Recenti sviluppi di SONIC per l’italiano: riconoscimento automatico del parlato infantile

In questo lavoro vengono descritti i risultati dei più recenti esperimenti di
riconoscimento automatico di parlato infantile effettuati, mediante l'utilizzazione del
sistema denominato SONIC, su un corpus di parlato letto da bambini di età compresa fra i 7
e i 13 anni.
Il corpus utilizzato è stato raccolto presso alcune scuole del Trentino da parte dell'ITCIRST
(Giuliani & Gerosa, 2003) ora FBK (Fondazione Bruno Kessler), nell'ambito di un
progetto europeo denominato PF-STAR.
Il tasso di errore di riconoscimento iniziale di 15.1% per un insieme di 33 unità
fonetiche (21,8% considerando un insieme di 40 unità fonetiche) è stato successivamente
ridotto al 12.2% (18,6% considerando 40 unità) utilizzando una combinazione delle più
aggiornate tecniche di adattamento comprendenti la normalizzazione di lunghezza del tratto
vocale (Vocal Tract Lenght Normalization VTLN), la normalizzazione della varianza dei
coefficienti Cepstrali (Cepstral coefficients Variance Normalization, CVN) e l'utilizzazione
di modelli fonetici addestrati in modalità indipendente dal parlante utilizzando le più recenti
strategie iterative denominate Structural MAP Linear Regression (SMAPLR) e Speaker
Adaprive Training (SAT).
Mentre il tasso di errore del sistema allenato su voci di bambini è paragonabile e
addirittura migliore di quello ottenuto da sistemi simili sullo stesso corpus (ad esempio
paragonabile al 22.7% ottenuto da un sistema analogo con 28 unità fonetiche come quello
utilizzato in (Giuliani & Gerosa, 2003)), esiste ancora un significativo margine di
miglioramento per un sistema che utilizzi modelli acustici allenati su parlato adulto e
utilizzati per decodificare parlato infantile. Infatti quando sono state applicate entrambe le
tecniche VTLN e SMAPLR in una condizione di disallineamento adulti/bambini il sistema
finale ha ottenuto un tasso di errore fonetico del 19.3% dimostrando di ridurre l'errore
fonetico iniziale del 28%. Ciò nonostante, persiste ancora un notevole 30% di differenza
relativa fra l'utilizzazione di modelli acustici allenati su parlato adulto e modelli acustici
allenati su parlato infantile per la decodifica di quest'ultimo.

Tipo Pubblicazione: 
Contributo in atti di convegno
Author or Creator: 
Cosi P.
Source: 
AISV 2009, 5th Conference of Associazione Italiana di Scienze della Voce - "La dimensione temporale del parlato", pp. 555–566, Zurigo, Svizzera, 4-6 febbraio 2009
Date: 
2010
Resource Identifier: 
http://www.cnr.it/prodotto/i/140184
http://www.pholab.uzh.ch/labor/aisv2009/programma/AISV2009program4.pdf
urn:isbn:978-88-6368-087-4
Language: 
Ita
ISTC Author: 
Ritratto di Piero Cosi
Real name: