Sviluppo di un sistema di riconoscimento per l'arabo: problemi e soluzioni

L'arabo è attualmente una delle lingue più parlata nel mondo. Il numero di parlanti arabi è valutato intorno a 325 milioni, di cui approssimativamente 225 milioni sono parlanti L1 e 100 milioni sono parlanti L2. L'arabo inoltre è la lingua ufficiale in più di 22 paesi e dal momento che è anche la lingua ufficiale per l'istruzione religiosa dell'Islam, molti altri parlanti hanno almeno una conoscenza passiva della lingua.
È importante rendersi conto che quando ci si riferisce all'arabo, s'intende, non una singola varietà linguistica, ma piuttosto, una collezione di dialetti differenti. Esiste una lingua comune: l'Arabo Standard Moderno (MSA) che è una versione modernizzata dell'Arabo Classico. MSA è la lingua convenzionale, comune a tutti i paesi arabi, ed è la lingua utilizzata nei mezzi di informazione (giornali, radio, TV), nei discorsi ufficiali e in tutti i tipi di comunicazioni internazionali. Tuttavia, MSA non è usato per la comunicazione quotidiana ed informale, che, tipicamente, è effettuata in uno dei dialetti locali. Questi vari dialetti differiscono spesso considerevolmente dall'Arabo Standard Moderno. Le differenze interessano tutti i livelli della lingua, cioè fonetica, fonologia, lessico, morfologia e sintassi.
L'arabo è scritto da destra a sinistra e ha un alfabeto di 28 lettere, di cui venticinque rappresentano le consonanti e le tre lettere restanti rappresentano le vocali lunghe (per semplificare /i:/, /a:/, /u:/). Una caratteristica distintiva del sistema arabo di scrittura è la frequente assenza della rappresentazione delle vocali brevi. Queste potrebbero essere contrassegnate da segni diacritici facoltativi scritti sopra o sotto la consonante precedente, ma nella maggior parte dei documenti scritti sono omessi. La mancanza di segni diacritici può condurre ad un numero considerevole di ambiguità del lessico, che devono essere risolte dalle informazioni contestuali. Senza questa conoscenza, è impossibile determinare la pronuncia di un testo non diacriticizzato. Sarebbe come se la frase italiana: "L'Arabo scritto non è semplicemente leggibile poiché è una lingua senza vocali brevi" venisse scritta "l'Arb scritt non è smplcemnt lggibl pché è un ling senz vcal brev"
Da queste brevi note introduttive risulta evidente la difficoltà di allenare sistemi di riconoscimento automatici per la lingua araba. Il compito è ancora più difficile se si cerca di riconoscere parlato spontaneo o conversazionale per due motivi: la mancanza di corpora dialettali e la assenza di diacritici nei corpora vocali disponibili.
In questo lavoro si descrive lo sviluppo di un sistema di riconoscimento per l'Arabo che consiste in tre fasi:
opre-trattamento del testo (romanizzazione, fonetizzazione, ecc...);
osviluppo di un'architettura per l'addestramento ed il test di un sistema ASR, che sfrutti in parallelo due motori di riconoscimento liberamente disponibili in rete (SONIC e SPHINX);
ovalutazione dei risultati ottenuti.
Per quanto riguarda il materiale vocale, ci siamo concentrati esclusivamente sul MSA ed è stato utilizzato un corpus distribuito dal LDC denominato "West Point Arabic Speech Corpus" (WPA), interamente diacriticizzato, e contenente parlato in MSA, letto in ambiente non rumoroso.
Come si potrà verificare dai risultati che saranno presentati nella versione finale di questo lavoro, le performance del sistema con queste specifiche sono estremamente elevate (2% WER) ed in linea con i risultati ottenuti descritti in letteratura.
Per quanto riguarda i naturali sviluppi futuri, saranno considerati alcuni corpora di parlato Arabo spontaneo e conversazionale il cui riconoscimento automatico rappresenta un task molto più difficile. Generalmente questi corpora sono forniti esclusivamente con trascrizioni non diacriticizzate cioè ortografiche e non contengono informazioni sulle vocali brevi. Di conseguenza in una prima fase, per l'addestramento del sistema, ci baseremo soltanto sull'informazione ortografica su cui potremo applicare eventualmente semplici regole di corrispondenza grafema-fonema. Nonostante l'oggettiva difficoltà di addestrare un sistema di riconoscimento sulla base di trascrizioni non fonetiche, i risultati ottenuti in letteratura sono molto promettenti.
Ci sono ampi margini di miglioramento soprattutto considerando che qualora si riesca a disporre della diacriticizzazione o della trascrizione fonetica precisa di una buona parte del corpus l'addestramento del sistema risulterà sicuramente più preciso ed affidabile.

Publication type: 
Contributo in atti di convegno
Author or Creator: 
Piero Cosi
Mauro Nicolao
Giacomo Sommavilla
Graziano Tisato
Publisher: 
EDK Editore, Torriana, ITA
Source: 
Abstract Book & CD-Rom Proceedings of AISV 2007, 4th Conference of Associazione Italiana di Scienze della Voce, "La Fonetica Sperimentale - Metodo e Applicazioni", pp. 517–530, Università della Calabria, Arcavacata di Rende (CS), 3-6 Dicembre 2007
Date: 
2009
Resource Identifier: 
http://www.cnr.it/prodotto/i/140168
http://www.aisv.it/it/convegni-aisv?start=5
urn:isbn:978-88-6368-046-1
Language: 
Ita
Eng
ISTC Author: 
Piero Cosi's picture
Real name: