Variabili lessicali e sub-lessicali: valori per 626 nomi dell'italiano

Cristina Burani*, Laura Barca*^ e Lisa Saskia Arduino*°

* Istituto di Scienze e Tecnologie della Cognizione, CNR, Roma

^ Università degli studi di Roma "La Sapienza"

° Università degli studi Milano-Bicocca

Nel file varless.xls(formato Excel 5.0) sono contenuti, per 626 nomi semplici dell'italiano, indici relativi a diverse variabili lessicali e sub-lessicali: l'età di acquisizione delle parole, la familiarità, l'immaginabilità, la concretezza, la frequenza nello scritto adulto, nello scritto infantile e nel parlato, il numero di vicini ortografici, la frequenza in bigrammi, la lunghezza in sillabe ed in lettere, le caratteristiche del fonema iniziale delle parole, ed il tempo medio di lettura di ciascuna parola (si veda Barca, Burani, Arduino, 2002).

L'"età di acquisizione" delle parole (EA) è intesa come l'età alla quale una parola ed il suo significato sono stati appresi per la prima volta in forma parlata o in forma scritta.
La "familiarità" di una parola (FAM) si riferisce ad una misura di frequenza soggettiva che valuta quanto una parola è presente nella vita di una persona.
L'"immaginabilità" (IMM) è definita come la facilità e rapidità di una parola ad evocare un'immagine mentale, una rappresentazione visiva, un suono o altre esperienze sensoriali.
La "concretezza" (CONC) è intesa come proprietà di una parola di riferirsi ad oggetti, esseri viventi, azioni e materiali che possono essere esperiti attraverso i sensi.

I valori di queste prime quattro variabili sono stati raccolti tramite questionari sottoposti a 176 studenti di madrelingua italiana delle diverse Università di Roma, di età compresa tra 20 e 30 anni.

Per queste variabili sono riportate anche le deviazioni standard (ds).

Nel file sono inoltre riportati:

Due valori di “frequenza nello scritto adulto” (FQ): ILC, dal formario di 1.500.000 occorrenze elaborato dall'Istituto di Linguistica Computazionale del CNR di Pisa (1989); CoLFIS, dal lessico di frequenza omonimo che consta di 3.798.275 occorrenze lessicali (http://www.istc.cnr.it/grouppage/colfis).
La “frequenza nello scritto infantile” (LE), tratta dal “Lessico Elementare” di Marconi, Ott, Pesenti, Ratti, e Tavella (1993), e distinta in LEtot (valori totali di frequenza), LEcomp (frequenza relativa alle parole lette dai bambini), LEprod (frequenza delle parole scritte dai bambini).
La “frequenza nel parlato” (LIP), tratta dal “Lessico di frequenza dell'italiano parlato” di De Mauro, Mancini, Vedovelli, e Voghera (1993).
Il numero di “vicini ortografici” (VIC), cioè il numero di parole ortograficamente simili ad una parola data ottenute sostituendo una lettera per volta nella parola. I valori riportati sono tratti da “EPOS, Elenco delle Parole Ortograficamente Simili”, contenuto nel volume di Baldi e Traficante (2001).
La “frequenza in bigrammi” (FQ.BIGR), cioè la frequenza media dei bigrammi che compongono una data parola, ricavata calcolando la frequenza con cui i diversi bigrammi dell'italiano compaiono nel formario di frequenza dell'Istituto di Linguistica Computazionale del CNR di Pisa (1989).
La lunghezza in sillabe e in lettere (rispettivamente SILL e LUN) estratta automaticamente dal BDVDB di Thornton, Iacobini, e Burani (1994, 1997).
Il tipo di accentazione della parola (Accento), classificata come piana (p = piana; accento sulla penultima sillaba) o come sdrucciola (s = sdrucciola; accento sulla terzultima sillaba).
Il tipo di fonema iniziale delle parole è distinto in base alla presenza vs. assenza di sonorità (FON:SON) e al modo di articolazione (FON:MOD); per questa classificazione si è fatto riferimento alla pronuncia “standard” riportata in “Il Nuovo Zingarelli. Vocabolario della lingua Italiana”, undicesima edizione (Zingarelli, 1985).
Il tipo di fonema iniziale, diviso in 13 variabili dicotomiche (0 = assenza; 1 = presenza): una variabile per sonorità (SONORA), cinque per modo d'articolazione (OCCLUSIVA, NASALE, FRICATIVA, AFFRICATA e LIQUIDA), sei per luogo d'articolazione (BILABIALE, LABIO-DENTALE, DENTALE, ALVEOLARE, PALATALE e VELARE) e una per vocale (VOCALE). Questa seconda classificazione identifica le caratteristiche dei fonemi iniziali dell’italiano (per gli effetti sul compito di lettura ad alta voce delle caratteristiche fonetiche del fonema iniziale, si vedano Bates, Burani, D'Amico e Barca, 2001; Treiman, Mullennix, Bijeljac-Babic, & Richmond-Welty, 1995).
Il tempo medio di lettura per ciascuna parola (TR), per cui si veda Barca et al. (2002).

Una trattazione più dettagliata di queste variabili e del loro ruolo nel processing lessicale, è contenuta in Burani, Barca, e Arduino (2001), Barca et al. (2002).

La presente base di dati lessicali ha utilità per la ricerca sui processi lessicali, e fornisce uno strumento per lo studio, la diagnosi e la riabilitazione dei disturbi lessicali in pazienti di lingua italiana.

Il file è in formato Excel 5.0, che dovrebbe garantirne la compatibilità con Windows e Macintosh.

Per informazioni contattare la Dott.ssa Cristina Burani, e-mail: cristina.burani@istc.cnr.it.

Riferimenti bibliografici

Baldi P.L., Traficante D. (2001). E.P.O.S. Elenco delle Parole Ortograficamente Simili. Roma: Carocci.

Barca L., Burani C., Arduino L.S. (2002). Word naming times and psycholinguistic norms for Italian nouns. Behavior Research Methods, Instruments, & Computers 34, 424-434.

Bates, E., Burani, C., D’Amico, S., Barca, L. (2001). Word reading and picture naming in Italian. Memory and Cognition, 29 (7), 986-999.

Bertinetto, P.M., Burani,C., Laudanna,A., Marconi, L., Ratti, D., Rolando, C., Thornton, A.M. (2005). Corpus e Lessico di Frequenza dell’Italiano Scritto (CoLFIS) http://www.istc.cnr.it/grouppage/colfis

Burani C., Barca L., Arduino L.S. (2001). Una base di dati sui valori di età di acquisizione, frequenza, familiarità, immaginabilità, concretezza, e altre variabili lessicali e sub-lessicali per 626 nomi dell'italiano. Giornale Italiano di Psicologia, 4, 839-854.

De Mauro T., Mancini F., Vedovelli M., Voghera M. (1993). Lessico di frequenza dell'italiano parlato. Milano: ETASLIBRI

Istituto di Linguistica Computazionale del CNR di Pisa (1989). Corpus di Italiano scritto contemporaneo. Manoscritto non pubblicato.

Marconi L., Ott M., Pesenti E., Ratti D., Tavella M. (1993). Lessico Elementare. Dati statistici sull'italiano letto e scritto dai bambini delle elementari. Bologna: Zanichelli

Thornton A.M., Iacobini C., Burani C. (1994). BDVDB. Una base di dati sul vocabolario di base della lingua italiana (I edizione). Roma: Istituto di Psicologia del CNR

Thornton A.M., Iacobini C., Burani C. (1997). BDVDB. Una base di dati sul vocabolario di base della lingua italiana (II edizione, riveduta ed ampliata). Roma: Bulzoni

Treiman, R., Mullennix, J., Bijeljac-Babic, R., Richmond-Welty, E. D. (1995). The special role of rimes in the description, use, and acquisition of English orthography. Journal of Experimental Psychology: General, 124, 107-136.

Zingarelli N. (1985). Il Nuovo Zingarelli. Vocabolario della lingua Italiana (undicesima edizione), Bologna: Zanichelli