IntFormT

Formario.txt

 

I files contenuti in questa parte sono in formato .txt e pertanto ne consigliamo l'uso da parte di utenti esperti. Questi files possono essere importati da qualsiasi applicativo in grado di creare basi di dati, utilizzando qualsiasi sistema operativo.

I files del FORMARIO contengono le forme estratte dal corpus di italiano scritto, ciascuna corredata dalla frequenza assoluta con cui compare nel corpus e dal numero di caratteri di cui è costituita.

Il FORMARIO non è lemmatizzato, quindi contiene forme ambigue. Di conseguenza, nel formario si potrà trovare la frequenza nel corpus di una forma come 'porta', ma non si potrà distinguere quanta parte della frequenza totale sia da attribuirsi a 'porta' voce del verbo portare e quanta a 'porta' nome femminile singolare. Oppure, si troverà la frequenza di 'ancora', senza poter distinguere la frequenza del corrispondente avverbio/congiunzione con accentazione piana (ancòra) da quella del nome femminile singolare con accentazione sdrucciola (àncora). Il formario inoltre non distingue fra i casi in cui una data forma compare isolatamente (ad es. 'porta', 'corto'), da quelli in cui compare in una parola sintagmatica, sia essa un composto con i due elementi separati da spazio (ad es. 'porta ombrelli') o altro tipo di locuzione ('a corto di').

Il FORMARIO include cinque files in formato .txt. In tutti i files sono contenute le seguenti INFORMAZIONI:

  • Campo 1: sequenza di lettere (o di numeri) di cui si compone la forma
  • Campo 2: numero intero corrispondente alla frequenza assoluta totale nel corpus della forma
  • Campo 3: numero intero corrispondente al numero di caratteri della forma.

I files differiscono fra di loro per il carattere (minuscolo, maiuscolo, numerico) e l'ordine (alfabetico diretto, alfabetico inverso, numerico) in cui le forme vengono riportate.

Fai clic su ciascun file per scaricarlo.

formario.txt

formario inverso.txt

formario maiuscolo minuscolo.txt

formario minuscolo.txt

formario numeri.txt