Lucidi Lezioni Sull'Analisi Dei Dati Testuali (ADT)

Sergio Bolasco Facolt di Economia Universit di Roma La Sapienza
Il trattamento automatico dei testi su base statistica

- presuppone di non leggere il testo, se non attraverso unanalisi (ad esempio una query, ovvero una concordanza) - presuppone una dimensione minima di estensione del corpus, (da 5.000 a 30.000 parole a seconda della natura dei testi) per la validit statistica delle "occorrenze" di tali parole - volto a costruire delle rappresentazioni del testo a livello danalisi paradigmatica (lessicale) - vocabolari e loro selezioni sintagmatica (testuale) - modelli di senso - universi lessicali - grafi di relazione
1
MBytes 0,15 1 6 30 60 100 322
Occ
Pag
25.000 50 167.869 335 1.000.000 1.850 5.000.000 9.350 10.000.000 18.500 16.750.000 33.500 55.000.000 100.000
sintagmi latenti classi omogenee di enunciati classi semantiche
1. Nomenclatura di base
parola
termine convenzionale identificante lunit di analisi del testo lessema radice (lessicale) di una parola morfema desinenza (suffisso) grammaticale di una parola scriv-ere, parl-are, buon-o, civil-e, donn-a termine convenzionale per indicare lo sviluppo del testo termine convenzionale per indicare lautore del testo (sia esso testo scritto, parlato o decodificato)
discorso parlante
corpus, collezione di testi [Lucido A] testo, sub-testo parti costitutive del corpus frammento suddivisione del testo in frasi o proposizioni sezione parte del frammento o documento strutturato chunk spezzone di testo di ampiezza prefissata, scorrevole al variare delle parole occorrenza concordanza ogni apparizione di una parola nel testo [Lucido B]
collezione di contesti di una sola parola pivot [Lucido C]
idioma lingua madre espressa da una comunit in un certo periodo storico ad esempio: litaliano contemporaneo, il francese del XIX secolo contesto lessico di uno specifico ambito, campo o settore ad esempio: sport, politica, gastronomia, economia, informatica situazione parole dovute alla condizione di enunciazione del linguaggio; questo linguaggio tiene conto del rapporto di comunicazione fra emettitore e ricevente ad esempio: uno a tutti (conferenza, comizio), uno a uno (dialogo), face to face (parlato) o a distanza (sms, telefono, mail, chat) Nellanalisi di un corpus di dati testuali, importante poter distinguere i 3 diversi tipi di linguaggio
Fig. 1 Componenti del linguaggio Idioma Situazione Contesto
Liste o indici: vocabolario, [Lucido D1] conteggio sul discorso attualizzato lessico, insieme teorico radici lessematiche del discorso potenziale dizionario, [Lucido E] inventario (in)completo di una lingua, insieme di lessici
Criteri di ordinamento delle entrate di una lista (o indice): lessicografico diretto (alfabetico dallinizio parola: a, b, c ....) inverso (alfabetico dal fondo della parola) [Taltac] [Taltac]
lessicometrico
[Lucido D1] per occorrenze decrescenti per lunghezza di componenti (caratteri, parole) [Taltac] per ordine di presentazione dellunit nel testo

[Lucido A]
Il corpus pu essere costituito da - un unico testo - alcuni testi (sub-testi o parti, da due fino a qualche decina) - centinaia o migliaia di micro-testi (frammenti, risposte, messaggi, titoli)
che viene analizzato da un punto di vista statistico attraverso l'informazione contenuta in alcune matrici del tipo
a- Matrice frammenti x forme
Fmax Fmin
Variabili categoriali A B C D
Forma Framm
di 1 1 0 1 1 0 1 1
il ... j 0 1 1 0 ... ... ... ... ... ... 0 1 1 0
... V(s) ... ... ... ... ... ... 0 0 1 0 1 2 ... 2 ... 1 3 1 3 3 5 3 2 1 2 1 2 2
1 2 ... i ... n
b- Matrice forme x testi

Testo 1 di il ... j ... V(s) 82 56 49 ... 29 ... 3 2 35 77 62 ... 10 ... 1 ... j ... T ... 40 ... 145 ... 19 ... 70 ... 33 ... 12 ... ... ... 25 ... 56 ... ... ... 5 ... 7

ESEMPIO di CORPUS
TAB. 7.1a
Esempio di corpus composto di 2 TESTI e 5 FRAMMENTI, rispettivamente categorizzati.

CORPUS =
-C-. TESTO = /T=#/. FRAMMENTO = /F=#/. CATEGORIE = <Q=#>, <R=#>. ------------------------------------------------------------------------------------------------------
-C/T=1/ <R=3> /F=1/ <Q=2> Il contenuto di un discorso sempre espressione di un contesto, cio dell'universo concettuale di riferimento: /F=2/ <Q=1> si tratta, di volta in volta, di un campo, area o settore, in sostanza di un genere. /F=3/ <Q=3> Il linguaggio diverso a seconda che tratti di politica, di letteratura, d'informazione, di sport. /T=2/ <R=1> /F=4/ <Q=2> Con il termine "contesto locale" si indica, invece, un determinato insieme di parole adiacenti ad un termine prefissato, che funge da polo (pivot). /F=5/ <Q=3> Lo studio sistematico dei contesti locali (o intorni) di una parola data detto analisi delle concordanze di quel termine.
---------------------------------------------------------------------------------------------------------SEPARATORI = " ' ( ) , . : [blank]. ALFABETO = tutto ci che non un separatore

6

[Lucido B]
Esempio di testo:
Ogni vocabolario una rappresentazione concreta del discorso di un parlante o di un autore (a seconda che si tratti di linguaggio parlato o scritto): un fatto attualizzato e individuale, unespressione della <parole> nel significato saussuriano del termine. Il lessico, in quanto insieme virtuale di segni linguistici, costituisce invece quello stock mentale di radici lessicali (lessemi) -esistente nella memoria collettiva di una comunit o in quella di un individuo - da cui possono essere estratte le parole di ogni potenziale discorso.
Esempio di indice delle forme grafiche
alfabetico
per occorrenze decrescenti
del della di essere un un una
2 1 8 1 4 1 2 3
di un una del della essere un
8 4 3 2 2 1 1 1
hapax hapax hapax

8 forme grafiche, 22 occorrenze di queste forme grafiche
Esempio di indice dei lemmi rispettivi

3 lemmi,
di_P un_D essere_V 11 7 4 7
22 occorrenze

[Lucido C]
ESEMPIO di CONCORDANZE
TABELLA
7.1b Analisi delle concordanze del termine <di> nel corpus in TAB. 7.1a ordinate secondo la parola che segue il pivot
a seconda che tratti di politica, a, invece, un determinato insieme io diverso a seconda che tratti detto analisi delle concordanze , cio dell' universo concettuale di letteratura, d' informazione, to: si tratta, di volta in volta, un discorso sempre espressione Il contenuto ampo, area o settore, in sostanza o dei contesti locali( o intorni) ttuale di riferimento: si tratta, di di di di di di di di di di di di letteratura, d' informazione, parole adiacenti ad un termine politica, di letteratura, d' i quel termine. riferimento: si tratta, di vol sport. Con il termine" contest un campo, area o settore, in s un contesto, cio dell' univer un discorso sempre espressio un genere. Il linguaggio div una parola data detto analis volta in volta, di un campo, a
F03 F04 F03 F05 F01 F03 F02 F01 F01 F02 F05 F02

[Lucido D1]
TABELLA
7.3 Esempio di VOCABOLARIO per occorrenze decrescenti (in forme grafiche con relativo rango)
forma grafica di una e un la che regione isola per non Sardegna pi i con da in ma le a molto si l il bella sono essere ha ancora occ| 293| 217| 214| 197| 194| 184| 149| 147| 114| 113| 112| 104| 101| 89| 87| 83| 82| 78| 71| 68| 67| 61| 60| 56| 52| 50| 48| 45| 43| rango forma grafica occ| 43| 41| 41| 41| 38| 35| 35| 33| 33| 31| 31| 30| 28| 28| 28| 27| 27| 27| 26| 26| 25| 25| 25| 23| 23| 23| 23| 23| 22| rango 58 58 58 58 58 64 65 65 67 ... 74 76 79 85 92 97 100 108 124 139 156 173 199 222 266 320 425 657 forma grafica dei per possibilit potenzialit sempre come Italia occupazione bene ... potrebbe fare giovani perch classe anche alla abitanti bellezze economica ai aiuti agricoltura abbastanza acque oggi abbiamo abbandonate occ| 22| 22| 22| 22| 22| 21| 20| 20| 19| ...| 18| 17| 16| 15| 14| 13| 12| 11| 10| 9| 8| 7| 6| 5| 4| 3| 2| 1|
rango 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29
29 terra 31 dal 31 disoccupazione 31 problemi 34 se 35 ci 35 della 37 c 37 sviluppo 39 del 39 stato 41 bellissima 42 deve 42 isolamento 42 lavoro 45 dell 45 delle 45 isolata 48 gli 48 soprattutto 50 bisogno 50 resto 50 sardi 53 ambiente 53 cui 53 dove 53 poco 53 troppo 58 al
Fonte: corpus Sardegna (Censis)
Si definisce rango, il posto occupato da un termine in una graduatoria

9
ESEMPIO di DIZIONARIO Tutte le possibili entrate di un FORMA (per lemmi o per forme flesse)
[Lucido E]
Dizionario su CD Rom Treccani, 1998; utente l uomo, esempio in GDU (Grande Dizionario dell Uso; De Mauro 2003) Dizionario elettronico per litaliano: Annibale Elia, Universit di Salerno utente il computer, esempio in TaLTaC
i dizionari elettronici non contengono tutte le varianti linguistiche di una parola (in GDU [250.000 lemmi]: tavolo, tavolino, tavolone, tavoletta, tavolata + altre 27 varianti ma non tavolinetto) Es. la parola <titolo> (ttolo) presenta nella lingua le seguenti varianti codificate
A diminutivo B spregiativo. C accrescitivo D peggiorativo titoltto, titolino; titolccio; titolne; titolccio
10

Esempio di dizionario elettronico: DIZTAL presente in TALTAC
FG attuabile attuabili attuabilit attuale attuali attualissima attualissime attualissimi attualissimo attualismi attualismo attualista attualista attualiste attualiste attualisti attualisti attualistica attualistiche attualistici attualistico attualit attualissimamente attualmente attuamenti attuamento attuativa attuative attuativi attuativo attuazione attuazioni attua attuai attuammo attuando attuano attuante LEMMA attuabile attuabile attuabilit attuale attuale attuale attuale attuale attuale attualismo attualismo attualista attualista attualista attualista attualista attualista attualistico attualistico attualistico attualistico attualit attualmente attualmente attuamento attuamento attuativo attuativo attuativo attuativo attuazione attuazione attuare attuare attuare attuare attuare attuare CAT A A N A A A A A A N N A N A N A N A A A A N AVV AVV N N A A A A N N V V V V V V CF 2 2 7 2 2 IMPRINTING s_m/f pl_m/f s_f s_m/f pl_m/f s_f pl_f pl_m s_m pl_m s_m s_m/f s_m/f pl_f pl_f pl_m pl_m s_f pl_f pl_m s_m s_f inv inv pl_m s_m s_f pl_f pl_m s_m s_f pl_f indic/imperat_pres_s_2/3 indic_passrem_s_1 indic_passrem_pl_1 ger_pres_indf_indf indic_pres_pl_3 part_pres_s_indf FG attuanti attuare attuarono attuarsi attuasse attuassero attuassi attuassimo attuaste attuasti attuata attuate attuati attuato attuava attuavamo attuavano attuavate attuavi attuavo attuer attuerai attueranno attuerebbe attuerebbero attuerei attueremmo attueremo attuereste attueresti attuerete attuer attui attuiamo attuiate attuino attuo attu LEMMA attuare attuare attuare attuare attuare attuare attuare attuare attuare attuare attuare attuare attuare attuare attuare attuare attuare attuare attuare attuare attuare attuare attuare attuare attuare attuare attuare attuare attuare attuare attuare attuare attuare attuare attuare attuare attuare attuare CAT CF IMPRINTING V 3 part_pres_pl_indf V 3 inf_pres_indf_indf V 3 indic_passrem_pl_3 V 3 infrifl_pres_indf_indf V 3 congv_imperf_s_3 V 3 congv_imperf_pl_3 V 3 congv_imperf_s_1/2 V 3 congv_imperf_pl_1 V 3 indic/congv_imperf/passrem_pl_2 V 3 indic_passrem_s_2 V 3 part_pass_s_f V 3 indic/imperat/part_pres/pass_pl_2/f V 3 part_pass_pl_m V 3 part_pass_s_m V 3 indic_imperf_s_3 V 3 indic_imperf_pl_1 V 3 indic_imperf_pl_3 V 3 indic_imperf_pl_2 V 3 indic_imperf_s_2 V 3 indic_imperf_s_1 V 3 indic_fut_s_3 V 3 indic_fut_s_2 V 3 indic_fut_pl_3 V 3 condiz_pres_s_3 V 3 condiz_pres_pl_3 V 3 condiz_pres_s_1 V 3 condiz_pres_pl_1 V 3 indic_fut_pl_1 V 3 condiz_pres_pl_2 V 3 condiz_pres_s_2 V 3 indic_fut_pl_2 V 3 indic_fut_s_1 V 3 indic/congv_pres_s_1/2/3 V 3 indic/congv_pres_pl_1 V 3 congv_pres_pl_2 V 3 congv_pres_pl_3 V 3 indic_pres_s_1 V 3 indic_passrem_s_3
1 1 3 15 3 15 3 15 5 5 5 5 7
1 1 1 1 1 1 33 33 3 3 3 3 3 3
Legenda: FG=Forma Grafica, CF=Classe Flessiva, CAT=categoria grammaticale, Imprinting=profilo morfologico

11
ma i dizionari elettronici non contengono tutte le varianti linguistiche di una parola nel GDU: tavolo, tavolino, tavolone, tavoletta, tavolata + altre 27 varianti ma non tavolinetto Es. la parola <titolo> (ttolo) presenta nella lingua le seguenti varianti codificate A diminutivo B spregiativo. C accrescitivo D peggiorativo titoltto, titolino; titolccio; titolne; titolccio
oppure <occhio> presenta A occhitto, occhiettino, occhino, occhiolino (v.), B (non comune) occhiccio, occhiuzzo; C occhine (v.); D occhiccio (fare gli occhiacci : rivolgere sguardi minacciosi).
Nel caso di aggettivi: piccolo,
piccoletto, piccolino, piccoluccio,
piccolissimo
Per sopperire a questa carenza occorre costruire algoritmi di riconoscimento di queste varianti
12
Uno dei principali problemi aperti nella Analisi Statistica dei Dati Testuali
non quello di applicare ai testi i metodi statistici applicati ai dati "numerici"
questo gi stato codificato da una ventina di anni ad esempio trattando tabelle di frequenza o matrici sparse con metodi multidimensionali
quanto quello di individuare le modalit di selezione dell'informazione all'interno del testo - la frequenza assunta come principale criterio per selezionare le parole finisce per mettere in evidenza l' ovvio (le alte frequenze nascondono anche l'ambiguo) a scapito dell' inatteso (o il nascosto), ossia l'informazione
in questa prospettiva - assume sempre pi importanza l'integrazione fra statistica e linguistica ricorso a meta-informazioni sul corpus oggetto di studio
- occorre
.selezionare parti significative di vocabolario (in genere, al pi il 12-15% Voc in analisi) estrazione del linguaggio peculiare (Bolasco, IASC, Kobe 1996) .categorizzare le parole dal punto di vista grammaticale (INTEX, TALTAC) dal punto di vista semantico (TROPES)
13
2. Scelta delle diverse unit di analisi :

A) UNITA' DI ANALISI DEL TESTO
forma grafica lemma* unit semplice testuale (parola: grafia) unit semplice lessicale (parola: vocabolo) andavamo [Lucido F] andare [Lucido G]
forma canonica label con cui viene proposto il lemma come entrata nel dizionario flessione declinazione della forma canonica del lemma Parlare = parlo, parli, parla, ...parleranno; tale, tali; uomo, uomini segmento polirematica lessia unit composta da una sequenza di unit semplici unit composta con significato non composizionale unit mista (migliore veicolo di significati) pu essere
semplice (Stato), composta (socio-economico), complessa (punto di vista)
andare via [Lucido H] andare a male [Lucido I]
forma ridotta forma testuale
unit semplice operativa (label di una radice lessematica) adatt> unit mista operativa (valorizza laccezione interna al corpus) ...
14
[Lucido L]
B) UNIT DI ANALISI DEL CONTESTO (per l'analisi del contenuto) testo frammento frase raccolta di frammenti qualsiasi spezzone di testo di lunghezza variabile periodo grammaticalmente compiuto
proposizione o enunciato frase elementare: soggetto + predicato + [complemento] risposta enunciato di senso compiuto
15
Forma grafica
[Lucido F]
Nella statistica testuale, le unit di analisi riconosciute automaticamente sono successioni (catene) di caratteri comprese tra due separatori dette forme grafiche (o types)
casa
case
casi
caso
non necessariamente sono delle parole riconosciute da un dizionario catra carta la sola sequenza di caratteri non sempre pienamente interpretabile, occorre estendere il contesto
fine
la il
abito
fine fine
termine scopo (verbo) (sostantivo)

16
io abito labito
Un un una un
maschile femminile un altra cosa lapostrofo significativo
Unaltra cosa Po po p
Maiusc, apostrofo, accento errore ortografico
perch perch perche' Alfabeto:
lettere minuscole, maiuscole, numeri, lettere accentate, @ , $, %, &, altri caratteri di testo - _ / | \ ^ apostrofo (dipende?), virgolette ecc.
Separatori: lo <spazio> < , > < . > lapostrofo < > le parentesi, altra punteggiatura, Il corpus per essere sottoposto ad analisi deve essere salvato in modo <solo testo>, ossia *.txt (non nei formati classici tipo .doc .rtf . mdb .xls ecc.)
17
Lemma
cf. lucido sul dizionario Petit Robert
[Lucido G]
tale unit pienamente identificata se attribuita di categoria grammaticale (es.: essere_V essere_N [forma canonica+cat.gramm])
ESEMPIO DI TESTO LEMMATIZZATO
FORMA LEM M A CAT ART N V PREP N A ART N PREP A N CONG V ART N A PRO ART NP A V PREP A N PREP
la ta v o la b rilla di lu c e r if le s s a i v in i dei g ran d i in c o n tri che s ia la lu c e d o ra ta che il P in o t g ri g io r iv e r b e r a s u llo s tu z z ic a n te r is o tto a lla
il ta v o la b rilla r e di lu c e rif le s s o il v in o del g ran d e in c o n tro che essere il lu c e d o r a to che il P in o t g ri g io riv e rb e r a r e su l s tu z z ic a n te ris o tto al
m a rin a ra , o i r ifle s s i r o s a ti del L a g r e in che si p r o ie tta n o
m a rin a ro , o il r if le s s o r o s a to del L a g r e in che se p ro ie tta r e
A CONG ART N A PREP NP PRO PRO V
sul s a p o r ito c a r p a c c io , l' e f fe tto non c a m b ia . se nei b ic c h ie r i c e' S . M a rg h e r ita , una q u a lit s p e c ia le b r illa
su l s a p o rito c a r p a c c io , il e f fe tto non c a m b ia re . se nel b ic c h ie re ci e s s e re S _ M a r g h e r ita , un q u a lit s p e c ia le b rilla re
PREP A N ART N AVV V CONG PREP N PRO V NP ART N A V
18

Tabella 7.4
Esempi di segmenti
e poliformi
[Lucido H]
segmenti
vuoti: incompleti: pieni: e di, con il, per la, non si, tra le, da tre, ma un, non c campo del, il, quanto si, casa per buona volont, programma di governo, politica industriale (POLIFORMI)
poliformi
locuzioni grammaticali con funzioni di
- avverbi: (luogo) (tempo) (modo) - preposizioni: - aggettivi: - congiunzioni: - interiezioni: di pi, pi o meno, non solo, per esempio, di nuovo, di fatto, del resto, in realt a casa, in chiesa, al di l di sera, un anno fa, al pi presto in particolare, daccordo, in piedi fino a, da parte di, prima di, rispetto a, in modo da, per quanto riguarda in punto, di oggi, del genere, in crisi, di cotone, in fiamme, alla mano il fatto che, dal momento che, prima che, nel senso che, a patto che va bene!, grazie a Dio, mamma mia!, hai voglia!, punto e basta
idiomi e modi di dire:

io penso che, vero che, non che, per cos dire, questo tutto
gruppi nominali polirematici:

buona fede, lavoro nero, mercato unico, punto di vista, cassa integrazione
verbi supporto e idiomatici:

si tratta di, tener conto, portare avanti, far fronte, far parte, prendere atto, dare vita, dare luogo, mettere a punto 19
POLIREMATICA
[Lucido I]
poliforme (ossia unit composta) con significato non composizionale tale cio che i significati elementari delle parole costituenti lespressione non si sommano per produrre il significato dellespressione
ovvero
il poliforme ha un significato del tutto diverso dalle sue componenti elementari

<capo dello stato> non un bens il <carta di credito> non un bens uno <accidente secco> un promontorio della nazione <presidente della Repubblica> credito di carta strumento di pagamento colpo apoplettico ecc.
le strutture pi comuni, per i gruppi Nominali, sono N Prep N, N Agg, Agg N caratteristiche: il loro riconoscimento a priori consente di eliminare molte ambiguit <capo dello stato> <dato di fatto> <punto di vista> problema: non sempre il loro significato univoco <a volte> ( a volte non torno, un soffitto a volte )
solo il contesto locale consente di togliere lambiguit
20
Algoritmo di individuazione dei segmenti (Taltac e Lexico):

DEF.:
Segmento = ogni sequenza di Forme Grafiche di lunghezza n compresa tra due separatori forti (definenti il frammento di testo) dove 2 < n < Lmax due frammenti separatori (forti) | A B C D | E F G | Sep fg fg fg fg Sep fg fg fg Sep , . ; : ! ?
un' isola stupenda, solo che A B C D | E F A
(AB / ABC / ABCD / BC / BCD / CD | EF / EFA / FA)
[Lucido M]
Vincoli nell' individuazione dei segmenti:

frequenza delle parole (hapax e/o superiore) freq minima dei segmenti (hapax e non) [non pu essere > freq parole] n massimo di parole componenti il segmento (Lmax) segmenti che iniziano/finiscono con parole "vuote" selezione di segmenti intorno a parole "pivot"
21
Indice per selezionare i POLIFORMI Selezione di segmenti
IS = Indice di rilevanza del Segmento (assorbimento di forme grafiche come capacit selettiva del senso espresso dalla sequenza)
F 18 16 19 23 17 33 25 29 27 24 33 31 47
L f segm IS = P i =1 f fgi
f1 f2 f3
L IS Segmento 2 3,636 teste rasate 2 3,113 protezione civile 2 2,804 v cumpr 2 2,799 sporco negro 2 2,723 palazzo chigi 2 2,620 linea dura 3 2,491 permesso di soggiorno 3 1,235 centri di accoglienza 3 0,937 la legge martelli 3 0,714 non c 3 0,546 un gruppo di 3 0,282 contro il razzismo 3 0,124 per gli immigrati
22 18 0 17 26 0 23 33 0 27 42 0 47 17 0 53 48 0 38 4117 43 77 4117 124 2566 148 98 803 133 868 2356 63 4117 311 2738 181 1987 888 987
Fonte: da unanalisi dei titoli di giornale sugli immigrati (Stoppiello, 1998).
In pratica, per ciascuna delle L forme grafiche componenti il segmento, si considera il rapporto fsegm (occorrenze del segmento) su ffg (occorrenze della forma grafica componente), moltiplicando poi la somma di tutti questi quozienti per il numero P di parole piene presenti nel segmento.
L' indice si annulla quando il segmento composto solo da parole vuote, ed ha il suo massimo pari a L2.
Lindice consente di scartare i segmenti vuoti o irrilevanti in termini di grado dassorbimento; questi, generalmente, sono oltre l80% dellintero inventario. L'indice particolarmente utile per per selezionare alcune polirematiche di contenuto (prevalentemente gruppi nominali e verbi idiomatici).
22
La selezione dei segmenti ripetuti

individuazione di sottoinsiemi di segmenti: sequenze vuote / sequenze piene di senso (poliformi) espansioni (sintagmi nominali, preposizionali, verbali)
2 alternative nell'analisi dei dati testuali

Analisi dei segmenti con ridondanza (31 segmenti) piccola propriet 13 (non contadina piccola propriet contadina 7 propriet contadina 11 (non piccola 6) 4) esempio: nel dominio della propriet
A 6
A = piccola B = contadina B 7 4
Lessicalizzazione dei poliformi senza ridondanza (17 multiwords) piccola propriet contadina 7 piccola propriet 6 propriet contadina 4
( carente di informazione) ( carente di informazione)
23
Sul concetto di frequenza

ruolo di grande centralit (da non interpretare come una condizione necessaria e sufficiente) anche gli hapax (parole "dette" una sola volta) hanno grande importanza recupero di parole al di sotto della soglia di frequenza scelta per lanalisi (per fusioni o ricodifiche pertinenti) selezione di parole indipendentemente dal valore assoluto delle occorrenze grazie al confronto con frequenze di riferimento calcoli mediante occorrenze normalizzate (secondo l'ordine di grandezza del corpus)
PAROLA A Occorrenze assolute TESTI CORPUS B C Frequenze relative TESTI CORPUS Occorrenze normalizzate TESTI CORPUS A 55.3 23.3 B 8.4 18.4 C 37.7 30 TOT 40.7 24.3
sogno 83 5 34 fantasia 35 11 27 . Ampiezza totale 150,145 59,705 90,150 300,000 0.5005
TOT A B C TOT 122 0.0005 0.0001 0.0004 0.0004 73 0.0002 0.0002 0.0003 0.00024
0.199 0.3005
1 100,000 100,000 100,000 100,000
24
3. Alcune regolarit nello studio quantitativo della lingua

La relazione fondamentale fra rango e frequenza Legge di ZIPF F . R = costante dove F= occorrenze R=rango ovvero la frequenza inversamente proporzionale al rango Un suo classico esempio, fatto dallo stesso Zipf (si veda Lebart e Salem, 1988), tratto da uno studio lessicale dellUlysses di Joyce (dal vocabolario di un corpus di 260.000 occorrenze): al rango 10 al rango 100 al rango 1.000 al rango 10.000 la frequenza la frequenza la frequenza la frequenza 2.653 265 26 2
25
Risulta pi opportuno esprimere la legge come f r a= c che in scala logaritmica sesprime nella forma alog(r) + log(f) = c La relazione pu anche scriversi log(f) = c + alog(r) da cui si evince che a indica la pendenza di una retta su un grafico a coordinate logaritmiche, in cui lasse y descriva il logaritmo della frequenza, lasse x il logaritmo del rango e a sintenda con segno negativo. La pendenza funzione della cosiddetta ricchezza del vocabolario che a sua volta dipende dalla dimensione del testo. Il coefficiente a risulta ben approssimato dal rapporto log N / log V
26
27
28
Gamme di frequenza
3 fasce : alte, medie e basse frequenze
alte/medie medie/basse
ra n g o 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 fo rm a g ra fic a di una e un la che re g io n e is o la per non S a rd e g n a p i i con da in ma le a m o lto si l il b e lla sono e s s e re ha a n c o ra occ| 293| 217| 214| 197| 194| 184| 149| 147| 114| 113| 112| 104| 101| 89| 87| 83| 82| 78| 71| 68| 67| 61| 60| 56| 52| 50| 48| 45| 43| ra n g o fo rm a g ra fic a occ| 43| 41| 41| 41| 38| 35| 35| 33| 33| 31| 31| 30| 28| 28| 28| 27| 27| 27| 26| 26| 25| 25| 25| 23| 23| 23| 23| 23| 22| ra n g o 58 58 58 58 58 64 65 65 67 ... 74 76 79 85 92 97 100 108 124 139 156 173 199 222 266 320 425 657 fo rm a g ra fic a dei p e r p o s s ib ilit p o te n z ia lit s e m p re com e Ita lia o c c u p a z io n e bene ... p o tre b b e fa re g io v a n i p e rc h c la s s e anche a lla a b ita n ti b e lle z z e e c o n o m ic a ai a iu ti a g ric o ltu ra a b b a s ta n z a acque oggi a b b ia m o a b b a n d o n a te occ| 22| 22| 22| 22| 22| 21| 20| 20| 19| ...| 18| 17| 16| 15| 14| 13| 12| 11| 10| 9| 8| 7| 6| 5| 4| 3| 2| 1| 29 te rra 31 dal 3 1 d is o c c u p a z io n e 31 p ro b le m i 34 se 35 ci 35 d e lla 37 c 37 s v ilu p p o 39 del 39 s ta to 41 b e llis s im a 42 deve 42 is o la m e n to 42 la v o ro 45 d e ll 45 d e lle 45 is o la ta 48 g li 48 s o p ra ttu tto 50 b is o g n o 50 re s to 50 s a rd i 53 a m b ie n te 53 cui 53 dove 53 poco 53 tro p p o 58 al
la prima parit la prima lacuna
29
Alcune misure lessicometriche di base:
[Lucido D1]
- Concetto e misure di ricchezza lessicale (Taltac) - Dimensioni minime del corpus e livello di soglia di frequenza
- almeno 10.000 occorrenze (meglio 20.000) - rapporto V/N < 20% - rapporto N/V frequenza media
- Copertura del testo
% occorrenze cumulate da frequenza max a frequenza di soglia

Primo decile delle basse frequenze V(s) F V(s)/V % 12 11 9 11 7 6 11,9 12,0 11,9 11,9 11,8 12,7 COP % 87,1 84,0 80,6 81,0 72,8 71,3 Secondo decile delle basse frequenze V(s) F COP % 5 5 4 5 4 3 91,8 89,7 87,1 87,6 81,5 79,2
Tab. 7.6 - Gamme di frequenza e livelli di soglia Corpus Occorr Parole Limite inferiore medie frequenze
FG N V V(s) F COP % 66,3 61,3 56,3 57,5 45,3 49,2
Thomas Tot Thomas A Thomas B Vangeli Thomas C Sardegna
222.600 121.330 70.450 70.440 21.000 7.940
14.480 10.100 7.550 6.470 3.630 1.610
305 220 160 140 80 50
104 84 70 80 44 23
1.720 1.210 900 770 430 205
3.140 2.200 1.640 1.400 780 350
30
4. CRITERI DI SELEZIONE DELLE UNITA DI TESTO NEL VOCABOLARIO LESSICI di FREQUENZA come LINGUAGGI "teorici" di RIFERIMENTO
31
Risorse statistiche presenti in Taltac

Lessici di frequenza (forme categorizzate, se non ambigue) Italiano standard (un campione di italiano parlato / scritto, di lessico formale / informale) dal corpus Polif_2002, composto da 4 milioni di occorrenze (stampa, discorsi
parlamentari, documenti ufficiali, saggistica, biografie, interviste, dialoghi, composizioni scolastiche): 50.000 forme grafiche con uso superiore a 1 2.600 lemmi di verbi da forme grafiche non ambigue 4.000 multiwords circa (lessico fondamentale di poliformi, FdP)
Linguaggio comune (dal DB "Rep90" di 10 annate di giornale "La Repubblica", raccolta di oltre 245 milioni di occorrenze - (pi esattamente 245.848.68, di cui 223.457.911 per le 291.650 parole riconosciute nei 10 anni)
60.000 forme grafiche con uso superiore a 50 4.900 lemmi di verbi da forme grafiche non ambigue
Lessico Economico Finanziario (da un campione di testi di 4 miloni di occorrenze distinti per: temi [Assicurazioni, Banche, Borsa, Commercio, Diritto finanz, Economia politica ecc. ] generi [formale, tecnico-scientifico, burocratico, standard, informale]
32
4.1 Criterio di estrazione del linguaggio peculiare:
33
Calcolo degli scarti standardizzati come strumento per estrarre il linguaggio peculiare (parole sovra/sotto-utilizzate rispetto al lessico)
fi fi* zi = * fi
Per giustificare questa espressione seguiamo un ragionamento, anche se in maniera assai semplificata. Come noto, si possono indicare con e x = n pq rispettivamente la media del numero assoluto di occorrenze di una parola e il suo scarto quadratico medio, ove p (e q) la probabilit, come frequenza relativa, dell'apparire della parola (e rispettivamente del suo non apparire) in un testo, ed n il numero di "prove" che si immagina di effettuare per ottenere la parola in oggetto. Nel nostro caso n pari al numero totale di occorrenze nel sub-testo: ipotizzando ogni tranche di corpus della stessa dimensione, n costante in tutto il corpus. Questo schema teorico sottintende, nell'ipotesi di indipendenza fra eventi, che l'apparire delle occorrenze di una parola in ciascun sub-testo possa essere immaginato come un evento aleatorio, ove p appunto la probabilit di ottenere quella parola ogni n "prove". Ogni qualvolta si ottiene una proporzione di occorrenze di molto superiore (o inferiore) a questa quantit n p si pu supporre che ci non sia dovuto al caso ma piuttosto sia l'espressione di una qualche "causa" specifica. Ha senso allora voler misurare in termini di uno scarto relativo questa differenza. Tale scarto prender la forma seguente: ( x xteor ) z=
E( x ) = n p
Ora in ambito linguistico, la frequenza relativa p di una parola in un testo di fatto sempre bassissima, per cui, volendo semplificare il calcolo, possiamo esprimere x come x=n p , in quanto il prodotto di p q praticamente sempre uguale a p. ( x x teor ) z= x teor Ma il tal modo lo s.q.m. della frequenza assoluta di una parola pari alla radice quadrata della frequenza assoluta teorica, quindi

34
35
4.2 - Concetto e misura della specificit nei sub-testi

(estrazione del linguaggio caratteristico, ovvero specifico di una parte del corpus)
Si definisce specifica di un testo ogni parola o espressione sovra/sotto utilizzata rispetto ad una norma di riferimento (ad esempio il valor medio o il valore assunto in un modello di riferimento). Si consideri ad esempio una raccolta di articoli provenienti da una rassegna stampa. Ogni specificit positiva (sovra-utilizzo) di una "parola" o di una espressione (multiword) equivale ad un uso superiore a quello "atteso" nel giornale considerato, valutato quest'ultimo rispetto al suo impiego medio nei giornali compresi nella rassegna stampa. Ogni specificit negativa di un termine, equivale ad un sotto-utilizzo (o rarit del termine, fino ad arrivare anche alla sua totale assenza) rispetto alla suddetta "attesa". Questo scarto valutato in termini probabilistici. Il modello che si utilizza quello della legge ipergeometrica, approssimato asintoticamente da una distribuzione gaussiana, se la frequenza delle parole nel corpus e le dimensioni dei sub-testi sono sufficientemente grandi; - negli output del software Lexico, tale probabilit espressa solo in ordini di grandezza [+E03 equivale all'ordine di 1 su mille]. In pratica, se una parola ha una specificit pari a +E03 significa che l'ottenere nel testo un numero di occorrenze uguale o superiore a quel valore ha solo una probabilit su mille di essere un fatto casuale; pertanto, "altamente probabile" che tale parola sia realmente stata usata in quel contesto in quantit superiore rispetto al suo uso atteso in media nel corpus.
36
Un esempio sulle specificit

In concreto, il test statistico si basa sul calcolo (che fa ricorso ad alcune semplificazioni per numeri non piccoli) di tutte le probabilit di X>x. Fissato arbitrariamente a priori un livello s come soglia di probabilit, se la probabilit del test inferiore a tale livello si dir che la parola specifica, altrimenti considerata "banale" (ossia non si discosta molto dal valore atteso per quell'universo di campioni). Se consideriamo l'esempio della tabella riportata di seguito, nel corpus di una rassegna stampa sull'elettrosmog (ove il totale delle occorrenze T=247.119), la parola <interferenze> presente negli articoli del Corriere della Sera (subtesto di dimensione t=9.179) con 10 occorrenze (f), mentre nell'intero corpus di tutti i giornali la stessa parola ricorre con 24 occorrenze (F). Questo termine, ad una soglia s prefissata del 5%, risulta altamente specifico in questo giornale (ovvero questa differenza di occorrenze ha una probabilit praticamente nulla [+E09= 1miliardesimo] di essere un evento puramente casuale), quindi un termine "certamente" sovra-utilizzato (S+ =SPEC positiva). Al contrario, il lemma <ripetitor+> - che si verifica 13 volte (f) nel Corriere della Sera sulle 852 (F) nel corpus in totale - considerato un termine raro, poich ha una S- =SPEC negativa [-E04 = 1 probabilit su 10.000 di ottenere casualmente valori uguali o inferiori a 13].
Unit lessicale interferenze bambini linee elettronic+
F 24 125 77 53
f 10 17 13 11
SPEC +E09 +E06 +E06 +E06
Unit lessicale richiest+ autorizzazion+ comitato ripetitor+
F 274 185 250 852
f 3 1 1 13
SPEC -E03 -E03 -E04 -E04
37
5. Tipi di corpus
Indagini dirette sul campo: Surveys qualitative con domande aperte (Sardegna) Interviste non direttive / interviste semi-strutturate a testimoni privilegiati focus group (Educazione alimentare) storie di vita (Cavallaro) Raccolte testi: biografie, scambi epistolari Documenti ufficiali: rapporti annuali ISTAT, CENSIS, ISCO, ONU, UE Analisi di rassegne stampa Agenzie dinformazione
38
(Il Contadino polacco)
(Sviluppo umano) (Elettrosmog) (VELI, LEF)
Marketing campagne pubblicitarie: annunci o manifesti CRM fidelizzazione della clientela Analisi documentaria: Information retrieval in databases Dizionari specializzati
(indagine ABI-Eurisko) (web-mining) (database rep90) (LEF)
Discorso politico linguaggio di Berlusconi confronto fra politici dichiarazioni programmatiche di governo (TPG) programmi elettorali (destra-sinistra) messaggi via massmedia: tribune politiche, dibattiti Studio di testi corti Abstracts e progetti di ricerca, Bibliografie Manifesti Messaggi Internet (forum sulle F.O.) Traduzioni testuali di messaggi non testuali
39

Lucidi Lezioni Sull&#39;Analisi Dei Dati Testuali (ADT)

Uploaded by

Document Information

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Lucidi Lezioni Sull&#39;Analisi Dei Dati Testuali (ADT)

Uploaded by

Copyright:

Available Formats

Sergio Bolasco Facolt di Economia Universit di Roma La Sapienza

Il trattamento automatico dei testi su base statistica

MBytes 0,15 1 6 30 60 100 322

sintagmi latenti classi omogenee di enunciati classi semantiche

Sergio Bolasco Facolt di Economia Universit di Roma La Sapienza

collezione di contesti di una sola parola pivot [Lucido C]

Sergio Bolasco Facolt di Economia Universit di Roma La Sapienza

Sergio Bolasco Facolt di Economia Universit di Roma La Sapienza

Sergio Bolasco Facolt di Economia Universit di Roma La Sapienza

il ... j 0 1 1 0 ... ... ... ... ... ... 0 1 1 0

b- Matrice forme x testi

Sergio Bolasco Facolt di Economia Universit di Roma La Sapienza

Esempio di corpus composto di 2 TESTI e 5 FRAMMENTI, rispettivamente categorizzati.

-C-. TESTO = /T=#/. FRAMMENTO = /F=#/. CATEGORIE = <Q=#>, <R=#>. ------------------------------------------------------------------------------------------------------

---------------------------------------------------------------------------------------------------------SEPARATORI = " ' ( ) , . : [blank]. ALFABETO = tutto ci che non un separatore

Sergio Bolasco Facolt di Economia Universit di Roma La Sapienza

per occorrenze decrescenti

del della di essere un un una

di un una del della essere un

hapax hapax hapax

Esempio di indice dei lemmi rispettivi

Sergio Bolasco Facolt di Economia Universit di Roma La Sapienza

Sergio Bolasco Facolt di Economia Universit di Roma La Sapienza

Fonte: corpus Sardegna (Censis)

Si definisce rango, il posto occupato da un termine in una graduatoria

Sergio Bolasco Facolt di Economia Universit di Roma La Sapienza

Sergio Bolasco Facolt di Economia Universit di Roma La Sapienza

Legenda: FG=Forma Grafica, CF=Classe Flessiva, CAT=categoria grammaticale, Imprinting=profilo morfologico

Sergio Bolasco Facolt di Economia Universit di Roma La Sapienza

Nel caso di aggettivi: piccolo,

piccoletto, piccolino, piccoluccio,

Sergio Bolasco Facolt di Economia Universit di Roma La Sapienza

Sergio Bolasco Facolt di Economia Universit di Roma La Sapienza

2. Scelta delle diverse unit di analisi :

andare via [Lucido H] andare a male [Lucido I]

forma ridotta forma testuale

Sergio Bolasco Facolt di Economia Universit di Roma La Sapienza

Sergio Bolasco Facolt di Economia Universit di Roma La Sapienza

termine scopo (verbo) (sostantivo)

Sergio Bolasco Facolt di Economia Universit di Roma La Sapienza

maschile femminile un altra cosa lapostrofo significativo

Maiusc, apostrofo, accento errore ortografico

perch perch perche' Alfabeto:

Sergio Bolasco Facolt di Economia Universit di Roma La Sapienza

cf. lucido sul dizionario Petit Robert

la ta v o la b rilla di lu c e r if le s s a i v in i dei g ran d i in c o n tri che s ia la lu c e d o ra ta che il P in o t g ri g io r iv e r b e r a s u llo s tu z z ic a n te r is o tto a lla

m a rin a ra , o i r ifle s s i r o s a ti del L a g r e in che si p r o ie tta n o

m a rin a ro , o il r if le s s o r o s a to del L a g r e in che se p ro ie tta r e

A CONG ART N A PREP NP PRO PRO V

su l s a p o rito c a r p a c c io , il e f fe tto non c a m b ia re . se nel b ic c h ie re ci e s s e re S _ M a r g h e r ita , un q u a lit s p e c ia le b rilla re

PREP A N ART N AVV V CONG PREP N PRO V NP ART N A V

Sergio Bolasco Facolt di Economia Universit di Roma La Sapienza

idiomi e modi di dire:

gruppi nominali polirematici:

verbi supporto e idiomatici:

Sergio Bolasco Facolt di Economia Universit di Roma La Sapienza

il poliforme ha un significato del tutto diverso dalle sue componenti elementari

Sergio Bolasco Facolt di Economia Universit di Roma La Sapienza

Algoritmo di individuazione dei segmenti (Taltac e Lexico):

Vincoli nell' individuazione dei segmenti:

Sergio Bolasco Facolt di Economia Universit di Roma La Sapienza

Indice per selezionare i POLIFORMI Selezione di segmenti

Fonte: da unanalisi dei titoli di giornale sugli immigrati (Stoppiello, 1998).

Sergio Bolasco Facolt di Economia Universit di Roma La Sapienza

Lucidi Lezioni Sull'Analisi Dei Dati Testuali (ADT)

Lucidi Lezioni Sull'Analisi Dei Dati Testuali (ADT)