Professional Documents
Culture Documents
Occ
Pag
25.000 50 167.869 335 1.000.000 1.850 5.000.000 9.350 10.000.000 18.500 16.750.000 33.500 55.000.000 100.000
1. Nomenclatura di base
parola
termine convenzionale identificante lunit di analisi del testo lessema radice (lessicale) di una parola morfema desinenza (suffisso) grammaticale di una parola scriv-ere, parl-are, buon-o, civil-e, donn-a termine convenzionale per indicare lo sviluppo del testo termine convenzionale per indicare lautore del testo (sia esso testo scritto, parlato o decodificato)
discorso parlante
corpus, collezione di testi [Lucido A] testo, sub-testo parti costitutive del corpus frammento suddivisione del testo in frasi o proposizioni sezione parte del frammento o documento strutturato chunk spezzone di testo di ampiezza prefissata, scorrevole al variare delle parole occorrenza concordanza ogni apparizione di una parola nel testo [Lucido B]
idioma lingua madre espressa da una comunit in un certo periodo storico ad esempio: litaliano contemporaneo, il francese del XIX secolo contesto lessico di uno specifico ambito, campo o settore ad esempio: sport, politica, gastronomia, economia, informatica situazione parole dovute alla condizione di enunciazione del linguaggio; questo linguaggio tiene conto del rapporto di comunicazione fra emettitore e ricevente ad esempio: uno a tutti (conferenza, comizio), uno a uno (dialogo), face to face (parlato) o a distanza (sms, telefono, mail, chat) Nellanalisi di un corpus di dati testuali, importante poter distinguere i 3 diversi tipi di linguaggio
Fig. 1 Componenti del linguaggio Idioma Situazione Contesto
Liste o indici: vocabolario, [Lucido D1] conteggio sul discorso attualizzato lessico, insieme teorico radici lessematiche del discorso potenziale dizionario, [Lucido E] inventario (in)completo di una lingua, insieme di lessici
Criteri di ordinamento delle entrate di una lista (o indice): lessicografico diretto (alfabetico dallinizio parola: a, b, c ....) inverso (alfabetico dal fondo della parola) [Taltac] [Taltac]
lessicometrico
[Lucido D1] per occorrenze decrescenti per lunghezza di componenti (caratteri, parole) [Taltac] per ordine di presentazione dellunit nel testo
Il corpus pu essere costituito da - un unico testo - alcuni testi (sub-testi o parti, da due fino a qualche decina) - centinaia o migliaia di micro-testi (frammenti, risposte, messaggi, titoli)
che viene analizzato da un punto di vista statistico attraverso l'informazione contenuta in alcune matrici del tipo
a- Matrice frammenti x forme
Fmax Fmin
Variabili categoriali A B C D
Forma Framm
di 1 1 0 1 1 0 1 1
... V(s) ... ... ... ... ... ... 0 0 1 0 1 2 ... 2 ... 1 3 1 3 3 5 3 2 1 2 1 2 2
1 2 ... i ... n
-C/T=1/ <R=3> /F=1/ <Q=2> Il contenuto di un discorso sempre espressione di un contesto, cio dell'universo concettuale di riferimento: /F=2/ <Q=1> si tratta, di volta in volta, di un campo, area o settore, in sostanza di un genere. /F=3/ <Q=3> Il linguaggio diverso a seconda che tratti di politica, di letteratura, d'informazione, di sport. /T=2/ <R=1> /F=4/ <Q=2> Con il termine "contesto locale" si indica, invece, un determinato insieme di parole adiacenti ad un termine prefissato, che funge da polo (pivot). /F=5/ <Q=3> Lo studio sistematico dei contesti locali (o intorni) di una parola data detto analisi delle concordanze di quel termine.
Esempio di testo:
Ogni vocabolario una rappresentazione concreta del discorso di un parlante o di un autore (a seconda che si tratti di linguaggio parlato o scritto): un fatto attualizzato e individuale, unespressione della <parole> nel significato saussuriano del termine. Il lessico, in quanto insieme virtuale di segni linguistici, costituisce invece quello stock mentale di radici lessicali (lessemi) -esistente nella memoria collettiva di una comunit o in quella di un individuo - da cui possono essere estratte le parole di ogni potenziale discorso.
Esempio di indice delle forme grafiche
alfabetico
2 1 8 1 4 1 2 3
8 4 3 2 2 1 1 1
22 occorrenze
ESEMPIO di CONCORDANZE
TABELLA
7.1b Analisi delle concordanze del termine <di> nel corpus in TAB. 7.1a ordinate secondo la parola che segue il pivot
a seconda che tratti di politica, a, invece, un determinato insieme io diverso a seconda che tratti detto analisi delle concordanze , cio dell' universo concettuale di letteratura, d' informazione, to: si tratta, di volta in volta, un discorso sempre espressione Il contenuto ampo, area o settore, in sostanza o dei contesti locali( o intorni) ttuale di riferimento: si tratta, di di di di di di di di di di di di letteratura, d' informazione, parole adiacenti ad un termine politica, di letteratura, d' i quel termine. riferimento: si tratta, di vol sport. Con il termine" contest un campo, area o settore, in s un contesto, cio dell' univer un discorso sempre espressio un genere. Il linguaggio div una parola data detto analis volta in volta, di un campo, a
F03 F04 F03 F05 F01 F03 F02 F01 F01 F02 F05 F02
7.3 Esempio di VOCABOLARIO per occorrenze decrescenti (in forme grafiche con relativo rango)
forma grafica di una e un la che regione isola per non Sardegna pi i con da in ma le a molto si l il bella sono essere ha ancora occ| 293| 217| 214| 197| 194| 184| 149| 147| 114| 113| 112| 104| 101| 89| 87| 83| 82| 78| 71| 68| 67| 61| 60| 56| 52| 50| 48| 45| 43| rango forma grafica occ| 43| 41| 41| 41| 38| 35| 35| 33| 33| 31| 31| 30| 28| 28| 28| 27| 27| 27| 26| 26| 25| 25| 25| 23| 23| 23| 23| 23| 22| rango 58 58 58 58 58 64 65 65 67 ... 74 76 79 85 92 97 100 108 124 139 156 173 199 222 266 320 425 657 forma grafica dei per possibilit potenzialit sempre come Italia occupazione bene ... potrebbe fare giovani perch classe anche alla abitanti bellezze economica ai aiuti agricoltura abbastanza acque oggi abbiamo abbandonate occ| 22| 22| 22| 22| 22| 21| 20| 20| 19| ...| 18| 17| 16| 15| 14| 13| 12| 11| 10| 9| 8| 7| 6| 5| 4| 3| 2| 1|
rango 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29
29 terra 31 dal 31 disoccupazione 31 problemi 34 se 35 ci 35 della 37 c 37 sviluppo 39 del 39 stato 41 bellissima 42 deve 42 isolamento 42 lavoro 45 dell 45 delle 45 isolata 48 gli 48 soprattutto 50 bisogno 50 resto 50 sardi 53 ambiente 53 cui 53 dove 53 poco 53 troppo 58 al
ESEMPIO di DIZIONARIO Tutte le possibili entrate di un FORMA (per lemmi o per forme flesse)
[Lucido E]
Dizionario su CD Rom Treccani, 1998; utente l uomo, esempio in GDU (Grande Dizionario dell Uso; De Mauro 2003) Dizionario elettronico per litaliano: Annibale Elia, Universit di Salerno utente il computer, esempio in TaLTaC
i dizionari elettronici non contengono tutte le varianti linguistiche di una parola (in GDU [250.000 lemmi]: tavolo, tavolino, tavolone, tavoletta, tavolata + altre 27 varianti ma non tavolinetto) Es. la parola <titolo> (ttolo) presenta nella lingua le seguenti varianti codificate
A diminutivo B spregiativo. C accrescitivo D peggiorativo titoltto, titolino; titolccio; titolne; titolccio
10
1 1 3 15 3 15 3 15 5 5 5 5 7
1 1 1 1 1 1 33 33 3 3 3 3 3 3
ma i dizionari elettronici non contengono tutte le varianti linguistiche di una parola nel GDU: tavolo, tavolino, tavolone, tavoletta, tavolata + altre 27 varianti ma non tavolinetto Es. la parola <titolo> (ttolo) presenta nella lingua le seguenti varianti codificate A diminutivo B spregiativo. C accrescitivo D peggiorativo titoltto, titolino; titolccio; titolne; titolccio
oppure <occhio> presenta A occhitto, occhiettino, occhino, occhiolino (v.), B (non comune) occhiccio, occhiuzzo; C occhine (v.); D occhiccio (fare gli occhiacci : rivolgere sguardi minacciosi).
piccolissimo
Per sopperire a questa carenza occorre costruire algoritmi di riconoscimento di queste varianti
12
Uno dei principali problemi aperti nella Analisi Statistica dei Dati Testuali
non quello di applicare ai testi i metodi statistici applicati ai dati "numerici"
questo gi stato codificato da una ventina di anni ad esempio trattando tabelle di frequenza o matrici sparse con metodi multidimensionali
quanto quello di individuare le modalit di selezione dell'informazione all'interno del testo - la frequenza assunta come principale criterio per selezionare le parole finisce per mettere in evidenza l' ovvio (le alte frequenze nascondono anche l'ambiguo) a scapito dell' inatteso (o il nascosto), ossia l'informazione
in questa prospettiva - assume sempre pi importanza l'integrazione fra statistica e linguistica ricorso a meta-informazioni sul corpus oggetto di studio
- occorre
.selezionare parti significative di vocabolario (in genere, al pi il 12-15% Voc in analisi) estrazione del linguaggio peculiare (Bolasco, IASC, Kobe 1996) .categorizzare le parole dal punto di vista grammaticale (INTEX, TALTAC) dal punto di vista semantico (TROPES)
13
forma canonica label con cui viene proposto il lemma come entrata nel dizionario flessione declinazione della forma canonica del lemma Parlare = parlo, parli, parla, ...parleranno; tale, tali; uomo, uomini segmento polirematica lessia unit composta da una sequenza di unit semplici unit composta con significato non composizionale unit mista (migliore veicolo di significati) pu essere
semplice (Stato), composta (socio-economico), complessa (punto di vista)
unit semplice operativa (label di una radice lessematica) adatt> unit mista operativa (valorizza laccezione interna al corpus) ...
14
[Lucido L]
B) UNIT DI ANALISI DEL CONTESTO (per l'analisi del contenuto) testo frammento frase raccolta di frammenti qualsiasi spezzone di testo di lunghezza variabile periodo grammaticalmente compiuto
proposizione o enunciato frase elementare: soggetto + predicato + [complemento] risposta enunciato di senso compiuto
15
Forma grafica
[Lucido F]
Nella statistica testuale, le unit di analisi riconosciute automaticamente sono successioni (catene) di caratteri comprese tra due separatori dette forme grafiche (o types)
casa
case
casi
caso
non necessariamente sono delle parole riconosciute da un dizionario catra carta la sola sequenza di caratteri non sempre pienamente interpretabile, occorre estendere il contesto
fine
la il
abito
fine fine
io abito labito
Un un una un
Unaltra cosa Po po p
lettere minuscole, maiuscole, numeri, lettere accentate, @ , $, %, &, altri caratteri di testo - _ / | \ ^ apostrofo (dipende?), virgolette ecc.
Separatori: lo <spazio> < , > < . > lapostrofo < > le parentesi, altra punteggiatura, Il corpus per essere sottoposto ad analisi deve essere salvato in modo <solo testo>, ossia *.txt (non nei formati classici tipo .doc .rtf . mdb .xls ecc.)
17
Lemma
[Lucido G]
tale unit pienamente identificata se attribuita di categoria grammaticale (es.: essere_V essere_N [forma canonica+cat.gramm])
ESEMPIO DI TESTO LEMMATIZZATO
FORMA LEM M A CAT ART N V PREP N A ART N PREP A N CONG V ART N A PRO ART NP A V PREP A N PREP
il ta v o la b rilla r e di lu c e rif le s s o il v in o del g ran d e in c o n tro che essere il lu c e d o r a to che il P in o t g ri g io riv e rb e r a r e su l s tu z z ic a n te ris o tto al
sul s a p o r ito c a r p a c c io , l' e f fe tto non c a m b ia . se nei b ic c h ie r i c e' S . M a rg h e r ita , una q u a lit s p e c ia le b r illa
18
Esempi di segmenti
e poliformi
[Lucido H]
segmenti
vuoti: incompleti: pieni: e di, con il, per la, non si, tra le, da tre, ma un, non c campo del, il, quanto si, casa per buona volont, programma di governo, politica industriale (POLIFORMI)
poliformi
locuzioni grammaticali con funzioni di
- avverbi: (luogo) (tempo) (modo) - preposizioni: - aggettivi: - congiunzioni: - interiezioni: di pi, pi o meno, non solo, per esempio, di nuovo, di fatto, del resto, in realt a casa, in chiesa, al di l di sera, un anno fa, al pi presto in particolare, daccordo, in piedi fino a, da parte di, prima di, rispetto a, in modo da, per quanto riguarda in punto, di oggi, del genere, in crisi, di cotone, in fiamme, alla mano il fatto che, dal momento che, prima che, nel senso che, a patto che va bene!, grazie a Dio, mamma mia!, hai voglia!, punto e basta
POLIREMATICA
[Lucido I]
poliforme (ossia unit composta) con significato non composizionale tale cio che i significati elementari delle parole costituenti lespressione non si sommano per produrre il significato dellespressione
ovvero
le strutture pi comuni, per i gruppi Nominali, sono N Prep N, N Agg, Agg N caratteristiche: il loro riconoscimento a priori consente di eliminare molte ambiguit <capo dello stato> <dato di fatto> <punto di vista> problema: non sempre il loro significato univoco <a volte> ( a volte non torno, un soffitto a volte )
solo il contesto locale consente di togliere lambiguit
20
Segmento = ogni sequenza di Forme Grafiche di lunghezza n compresa tra due separatori forti (definenti il frammento di testo) dove 2 < n < Lmax due frammenti separatori (forti) | A B C D | E F G | Sep fg fg fg fg Sep fg fg fg Sep , . ; : ! ?
un' isola stupenda, solo che A B C D | E F A
(AB / ABC / ABCD / BC / BCD / CD | EF / EFA / FA)
[Lucido M]
IS = Indice di rilevanza del Segmento (assorbimento di forme grafiche come capacit selettiva del senso espresso dalla sequenza)
F 18 16 19 23 17 33 25 29 27 24 33 31 47
L f segm IS = P i =1 f fgi
f1 f2 f3
L IS Segmento 2 3,636 teste rasate 2 3,113 protezione civile 2 2,804 v cumpr 2 2,799 sporco negro 2 2,723 palazzo chigi 2 2,620 linea dura 3 2,491 permesso di soggiorno 3 1,235 centri di accoglienza 3 0,937 la legge martelli 3 0,714 non c 3 0,546 un gruppo di 3 0,282 contro il razzismo 3 0,124 per gli immigrati
22 18 0 17 26 0 23 33 0 27 42 0 47 17 0 53 48 0 38 4117 43 77 4117 124 2566 148 98 803 133 868 2356 63 4117 311 2738 181 1987 888 987
In pratica, per ciascuna delle L forme grafiche componenti il segmento, si considera il rapporto fsegm (occorrenze del segmento) su ffg (occorrenze della forma grafica componente), moltiplicando poi la somma di tutti questi quozienti per il numero P di parole piene presenti nel segmento.
L' indice si annulla quando il segmento composto solo da parole vuote, ed ha il suo massimo pari a L2.
Lindice consente di scartare i segmenti vuoti o irrilevanti in termini di grado dassorbimento; questi, generalmente, sono oltre l80% dellintero inventario. L'indice particolarmente utile per per selezionare alcune polirematiche di contenuto (prevalentemente gruppi nominali e verbi idiomatici).
22
A 6
A = piccola B = contadina B 7 4
Lessicalizzazione dei poliformi senza ridondanza (17 multiwords) piccola propriet contadina 7 piccola propriet 6 propriet contadina 4
23
TOT A B C TOT 122 0.0005 0.0001 0.0004 0.0004 73 0.0002 0.0002 0.0003 0.00024
0.199 0.3005
24
25
Risulta pi opportuno esprimere la legge come f r a= c che in scala logaritmica sesprime nella forma alog(r) + log(f) = c La relazione pu anche scriversi log(f) = c + alog(r) da cui si evince che a indica la pendenza di una retta su un grafico a coordinate logaritmiche, in cui lasse y descriva il logaritmo della frequenza, lasse x il logaritmo del rango e a sintenda con segno negativo. La pendenza funzione della cosiddetta ricchezza del vocabolario che a sua volta dipende dalla dimensione del testo. Il coefficiente a risulta ben approssimato dal rapporto log N / log V
26
27
28
Gamme di frequenza
3 fasce : alte, medie e basse frequenze
alte/medie medie/basse
ra n g o 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 fo rm a g ra fic a di una e un la che re g io n e is o la per non S a rd e g n a p i i con da in ma le a m o lto si l il b e lla sono e s s e re ha a n c o ra occ| 293| 217| 214| 197| 194| 184| 149| 147| 114| 113| 112| 104| 101| 89| 87| 83| 82| 78| 71| 68| 67| 61| 60| 56| 52| 50| 48| 45| 43| ra n g o fo rm a g ra fic a occ| 43| 41| 41| 41| 38| 35| 35| 33| 33| 31| 31| 30| 28| 28| 28| 27| 27| 27| 26| 26| 25| 25| 25| 23| 23| 23| 23| 23| 22| ra n g o 58 58 58 58 58 64 65 65 67 ... 74 76 79 85 92 97 100 108 124 139 156 173 199 222 266 320 425 657 fo rm a g ra fic a dei p e r p o s s ib ilit p o te n z ia lit s e m p re com e Ita lia o c c u p a z io n e bene ... p o tre b b e fa re g io v a n i p e rc h c la s s e anche a lla a b ita n ti b e lle z z e e c o n o m ic a ai a iu ti a g ric o ltu ra a b b a s ta n z a acque oggi a b b ia m o a b b a n d o n a te occ| 22| 22| 22| 22| 22| 21| 20| 20| 19| ...| 18| 17| 16| 15| 14| 13| 12| 11| 10| 9| 8| 7| 6| 5| 4| 3| 2| 1| 29 te rra 31 dal 3 1 d is o c c u p a z io n e 31 p ro b le m i 34 se 35 ci 35 d e lla 37 c 37 s v ilu p p o 39 del 39 s ta to 41 b e llis s im a 42 deve 42 is o la m e n to 42 la v o ro 45 d e ll 45 d e lle 45 is o la ta 48 g li 48 s o p ra ttu tto 50 b is o g n o 50 re s to 50 s a rd i 53 a m b ie n te 53 cui 53 dove 53 poco 53 tro p p o 58 al
29
[Lucido D1]
- Concetto e misure di ricchezza lessicale (Taltac) - Dimensioni minime del corpus e livello di soglia di frequenza
- almeno 10.000 occorrenze (meglio 20.000) - rapporto V/N < 20% - rapporto N/V frequenza media
Tab. 7.6 - Gamme di frequenza e livelli di soglia Corpus Occorr Parole Limite inferiore medie frequenze
FG N V V(s) F COP % 66,3 61,3 56,3 57,5 45,3 49,2
104 84 70 80 44 23
30
4. CRITERI DI SELEZIONE DELLE UNITA DI TESTO NEL VOCABOLARIO LESSICI di FREQUENZA come LINGUAGGI "teorici" di RIFERIMENTO
31
Linguaggio comune (dal DB "Rep90" di 10 annate di giornale "La Repubblica", raccolta di oltre 245 milioni di occorrenze - (pi esattamente 245.848.68, di cui 223.457.911 per le 291.650 parole riconosciute nei 10 anni)
60.000 forme grafiche con uso superiore a 50 4.900 lemmi di verbi da forme grafiche non ambigue
Lessico Economico Finanziario (da un campione di testi di 4 miloni di occorrenze distinti per: temi [Assicurazioni, Banche, Borsa, Commercio, Diritto finanz, Economia politica ecc. ] generi [formale, tecnico-scientifico, burocratico, standard, informale]
32
33
Calcolo degli scarti standardizzati come strumento per estrarre il linguaggio peculiare (parole sovra/sotto-utilizzate rispetto al lessico)
fi fi* zi = * fi
Per giustificare questa espressione seguiamo un ragionamento, anche se in maniera assai semplificata. Come noto, si possono indicare con e x = n pq rispettivamente la media del numero assoluto di occorrenze di una parola e il suo scarto quadratico medio, ove p (e q) la probabilit, come frequenza relativa, dell'apparire della parola (e rispettivamente del suo non apparire) in un testo, ed n il numero di "prove" che si immagina di effettuare per ottenere la parola in oggetto. Nel nostro caso n pari al numero totale di occorrenze nel sub-testo: ipotizzando ogni tranche di corpus della stessa dimensione, n costante in tutto il corpus. Questo schema teorico sottintende, nell'ipotesi di indipendenza fra eventi, che l'apparire delle occorrenze di una parola in ciascun sub-testo possa essere immaginato come un evento aleatorio, ove p appunto la probabilit di ottenere quella parola ogni n "prove". Ogni qualvolta si ottiene una proporzione di occorrenze di molto superiore (o inferiore) a questa quantit n p si pu supporre che ci non sia dovuto al caso ma piuttosto sia l'espressione di una qualche "causa" specifica. Ha senso allora voler misurare in termini di uno scarto relativo questa differenza. Tale scarto prender la forma seguente: ( x xteor ) z=
E( x ) = n p
Ora in ambito linguistico, la frequenza relativa p di una parola in un testo di fatto sempre bassissima, per cui, volendo semplificare il calcolo, possiamo esprimere x come x=n p , in quanto il prodotto di p q praticamente sempre uguale a p. ( x x teor ) z= x teor Ma il tal modo lo s.q.m. della frequenza assoluta di una parola pari alla radice quadrata della frequenza assoluta teorica, quindi
34
35
36
F 24 125 77 53
f 10 17 13 11
f 3 1 1 13
37
5. Tipi di corpus
Indagini dirette sul campo: Surveys qualitative con domande aperte (Sardegna) Interviste non direttive / interviste semi-strutturate a testimoni privilegiati focus group (Educazione alimentare) storie di vita (Cavallaro) Raccolte testi: biografie, scambi epistolari Documenti ufficiali: rapporti annuali ISTAT, CENSIS, ISCO, ONU, UE Analisi di rassegne stampa Agenzie dinformazione
38
Marketing campagne pubblicitarie: annunci o manifesti CRM fidelizzazione della clientela Analisi documentaria: Information retrieval in databases Dizionari specializzati
Discorso politico linguaggio di Berlusconi confronto fra politici dichiarazioni programmatiche di governo (TPG) programmi elettorali (destra-sinistra) messaggi via massmedia: tribune politiche, dibattiti Studio di testi corti Abstracts e progetti di ricerca, Bibliografie Manifesti Messaggi Internet (forum sulle F.O.) Traduzioni testuali di messaggi non testuali
39