Thesis

ii
Wydzia Informatyki i Zarzdzania kierunek studiw: Informatyka

specjalno: Inynieria oprogramowania
Praca dyplomowa - magisterska
Zastosowanie metod automatycznego uczenia do rozstrzygania problemu anafory

Tomasz Filak
sowa kluczowe: pierwsze drugie trzecie
krtkie streszczenie: Praca opisuje stworzony system do rozwizywania problemu anafory zaimkowej do fraz nominalnych. Zbudowany system dziaa jako modu systemu ekstrakcji informacji.
Promotor:
............................................
imi i nazwisko
......................
ocena
.......................
podpis
Wrocaw 2006
A Niniejszy dokument zosta zoony w systemie L TEX.
Spis treci
Rozdzia 1. Wprowadzenie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Rozdzia 2. Systemy ekstrakcji informacji . . . . . . . . . . . . . . . . . . . . . 2.1. 2.2. 2.3. Systemy do wyszukiwania informacji (ang. Information Retrieval) . . . . . . . Systemy do ekstrakcji informacji . . . . . . . . . . . . . . . . . . . . . . . . . . Sposoby oceniania systemw ekstrakcji informacji . . . . . . . . . . . . . . . . 1 5 5 6 10 13 13 14 14 15 15 16 16 16 16 17 17 17 19 19 20 21 21 22 25
Rozdzia 3. Anafora . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.1. Formalna denicja anafory . . . . . . . . . . . . . . . . . . . . . . . . 3.1.1. Katafora . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.2. Rodzaje anafory . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.3. Techniki anaforyzacyjne . . . . . . . . . . . . . . . . . . . . . . . . . 3.3.1. Uycie zaimka . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.3.2. Zastosowanie elipsy . . . . . . . . . . . . . . . . . . . . . . . . 3.3.3. Powtrzenie, uycie synonimu lub hiperonimu . . . . . . . . . 3.3.4. Odwoanie si do wiedzy o wiecie, lub wiedzy o akcie mowy . 3.3.5. Uycie jednego z leksemw powodujcych powstanie anafory . 3.4. Zadanie rozwizania anafory i koreferencji . . . . . . . . . . . . . . . 3.4.1. Koreferencja . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.4.2. Anafora w systemach ekstrakcji informacji . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Rozdzia 4. Metody rozwizywania koreferencji . . . . . . . . . . . . . . . . . . 4.1. 4.2. 4.3. Metody oparte na inynierii wiedzy . . . . Metody heurystyczne . . . . . . . . . . . . Metody oparte na automatycznym uczeniu 4.3.1. Metody statystyczne . . . . . . . . 4.3.2. Metody indukcyjne . . . . . . . . . . . . . si . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Rozdzia 5. Realizacja . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
5.1.
5.2. 5.3. 5.4. 5.5. 5.6.
5.7. 5.8. 5.9.
Pozyskanie danych uczcych systemu do budowy korpusu anafory 5.1.1. Architektura systemu . . . . . . . . . . . . . . . . . . . . . . . 5.1.2. Dziaanie systemu . . . . . . . . . . . . . . . . . . . . . . . . 5.1.3. Zbieranie danych . . . . . . . . . . . . . . . . . . . . . . . . . 5.1.4. Napotkane problemy . . . . . . . . . . . . . . . . . . . . . . . 5.1.5. Bdne anotacje . . . . . . . . . . . . . . . . . . . . . . . . . . Analiza morfo-syntaktyczna . . . . . . . . . . . . . . . . . . . . . . . Tworzenie bazy przypadkw uczcych . . . . . . . . . . . . . . . . . . Generowanie wektorw uczcych . . . . . . . . . . . . . . . . . . . . . Stworzenie klasykatora rozstrzygajcego anafor . . . . . . . . . . . Zbudowanie moduu rozwizujcego anafor . . . . . . . . . . . . . . 5.6.1. Ujednoznacznianie na podstawie bdu klasykatora . . . . . 5.6.2. Ujednoznacznianie na podstawie koincydencji . . . . . . . . . Architektura systemu . . . . . . . . . . . . . . . . . . . . . . . . . . . Ocena moduu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Zaimki nieanaforyczne . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . .
25 26 26 29 29 30 31 31 33 35 36 37 37 39 40 41 43 43 45 47 48 48 49 49 50 51 52 55 57 59
Rozdzia 6. Wyniki . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6.1. 6.2. 6.3. 6.4. Analiza danych z korpusu anafory . . . . . . Klasykator . . . . . . . . . . . . . . . . . . Modu rozwizywania anafory . . . . . . . . Omwienie bdw . . . . . . . . . . . . . . 6.4.1. Bdne anotacje w korpusie anafory . 6.4.2. Bdy tagera . . . . . . . . . . . . . 6.4.3. Bdy klasykacji . . . . . . . . . . . 6.4.4. Bdy ujednoznaczniania . . . . . . . 6.5. Podsumowanie . . . . . . . . . . . . . . . . . 6.5.1. Dalszy rozwj . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Spis rysunkw . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Spis tablic . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Bibliograa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
vi
Streszczenie W niniejszej pracy opisane zostay zadania i sposb dziaania systemw ekstrakcji informacji. Omwione zostay zjawiska anafory i koreferencji w ujciu lingwistyki komputerowej. Przedstawiony zosta problem rozstrzygania anafory, oraz metody rozwizywania tego problemu w systemach ekstrakcji informacji, ze szczeglnym uwzgldnieniem metod wykorzystujcych maszynowe uczenie. W ramach pracy stworzony zosta korpus anafory dla jzyka polskiego, ktry by podstaw do zbudowania systemu rozwizywania koreferencji zaimkowej, nominalnej. Zbudowany do rozwizywania problemu anafory wykorzystuje drzewo decyzyjne. Stworzony system osiga dokadno 50.5% i kompletno 53.5%. Omwione zostay czynniki majce wpyw na wyniki systemu. Wskazane zostay kierunki dalszych bada.
Abstract In this paper, summary of tasks and methods of information extraction was presented. The terms of anaphora and coreference were described. The problem of anaphora resolution and popular methods of resolving this problem in information extraction systems were presented. Special attention was put on machine learning approaches to anaphora resolution. The corpora of polish documents annotated with pronominal anaphora information was created, and was then used during development of pronominal anaphora resolution system for polish documents. Developed system uses decision tree in process of anaphora resolution. System achieves 50.5% of precision and 53.5% of recall. Factors that aect systems results were presented. Directions of future research were pointed.
vii
Rozdzia 1
Wprowadzenie
W cigu ostatnich kilkunastu lat media ze szczeglnym uwzgldnieniem Internetu stay si powszechnie dostpnym i niezwykle obtym rdem informacji. Problem dostpnoci informacji sta si duo mniej znaczcy w porwnaniu z problemem umiejtnoci wyszukania prawdziwej i wartociowej informacji. Std wynika due zainteresowanie komputerowymi systemami wspierajcymi uytkownika w wyszukiwaniu i analizie informacji. Niektre z tych systemw, jak na przykad wyszukiwarka Google, stay si podstawowymi narzdziami pracy z Internetem, na tyle popularnymi, e nie sposb sobie wyobrazi korzystania z Internetu bez nich. Najbardziej popularne systemy wspierajce wyszukiwanie informacji (jak na przykad Google) nie pozwalaj jednak na przeprowadzenie automatycznej analizy informacji znajdujcych si w wielu dokumentach. Wyszukiwarki internetowe wskazuj jedynie potencjalnie interesujce dokumenty, natomiast samo wydobycie z nich istotnej informacji jest ju zadaniem uytkownika. Co wicej, samo znalezienie dokumentw zawierajcych szukan informacj nie zawsze bywa proste, czsto wymaga od uytkownika intuicji i dowiadczenia obsudze wyszukiwarek. Od kilkudziesiciu lat podejmowane s prby tworzenia systemw, ktre przeprowadzaj gbsz analiz treci dokumentw ni popularne wyszukiwarki internetowe, dziki czemu koncentruj si na zadaniu wydobycia informacji i umoliwiaj pniejsz jej analiz przy uyciu komputera. Systemy te to tak zwane systemy ekstrakcji informacji (ang. information extraction systems). Wymagaj one stosowania skomplikowanych i zoonych obliczeniowo algorytmw. Jednak dziki stopniowemu wzrostowi mocy obliczeniowej istniejcych komputerw oraz dziki rezygnacji z w peni formalnych metod analizy tekstu na rzecz technik szybkich i prostych, nie gwarantujcych jednak stu procentowej skutecznoci, udaje si tworzy coraz lepsze systemy ekstrakcji informacji. Istniejce systemy ekstrakcji informacji to najczciej, systemy analizujce doku-
menty w jzyku angielskim. Nie jest to przypadek, jzyk angielski charakteryzuje si bardzo ubog eksj i dosy schematyczn, pozycyjn gramatyk, co sprawia, e analiza dokumentw w jzyku angielskim wydaje si prostsza od na przykad analizy dokumentw w jzyku polskim. Ze wzgldu na zoono problemu ktrym si zajmuj, systemy ekstrakcji informacji s budowane z niemal cakiem niezalenych moduw, tak e kady modu realizuje jedynie ograniczony zestaw zada, odpowiadajcych konkretnym etapom analizy tekstu. Moduy s zazwyczaj poczone w sposb kaskadowy tak, e kady modu moe korzysta z danych dostarczone przez poprzednie moduy, a ostatni modu dostarcza kompletne wyniki. Jak wida, zalenoci midzy moduami jest wsplny format wyjcia i wejcia moduw. Jednym z problemw, z ktrymi musi si zmierzy system IE jest zjawisko anafory. Zjawisko to jest na tyle istotne w aspekcie ekstrakcji informacji, e systemy IE s wyposaane w osobne moduy do rozwizywania problemu anafory. Anafora jest to zabieg stylistyczny polegajcy na tym, e pewna cz tekstu jest powizana z inn jego czci i nie jest moliwe zrozumienie tej pierwszej bez wczeniejszego ustalenia powizania. Anafora nawizuje do przedmiotw wspomnianych w tekcie wczeniej, a wic znanych czytelnikowi.[41] 1 Przykadem sw tworzcych anafor s zaimki sowa zazwyczaj nie istniejce w tekcie samodzielnie. Celem niniejszej pracy byo przeanalizowanie problemu anafory w kontekcie systemu ekstrakcji informacji analizujcego dokumenty w jzyku polskim, oraz zaproponowanie metody radzcej sobie z problemem. W ramach niniejszej pracy powsta moduu do systemu ekstrakcji informacji, opartego na architekturze GATE[1]. Modu ogranicza si do rozwizywania problemu powstajcego w sytuacji gdy zaimek zastpuje w dokumencie fraz nominaln np. rzeczownikow. Struktura niniejszej pracy jest nastpujca: rozdzia 2 opisuje szerzej ide, budow oraz sposb dziaania systemw ekstrakcji informacji, porwnuje je z popularniejszymi, ale prostszymi, systemami wyszukiwania informacji. rozdzia 3 opisuje zjawisko anafory, oraz przedstawia problemu pojawiajcy si w systemach ekstrakcji informacji, zwizany z istnieniem tego zjawiska. W tym rozdziale opisane s tak zwane techniki anaforyzacyjne, czyli rodki literackie powodujce powstawanie anafory. Szczeglny nacisk jest pooony na anafory powstajce w wyniku uycia zaimkw. W rozdziale tym deniowany jest problem rozwizania anafory.
1. Anafora w jzyku polskim ma take inne znaczenie. Jest to gura stylistyczna, polegajca rozpoczynaniu tym samym wyrazem, lub kilkoma wyrazami, kolejnych zda, wersw, zwrotek itp.[40] W niniejszej pracy anafora bdzie rozumiana jedynie jako zjawisko lingwistyczne polegajce na zalenoci wystpujcej midzy fragmentami tekstu.
Rozdzia 1. Wprowadzenie
rozdzia 4 przedstawia typowe podejcia do rozwizywania problemu anafory. W rozdziale opisane s metody oparte na wiedzy lingwistycznej, w ktrych reguy pozwalajce rozwiza ten problem s dostarczone przez twrcw systemu, metody heurystyczne oraz metody bazujce na automatycznym uczeniu si, czyli takie, w ktrych system komputerowy poprzez analiz danych uczcych prbuje zbudowa zbir regu, w oparciu o ktre moliwe jest rozwizywanie anafory. rozdzia 5 opisuje stworzony system rozwizujcy anafor. System wykorzystuje techniki automatycznego uczenia. Ze wzgldu na brak zasobw jzykowych zwizanych z anafor (materiaw, na podstawie ktrych system mgby si uczy), konieczne byo samodzielne stworzenie takich zasobw. W rozdziale 5 opisany zosta stworzony system wspierajcy pozyskiwanie danych uczcych a nastpnie omwiona zostaa budowa samego moduu do rozwizywania anafory, sposb jego dziaania oraz wykorzystane zewntrzne systemy wspomagajce. w rozdziale 6 zaprezentowano i skomentowano wyniki stworzonego systemu. Ocenione zostay bdy, oraz wskazane moliwe sposoby ich wyeliminowania. Zasugerowane zostay kierunki przyszych bada, majcych na celu usprawnienie stworzonego systemu.
Rozdzia 2
Systemy ekstrakcji informacji

W zwizku z ogromn iloci dostpnych w dzisiejszych czasach rde informacji bezcenne s systemy, pozwalajce w szybki sposb odszuka istotn informacj. Najpopularniejsze w obecnej chwili systemy, wspierajce uytkownika w przegldaniu dokumentw zawierajcych informacje, to tak zwane systemy wyszukiwania informacji (ang. information retrieval ). Przykadem takich systemw s rnego rodzaju wyszukiwarki internetowe, np. Google.
2.1. Systemy do wyszukiwania informacji (ang. Information Retrieval)

Typowa wyszukiwarka internetowa pozwala uytkownikowi kreli kryteria wyszukiwania w postaci tak zwanego zapytania (ang. query). Zapytanie, w swojej najprostszej formie, skada si ze sw, ktre musz zawiera dokumenty, ktre bd zwrcone przez wyszukiwark jako wynik zapytania. Wikszo zaawansowanych wyszukiwarek pozwala tworzy bardziej skomplikowane zapytania, w ktrych uytkownik moe okrela dodatkowe kryteria, np. sowa, ktre nie mog si znale w wyszukanych dokumentach. Wszystkie typowe przegldarki dziaaj w oparciu o tak zwany model boolowski [35], w ktrym mona jedynie okreli kryterium wystpowania, bd niewystpowania sowa w tekcie. To sprawia, e nie mona w nich okreli wagi (istotnoci) poszczeglnych sw z zapytania. Gwnymi problemami z ktrymi spotykaj si konstruktorzy wyszukiwarek s: znajdowanie dokumentw, indeksowanie i ranking. Indeksowanie pozwala zapamita informacje o tym, jakie sowa znajduj si w dokumentach, o ktrych istnieniu system wie. Informacje musz by zapamitane w taki sposb, aby zajmoway jak najmniej
miejsca w bazach danych systemu i jednoczenie pozwalay w prosty i szybki sposb odnale dokumenty, speniajce kryteria okrelone przez uytkownika w zapytaniu. Ranking natomiast pozwala wrd wyszukanych dokumentw wskaza te, ktre z najwikszym prawdopodobiestwem bd zawieray wiarygodn i przydatn informacj. Poziom analizy lingwistycznej dokumentw jest zazwyczaj bardzo niski w systemach wyszukiwania informacji. Systemy te nie analizuj treci dokumentw, zwracaj uwag jedynie na to, jakie sowa si w nich znajduj. Niekiedy wyszukiwarki s wzbogacone o proste mechanizmy lingwistyczne, takie jak np. stemming, czyli zamian wszystkich przegldanych sw na ich temat, czyli rdze sowa, bez kocwek i obocznoci. Pozwala to znajdowa dokumenty, ktre zawieraj sowo nie tylko w takiej postaci w jakiej poda je uytkownik w zapytaniu, ale rwnie w formie odmienionej. Charakterystyczn cech systemw wyszukiwania informacji jest to, e jako wynik zwracaj dokumenty zawierajce szukane sowa, bd fragmenty tych dokumentw, ale nie prbuj przedstawi informacji w sposb ustrukturalizowany. Co wicej, systemy te nie znajd szukanej informacji, jeli dokument opisuje j przy uyciu innych sw i zwrotw, ni poda uytkownik. To sprawia, e jako wynikw wyszukiwania zaley od sposobu skonstruowania pytania przez uytkownika. Czsto pytanie znajdujce moliwie duo istotnych dokumentw wymaga od uytkownika systemu wielokrotnego przegldania wynikw i poprawiania zapytania. Mimo swoich wad, systemy wyszukiwania informacji s bardzo popularne, a najwiksz zalet wynikajc z ich prostoty jest szybko dziaania.
2.2. Systemy do ekstrakcji informacji

Odmienne podejcie prezentuj duo mniej popularne systemy ekstrakcji informacji. Ich zadaniem jest analiza tekstw w poszukiwaniu danej informacji, a nastpnie zaprezentowanie znalezionej informacji w sposb ustrukturalizowany i jednolity. Systemy IE powinny wyszuka informacj niezalenie od tego, w jaki sposb i przy uyciu jakich sw czy zwrotw zostaa przedstawiona w tekcie. Systemy te stosuj duo bardziej zaawansowan analiz jzykow treci rozpatrywanych dokumentw. Systemy ekstrakcji informacji s najczciej budowane pod ktem wyszukiwania jednego typu informacji i przewiduje si w nich analiz jedynie pewnej klasy dokumentw. Przykadowo, podczas budowania systemu do analizy dokumentw medycznych, mog wystpi inne problemy ni w przypadku budowania systemu do analizy wiadomoci giedowych. Wyniki systemu ekstrakcji informacji s zazwyczaj zwracane w postaci relacyjnej1 , a wic nadajcej si do atwego zapamitywania w systemach informatycznych, a take atwej analizy w systemach komputerowych. Co wicej, format wynikw systemu ekstrakcji informacji precyzuje, jakie informacje ma wyszukiwa system.
1. dziki temu mog by zaprezentowane np. w tabeli
Rozdzia 2. Systemy ekstrakcji informacji
Sidma edycja Konferencji MUC [9] (ang. Message Understanding Conference) deniuje nastpujce zadania dla systemu ekstrakcji informacji: rozpoznanie bytw nazwanych (ang. Named Entity recognition NE ) znajdowanie bytw opisanych w tekcie. Przykadowe byty to: osoby, organizacje, miejsca, daty, rozwizywanie koreferencji (ang. Coreferencje Resolution CO) znajdowanie wyrae wskazujcych te same byty z rzeczywistoci, wykrywanie cech (atrybuty) bytw nazwanych (ang. Template Element costruction TE ), wykrywanie zalenoci midzy bytami nazwanymi (ang. Template Relation costruction TR), wykrywanie zdarze w ktrych bior udzia byty (ang. Scenario Template costruction ST ). Poniej przedstawiono fragment tekstu, ktry mgby zosta przetworzony przez system ekstrakcji informacji:2 Fletcher Maddox, former Dean of the UCSD Business School, announced the formation of La Jolla Genomatics together with his two sons. La Jolla Genomatics will release its product Geninfo in June 1999. Geninfo is a turnkey system to assist biotechnology researchers in keeping up with the voluminous literature in all aspects of their eld. Dr. Maddox will be the rms CEO. His son, Oliver, is the Chief Scientist and holds patents on many of the algorithms used in Geninfo. Olivers brother, Ambrose, follows more in his fathers footsteps and will be the CFO of L.J.G. headquartered in the Maddox familys hometown of La Jolla, CA. Niektre byty, cechy, zalenoci midzy bytami oraz zdarzenia ktre mog zosta wydobyte z powyszego tekstu, przedstawiono w tabelach 2.1, 2.2, 2.3, 2.4: Osoby Fletcher Maddox Dr. Maddox Oliver Oliver Ambrose Maddox Organizaje UCSD Business School La Jolla Genomatics La Jolla Genomatics L.J.G. Miejsca La Jolla CA Artefakty Geninfo Geninfo Daty June 1999
Tabela 2.1. Byty zidentykowane w przykadowym tekcie
2. Ze strony: http://www-nlpir.nist.gov/related projects/muc/index.html
Nazwa bytu Fletcher Maddox
Oliver La Jolla Ambrose
Cechy former Dean of the UCSD Business School his father the rms CEO His son Chief Scientist the Maddox familys hometown Olivers brother the CFO of L.J.G.
Tabela 2.2. Cechy wydobyte z przykadowego tekstu Nazwa bytu Fletcher Maddox Fletcher Maddox Oliver Ambrose Geninfo La Jolla CA Nazwa relacji Employee of Employee of Employee of Employee of Product of Location of Location of Nazwa bytu UCSD Business School La Jolla Genomatics La Jolla Genomatics La Jolla Genomatics La Jolla Genomatics La Jolla Genomatics La Jolla Genomatics
Tabela 2.3. Relacje midzy bytami wydobyte z przykadowego tekstu
Jak wspomniano, systemy ekstrakcji informacji w celu znalezienia poprawnych wynikw musz uy mechanizmw analizy lingwistycznej dokumentw. Przewanie systemy te analizuj tekst pod wieloma aspektami, i wyrnia si wsplne dla wszystkich systemw ekstrakcji informacji, nastpujce etapy analizy: Segmentacja tekstu. Jej zadaniem jest podzia tekstu na akapity, zdania i jednostki podstawowe, tj. tokeny. Tokeny (lub segmenty) s najczciej sowami (np. dla jzyka angielskiego), ale mog by te innymi, mniejszymi czstkami tak jak w przypadku podziau zaproponowanego w [33] dla jzyka polskiego. Analiza morfo-leksykalna. Jej zadaniem jest ustalenie klas gramatycznych (zwanych te klasami leksykalnymi) tokenw. Klas gramatyczn mona porwna do czci mowy, cho pojcie klasy moe by zdeniowane bardziej szczegowo, jak np. w [33]. W przypadku jzykw eksyjnych (np. jzyk polski) na tym poziomie analizy tokenom przyporzdkowywane s rwnie atrybuty wynikajce z tego, w jakiej odmianie znajduj si tokeny (nazywane w [33] kategoriami gramatycznymi). Analiza skadniowa (syntaktyczna). Jej zadaniem jest zbudowanie drzewa rozbioru gramatycznego zdania. W systemach ekstrakcji informacji wystarcza zazwyczaj tzw. pytki rozbir, ograniczajcy si do odnalezienia najistotniejszych czci zda-
Rodzaj zdarzenia Utworzenie przedsibiorstwa
Data
Wydanie produktu
June 1999
Opis zdarzenia Kierownicy: Fletcher Maddox Oliver Ambrose Produkt: Geninfo Koszt:
Tabela 2.4. Zdarzenia opisane w przykadowym tekcie
Rys. 2.1. Diagram etapw przetwarzania tekstu
nia, takich jak podmiot i orzeczenie, a take zidentykowanie fraz rzeczownikowych i czasownikowych. Analiza znaczeniowa (semantyczna). Jej zadaniem jest dokonanie waciwej ekstrakcji informacji w oparciu o dane zgromadzone w poprzednich etapach analizy. Na tym etapie w teksie identykuje si tak zwane byty nazwane (ang. named entities), ktre reprezentuj interesujce byty z rzeczywistoci (np. osoby, organizacje, miejsca). Po zidentykowaniu bytw nazwanych dokonuje si opcjonalnie rozstrzygnicia koreferencji (opisane szerzej w rozdziaach 3 i 4), a nastpnie ekstrahuje informacj w oparciu o tak zwane wzorce ekstrakcji informacji. W zalenoci od techniki ekstrakcji, konieczne moe by ostateczne poczenie faktw wydobytych przy uyciu wzorcw. Na rysunku 2.1 zilustrowano przepyw danych generowanych na poszczeglnych etapach analizy dokumentw w typowym systemie ekstrakcji informacji. Systemy ekstrakcji s najczciej zbudowane z kaskady oddzielnych moduw
10
kady modu dostarcza danych zwizanych jedynie z czci ktrego z etapw analizy. Kady modu ma dostp do treci analizowanego tekstu oraz informacji dostarczonych przez wszystkie poprzednie moduy. Istniej architektury wspierajce budow modularnych systemw ekstrakcji informacji. Przykadem takiej architektury jest GATE [1]. GATE dostarcza zbir interfejsw mwicych w jaki sposb moduy mog dodawa informacje (tzw. anotacje)do analizowanego tekstu, oraz pozwala czy moduy w kaskady i uruchamia analiz tekstw. GATE oprcz architektury dostarcza interfejs graczny pozwalajcy uruchamia system oraz analizowa jego wyniki, a take zestaw gotowych komponentw lingwistycznych, pozwalajcych przeprowadza prost analiz dokumentw i ekstrakcj informacji dla tekstw w jzyku angielskim. Jednym z bardziej znanych systemw ekstrakcji informacji jest system TIPSTER, stworzony w Departamencie Obrony (ang. Department of Defense) przy wsppracy Centralnego Biura ledczego (CIA), Narodowego Instytutu Standardw i Technologii (ang. National Institute of Standards and Technology), oraz Centrum Systemw Obrony Naziemnej i Powietrznej (ang. Space and Naval Warfare Systems Center ) Stanw Zjednoczonych. Gwnymi zadaniami TIPSTER-a byo: lokalizowanie dokumentw zawierajcych dan informacj, ekstrakcja informacji, podsumowywanie dokumentw zmniejszanie rozmiaru dokumentu przy jednoczesnym zachowaniu kluczowej informacji. Mona ten proces nazwa generowaniem streszcze (ang. summarizing task ).
2.3. Sposoby oceniania systemw ekstrakcji informacji

Ocena systemu ekstrakcji informacji wymaga przetestowania systemu na danych oznaczonych przez uytkownika. Jednak, jak wynika z bada [44], czowiek przecitnie nie osiga stuprocentowej skutecznoci przy rozwizywaniu zadania ekstrakcji informacji.3 Typowe dokumenty, ktre s przetwarzane przez systemy, nie s wolne od niejednoznacznoci i bdw jzykowych, ktre nawet czowiekowi przysparzaj kopotw w interpretowaniu tekstu. Najpowszechniejsze miary oceny systemw ekstrakcji informacji, zdobyte poprzez porwnanie wynikw ekstrakcji dokonanych przez czowieka i przez system, to dokadno (ang. precision) i kompletno (ang. recall ) [MUC 27]. S one zdeniowane w sposb nastpujcy: precision = Lzp , Lz (2.1)
3. Badania opisane w [44] wykazuj 82% dokadnoci i 79% kompletnoci uzyskiwanej przecitnie przez czowieka przy rozwizywaniu zadania ekstakcji informacji. Pojcia dokadnoci i kompletnoci s wytumaczone w niniejszym rozdziale.
11
gdzie: Lz liczba informacji (faktw) znalezionych przez system, Lzp liczba prawdziwych informacji znalezionych przez system. recall = Lzp , L (2.2)
gdzie: Lzp liczba prawdziwych informacji znalezionych przez system, L liczba wszystkich faktw w dokumencie (liczba faktw znalezionych przez czowieka). Jak wida, dokadno mwi o tym, jak bardzo prawdziwe s informacje uzyskane z systemu. Kompletno okrela jak duo faktw system znajduje, w stosunku do tego ile informacji znajduje si w dokumencie. Celem wszystkich projektantw systemw ekstrakcji informacji jest uzyskanie jak najwyszych wartoci wspczynnikw dokadnoci i kompletnoci tworzonych systemw. Nie jest to jednak moliwe bez ustalenia kompromisu pomidzy istotnoci obu parametrw, poniewa dziaania majce na celu podnie precyzj najczciej wpywaj negatywnie na kompletno i na odwrt. Oprcz powyszych miar stosuje si rwnie ich redni harmoniczn, zwan miar F (ang. F-measure): F miara = P R , B P + (1 B) R (2.3)
gdzie: P dokadno, R kompletno, B waga wzgldnej waonej precyzji i skutecznoci. Czsto jako warto wspczynnika B przyjmuje si 0,5 i miara F przybiera form: F miara = gdzie: P dokadno, R kompletno. Oprcz oceniania caych systemw ekstrakcji informacji, powysze miary s uywane do oceniania poszczeglnych komponentw lingwistycznych moduw systemw. 2P R , P +R (2.4)
Rozdzia 3
Anafora
Anafora jest jednym z zabiegw stylistycznych majcych na celu urozmaicenie tekstu. Wystpuje ona w niemal wszystkich tekstach zarwno pisanych jak i mwionych. Zjawisko to polega na tym, e pewne wyraenie w tekcie (sowo, fraza lub zdanie) odwouje si do innej czci tekstu, przewanie wystpujcej w tekcie wczeniej. Wprowadza to pewien rodzaj zalenoci pomidzy wyraeniami. Oto przykad tekstu, zawierajcego anafor: Wczoraj Tomek by kinie. (ja) Widziaem, jak (on) do niego wchodzi. Zaimek niego nie istnieje samodzielnie w powyszym zdaniu i nie posiadaby interpretacji bez sowa kinie. Mwimy zatem, e obydwa wyraenia s zwizane zalenoci anafory bez ustalenia tej zalenoci czytajcy nie byby w stanie zinterpretowa drugiego zdania. Zjawisko anafory moe mie wiele form. Anafora powstaje zazwyczaj w wyniku uycia zaimka, frazy nominalnej, nazwy wasnej czy elipsy (opuszczenia). Rne rodzaje anafory podlegaj rnym prawom lingwistycznym i wymagaj odrbnego traktowania. Problem rozwizywania anafory opisany dokadniej w dalszej czci niniejszego rozdziau, polega na odnajdywaniu zalenoci anaforycznych midzy wyraeniami z tekstu.
3.1. Formalna denicja anafory

Istnieje wiele denicji anafory. Rni si one ze wzgldu na perspektyw, z ktrej analizowane jest to zjawisko. Pierwsza grupa deniuje anafor jako relacj pomidzy bytami ze wiata rzeczywistego, ktre s opisane w tekcie i bazuje na matematycznym pojciu relacji. Denicja
14
ukazujca anafor z tego punktu widzenia przedstawiona jest w sowniku lingwistyki komputerowej na stronie SIL International [2]. Wedug niej, anafora to koreferencja jednego wyraenia lingwistycznego z jego poprzednikiem (ang. antecedent), gdzie poprzednik dostarcza informacji niezbdnej do interpretacji wyraenia 1 . Podobne zjawisko anafory deniowane jest w [36, 21]. Koreferencja to relacja dwch wyrae, gdzie jedno wyraenie wskazuje na ten sam byt z rzeczywistoci, co drugie wyraenie. Moemy powiedzie, e interpretacj obydwu wyrae w tekcie jest ten sam byt, stan lub zdarzenie w rzeczywistoci opisywanej przez tekst. Drug grup denicji anafory s denicje typowo lingwistyczne. Przykadem takiej denicji jest przedstawiona przez Hallidaya i Hassana (za [26]): anafora wskazuje wstecz na pewien wczeniej uyty element. Denicje lingwistyczne obejmuj wicej zjawisk ni denicje oparte na matematycznym pojciu relacji. 3.1.1. Katafora Zjawiskiem bardzo podobnym do anafory jest katafora (ang. cataphora). Wystpuje ona wwczas, gdy wyraenie jzykowe nie posiadajce samodzielnej intepretacji wystpuje przed wyraeniem, dostarczajcym t intperpetacj. Katafora jest zjawiskiem rzadkim, ale poprawnym jzykowo i wystpujcym w tekstach. Katafora bywa czsto traktowana jako typ anafory. Ze wzgldu na bardzo rzadkie wystpowanie katafory w tekstach, w rozwaaniach niniejszej pracy nie bdzie ona brana pod uwag.
3.2. Rodzaje anafory

Istniej rne podziay anafory. Jeden z nich, zaproponowany w [25, 13] rozrnia anafory na podstawie gramatycznej funkcji poprzednika i przedstawia nastpujce typy anafory: nominalne (ang. nominal anaphora), ktrych poprzednikami s frazy nominalne. Frazy nominalne to wyraenia, ktre peni w zdaniu funkcj podmiotu lub dopenienia jest to najczciej rzeczownik, grupa rzeczownikw poczona spjnikami i wraz z odnoszcymi si do nich przymiotnikami. Fraz rzeczownikow moe by te zaimek, jeeli odnosi si do innej frazy rzeczownikowej. Szczeglnym przypadkiem fraz nominalnych s nazwy wasne. Przykad anafory nominalnej prezentuje ponisze zdanie (anafora wystpuje midzy zamkiem ja a fraz psa): Gdybym mia psa, wychodzibym z nim na spacer.
1. Tumaczenie wasne
Rozdzia 3. Anafora
15
czasownikowe (ang. verb anaphora), gdy poprzednikiem jest czasownik lub zdanie. Przykad anafory nominalnej prezentuje ponisze zdanie (anafora wystpuje midzy zamkiem to a fraz wspina): Andrzej si czsto wspina i idzie mu tocoraz lepiej. przymiotnikowa (ang. adjective anaphora) gdy zastpowane wyraenie to przymiotnik. Przykadem anafory przymiotnikowej jest wystpujca midzy zaimkiem taki a przymiotnikiem szybki w poniszym fragmencie tekstu: Ale szybki. Chciabym mie taki samochd. zerowa/eliptyczna (ang. zero anaphora), gdy anafora odnosi si do pominitego elementu, np. podmiotu domylnego. Przykad takiej anafory prezentuje ponisze zdanie: (ona) Wysza, a ja za ni. porzdkowa (ang. ordinal anaphora), gdy zastpowane wyraenie jest liczebnikiem (np. zaimek tyle). Oto przykad: Dziesi tysicy tyle kilometrw przejechaem na swoim rowerze w zeszym roku.
3.3. Techniki anaforyzacyjne

Oprcz przedstawionego powyej kryterium, anafory mona podzieli ze wzgldu na to, jakiego typu wyraenie powoduje powstanie anafory (techniki anaforyzacyjne). Poniej opisane zostay najbardziej typowe techniki anaforyzacyjne istniejce w jzyku polskim[15]. 3.3.1. Uycie zaimka Anafory zaimkowe s najprostsze do zidentykowania w tekcie, poniewa prawie zawsze uycie zaimka powoduje powstanie anafory. Niekiedy wyraz nie peni w tekcie funkcji zaimka ale np. czasownika, tak jak w poniszym tekcie (z korpusu IPI-PAN [4])2 : Taki transport to ok. 1000 euro. Zdanie to jest rwnowane zdaniu
2. W korpusie IPI-PAN przyjto dodatkowo, e zaimkami mog by tylko te wyrazy, ktre odmieniaj si przez liczb i przypadek, a wic sowo to nie jest tam traktowane jako zaimek. Jak wida, klasy gramatyczne w korpusie IPI-PAN zostay okrelone na podstawie cech gramatycznych sw i nie zawsze zgadzaj si z tradycyjn nomenklatur, wedug ktrej np. sowo to jest zaimkiem, poniewa moe peni funkcj anaforyczn.
16
Taki transport wynosi ok. 1000 euro. 3.3.2. Zastosowanie elipsy Elipsa (inaczej opuszczenie) jest to rodek stylistyczny, polegajcy na opuszczeniu sowa lub wyraenia, jeeli czytelnik moe si domyli z kontekstu, o jakie wyraenie lub sowo chodzi. Oto przykad tekstu zawierajcego tak anafor (z [15]): Jan powiedzia Piotrowi, e (on) jest zakochany. Drugie zdanie skadowe zawiera podmiot domylny (on), ktry jest anafor do pierwszego sowa z caego zdania. Traktowanie elipsy jako rodka stylistycznego tworzcego anafor jest kwesti konwencji, np. Encyklopedia jzykoznawstwa oglnego ([31]), Encyklopedia Wiedzy o Jzyku Polskim ([42]) oddzielaj elips od anafory, podczas gdy [15] opisuje elips jako rodek stylistyczny tworzcy anafor. 3.3.3. Powtrzenie, uycie synonimu lub hiperonimu Anafora moe powsta w wyniku uycia synonimu lub hiperonimu3 . Hiperonim, ktry peni rol wyraenia anaforycznego, wystpuje bardzo czsto wraz z zaimkiem okrelonym (wskazujcym), jak np. w poniszym tekcie (z [15]): Jan wpad samochodem na drzewo. Wypadek ten zdarzy si niedaleko Warszawy. Cech charakterystyczn tego typu anafory jest to, e do zinterpretowania wyraenia anaforycznego bardzo czsto nie jest konieczne ustalenie wyraenia anaforyzowanego. Ustalenie takie jest jednak konieczne do wydobycia penej informacji z tekstu. 3.3.4. Odwoanie si do wiedzy o wiecie, lub wiedzy o akcie mowy Oto przykad tekstu, w ktrym wystpuje powizanie anaforyczne wynikajce z kontekstu wypowiedzi (z z [15]): Przysza Basia. Moja siostra odwiedza mnie co jaki czas. 3.3.5. Uycie jednego z leksemw powodujcych powstanie anafory Zbir takich leksemw powodujcych powstanie anafory jest bardzo duy i nie do koca sprecyzowany. Nale do niego midzy innymi liczebniki (np. oba, obaj ), przymiotniki (np. podobny, taki sam), przymiotniki dzierawcze (np. wasny).
3. Sowo jest hiperonimem w stosunku do innego sowa, jeeli jest oglniejsze, obejmuje wicej znacze
Rozdzia 3. Anafora
17
3.4. Zadanie rozwizania anafory i koreferencji

3.4.1. Koreferencja Jak zauwaono w pracy [21], mona zdeniowa relacj antecedents(X,Y), ktra czy anafor X z wyraeniem anaforyzowanym Y. Relacja ta ma nastpujce cechy: Jest przechodnia. Jeeli wyraenie X jest anaforyzowane przez wyraenie Y, a wyraenie Y jest anaforyzowane prze Z, to Z jest rwnie anafor w stosunku do X. Jest zwrotna. Kade wyraenie wskazuje na ten sam byt, co ono samo. Nie jest symetryczna. Na podstawie relacji antecedents(X,Y) moemy zdeniowa relacj coref(X,Y) w sposb nastpujcy: Kada para wyrae X, Y jest w relacji coref(X,Y), jeeli speniony jest jeden z warunkw: antecedents(X,Y) antecedents(Y,X) antecedents(Z,X) i coref(Z,Y) antecedents(Z,Y) i coref(Z,X)
Relacja coref jest ju przechodnia, symetryczna i zwrotna, jest wic relacj rwnowanoci. Relacja coref pozwala okreli dla kadego wyraenia jego klas rwnowanoci w sposb nastpujcy: equiv(X) = {Y |coref (X, Y )} (3.1)
Koreferencja jest relacj gramatyczn midzy dwoma wyraeniami z tekstu, ktrych interpretacj jest ten sam byt.4 Innymi sowy, koreferencja jest pewnym uoglnieniem anafory. Na podstawie rwnania 3.1 mona okreli w tekcie tak zwane acuchy koreferencji (ang. coreference chains), czyli zbiory wyrae znaczcych to samo. 3.4.2. Anafora w systemach ekstrakcji informacji Zjawisko anafory stwarza osobny problem dla komputerowych systemw analizujcych tre dokumentw, a w szczeglnoci dla systemw ekstrakcji informacji. Gwne zadanie literackie anafory, a wic urozmaicenie tekstu, wprowadza jednoczenie nieregularno, utrudniajc automatyczn analiz. W systemach ekstrakcji informacji utrudnienie to moe si ujawni w dwch aspektach [1].
4. Wg. Sownika WordNet R , wersja 2.0 dostpna na stronie Uniwersytetu Princeton, http://wordnet.princeton.edu/. Tumaczenie wasne.
18
Pierwszym z nich jest pogorszenie kompletnoci wynikw systemu (por. rwnanie 2), poniewa reguy ekstrakcji wymagaj najczciej istnienia w zdaniu bytw nazwanych a w zdaniu z anafor, rol bytu nazwanego moe peni na przykad zaimek. Drugim wanym problemem jest fakt, e informacja dotyczca jednego bytu nazwanego moe by rozmieszczona w kilku odlegych od siebie zdaniach, jeli w tekcie istniej anafory. System ekstrakcji informacji powinien jednak zebra ca informacj dotyczc kadego z bytw nazwanych, a wic poczy informacje znajdujce si w rnych zdaniach. Z powodu istnienia tych problemw w systemach ekstrakcji informacji tworzy si osobne moduy, zajmujce si odnajdowaniem par wyrae poczonych relacj anafory. Pozwala to wzorcom ekstrakcji traktowa anafor jako wyraenie anaforyzowane, czyli na przykad byt nazwany. czenie anafor z ich poprzednikami nazywane jest zadaniem rozwizywania anafory. Z drugiej strony, ustalenie istnienia koreferencji midzy bytami nazwanymi zidentykowanymi w rnych zdaniach ma kluczowe znaczenie przy czeniu informacji na temat jednego bytu. Znajdowanie zbioru sw, ktre s powizane koreferencj (a wic znacz to samo) nazywane jest rozwizywaniem koreferencji. Precyzyjn denicj zadania rozwizywania koreferencji przedstawia MUC6 [23]. Do oceny moduw sucych do rozwizywania problemu anafory stosuje si miary dokadnoci i kompletnoci. Niekiedy, stosuje si jedynie miar kompletnoci, nazywan czasem wspczynnikiem sukcesu (ang. success rate SR).
Rozdzia 4
Metody rozwizywania koreferencji

Metody rozwizywania koreferencji najbardziej oglnie mona podzieli na metody oparte o wiedz lingwistyczn, metody heurystyczne oraz metody oparte na maszynowym uczeniu si. Kada z tych trzech metod wymaga innego nakadu pracy oraz dostpu do innych zasobw.
4.1. Metody oparte na inynierii wiedzy

Metody oparte na inynierii wiedzy s chyba najbardziej kosztowne, bo wymagaj od konstruktorw systemu dostpu do specjalistycznej wiedzy lingwistycznej oraz czasochonnego wprowadzania tej wiedzy do systemu komputerowego. Wiedza lingwistyczna operuje na abstrakcjach niedostpnych zazwyczaj w systemach ekstrakcji informacji, bo wymagajcych penej i dokadnej analizy tekstu, a nie, jak to ma miejsce w systemach ekstrakcji informacji, analizy pytkiej i uproszczonej. Problem, z ktrym musi si zmierzy konstruktor moduu rozwizywania koreferencji, to problem przeniesienia wiedzy lingwistycznej do realiw systemu ekstrakcji informacji. Pierwsze prby komputerowego rozwizywania koreferencji byy podejmowane w latach siedemdziesitych [16, 36]. S to metody reguowe, bazujce przede wszystkim na rozbiorze gramatycznym zda, oraz elementach zaczerpnitych z teorii wizania (ang. binding theory)[11]. Efekty tego podejcia prezentuje czsto wykorzystywany algorytm, opisany w [21, 22] przez Shalom Lappina. Algorytm ten osiga dokadno wynoszc 85-87%, a kompletno rzdu 85%. Modykacja algorytmu Lappina, ktra nie wymaga penego parsingu, zostaa zaproponowana w [18]. Autorzy przedstawiaj wyniki algorytmu jako 75.5% poprawnie rozpoznanych anafor (wspczynnik SR) w korpusie zawierajcym teksty z rnych
20
dziedzin. Jednak dokadna analiza przeprowadzona przez Ruslana Mitkova w [27] wykazuje duo niszy, bo wynoszcy jedynie 61.6% odsetek poprawnie rozpoznanych anafor. W pniejszych czasach powstay metody rozwizywania problemu koreferencji o rne formalizmy, midzy innymi teori wizania, teori centeringu (ang. centering theory) [19, 43], gramatyki HPSG (ang. Head-Driven Phrase Structure Grammar )[11], teori DRT (ang. Discourse Representation Theory) [17].
4.2. Metody heurystyczne

Obecnie badania kieruj si ku lejszym technikom, a mianowicie reguom heurystycznym i algorytmom maszynowego uczenia si. Metody te dziaaj w oparciu o dane dostarczone przez system ekstrakcji informacji, a wic dane czciowe i niepewne. Prostota tych technik (w porwnaniu do technik opartych na wiedzy) moe by w realiach systemu ekstrakcji zalet, poniewa wie si z krtszym czasem przetwarzania tekstu. Jeden z prostszych algorytmw heurystycznych, inspirowany badaniami dystrybucji odlegoci midzy anafor a wyraeniem anaforyzowanym w tekstach, w jzyku angielskim, prezentuje [10]: 1. Po natraeniu na wyraenie, ktre moe by anafor (np. zaimek), naley przejrze wszystkie wyraenia znajdujce si w tekcie, przed analizowanym wyraeniem, i odrzuci te, ktre s niezgodne pod wzgldem liczby i rodzaju z anafor, lub nie s zgodne w sensie semantycznym (np. zaimek on odnosi si na pewno do frazy rzeczownikowej). 2. Nastpnie naley szuka wyraenia, ktre znajduje si w tym samym zdaniu, co anafora, w kolejnoci od lewej do prawej (od pocztku do koca zdania) i nie zostao odrzucone w poprzednim kroku. 3. Jeeli w tym zdaniu nie zostaa znalezione adne wyraenie, zgodne z anafor pod wzgldem liczby i rodzaju i sensie semantycznym, naley przeszuka poprzednie zdanie, w takim samym kierunku (od lewej do prawej). 4. Jeeli i w tym zdaniu nie znajduje si adne wyraenie kandydujce do bycia wyraeniem anaforyzowanym, naley przeszuka poprzednie zdania, jednake tym razem w kolejnoci od prawej do lewej. 5. Pierwsze znalezione wyraenie, ktre spenia kryteria gramatyczne i semantyczne naley przyj jako wyraenie anaforyzowane.
Rozdzia 4. Metody rozwizywania koreferencji
21
Dua cz metod heurystycznych dziaa wedug nastpujcego schematu: Po natraeniu na wyraenie, ktre moe by anafor, wybierane s wg. rnych kryteriw wyraenia, ktre mog by prze ni anaforyzowane. Nastpnie, dla kadego z wyrae kandydujcych, okrelany jest wspczynnik salience (wypuko). Ostatecznie wybierane jest to wyraenie, ktrego wspczynnik salience ma najwiksz warto i przekracza pewn warto progow. W oparciu o ten schemat dziaaj midzy innymi algorytmy przedstawione w [18, 24, 27]. W [27] przedstawione zostao porwnanie algorytmw heurystycznych rozwizujcych koreferencj. Wyniki osigane przez algorytmy heurystyczne, to dokadno w granicach 43-61% i kompletno rzdu 50-57%.
4.3. Metody oparte na automatycznym uczeniu si

Metody oparte na automatycznym uczeniu si wymagaj istnienia korpusu (zbioru) dokumentw, do ktrych doczona jest informacja o wystpujcych w tekcie anaforach i wyraeniach anaforyzowanych. Korpusy koreferencji s najczciej oznaczone rcznie, przez czowieka, rzadziej przez systemy rozwizujce anafor. Na podstawie korpusu budowane s pary wyrae zwizanych anafor (przypadki uczce pozytywne) oraz pary wyrae niezwizanych anafor (przypadki uczce negatywne). Dla kadej pary s nastpnie ustalane cechy gramatyczne i semantyczne par wyrae, a take cechy oparte na odlegoci pomidzy wyraeniami. Na podstawie cech par budowany jest klasykator, ktry suy do ustalania, czy dana para wyrae jest poczona relacj anafory, czy nie. Do budowy klasykatora uywane s najczciej drzewa decyzyjne [39, 12, 28, 29], uczenie MBL (ang. Memory Based Learning)[32], metody statystyczne[14]. Metody korpusowe maj t zalet nad innymi metodami, e dysponujc gotowym systemem, atwo jest dostosowa go do tekstw z nowej dziedziny, charakteryzujcych si inn specyk uytych wyrae i inn skadni. 4.3.1. Metody statystyczne Jedn z grup metod rozwizywania anafory jest grupa wykorzystujca podejcie oparte na metodach statystycznych. Przykady realizacji takich systemw mona znale w [14]. Autorzy podkrelaj midzy innymi brak koniecznoci rcznego implementowania jakichkolwiek heurystyk, przy zastosowaniu tych metod, oraz niewielkiego zbioru danych trenujcych (korpusu). Powizanie zaimka z poprzednikiem nastpuje w wyniku okrelenia prawdopodobiestwa z jakim to powizanie jest poprawne. Spord wszystkich kandydatw na
22
poprzednika danego zaimka wybierany jest ten, dla ktrego prawdopodobiestwo jest najwiksze. Przedstawiony w [14] model propabilistyczny (ang. probabilistic model ), pozwalajcy okreli prawdopodobiestwo, e powizanie zaimka z poprzednikiem jest poprawne wykorzystuje nastpujce informacje: odlego midzy zaimkiem a rozpatrywanym poprzednikiem, informacje syntaktyczne, midzy innymi: rodzaj, liczba, zaimka i poprzednika, ich rola w zdaniu, czsto wystpowania poprzednika w tekcie (ang. mention count). Dysponujc powyszymi informacjami ustalone zostao odwzorowanie F(p) wskazujce wyraenie anaforyzowane przez zaimek: F (p) = arg max P (Ap = a|p, h, W , t, l, sp , d, M ) a (4.1)
gdzie p zmienna symbolizujca zaimek, a rozpatrywany kandydat, A(p) zmienna losowa zwizana z tym, e a jest wyraeniem anaforyzowanym przez p, a skadnik gwny zawierajcy zaimek (ang. head constituent, W lista wszystkich rozpatrywanych kandydatw, t typ frazy rozpatrywanego kandydata, sp rola zaimka w zdaniu, d odlego midzy kadym z rozpatrywanych kandydatw a zaimkiem, M liczba wystpie kadego z kandydatw w tekcie. Prawdopodobiestwo okrelone w rwnaniu 4.1 nie jest atwo obliczalne na podstawie analizy sownikowej, dlatego autorzy stosuj szereg przeksztace tego rwnania (midzy innymi poprzez zastosowanie zasady Bayesa) i sprowadzaj prawdopodobiestwo P do szeregu atwiejszych do obliczenia prawdopodobiestw warunkowych. Autorzy przedstawiaj wyniki systemu w postaci wspczynnika SR, ktrego wartoc szacuj na 82.9%. 4.3.2. Metody indukcyjne Drug grup metod wykorzystujcych maszynowe uczenie si s metody oparte na indukcji regu. Wrd nich przewaaj metody oparte na indukcji regu decyzyjnych, poniewa drzewa decyzyjne s dosy czytelne i mog by atwo analizowane i walidowane przez czowieka, co moe mie due znaczenie w przypadku maej liczby przypadkw uczcych i walidujcych. Do indukcji drzew decyzyjnych stosuje si najczciej algorytm C4.5[34], lub jego modykacje (np. C5, czy J48[7]), gdy potra operowa
Rozdzia 4. Metody rozwizywania koreferencji
23
na atrybutach o wartociach nominalnych i liczbowych, oraz stosuj przycinanie (ang. pruning), ktre znaczco wpywa na zdolno generalizacji klasykatora.1 Metody wykorzystujce indukcj drzew decyzyjnych (np. [29]) do rozwizywania anafory dziaaj w oparciu o schemat podobny do tego, wedug ktrego dziaaj metody heurystyczne, tj. znajdowanie potencjalnych anafor, wyznaczanie potencjalnych poprzednikw anafory, ocenianie kandydatw, wybr poprzednika, jednak zamiast stosowania funkcji heurystycznej do oceny kandydatw, stosowany jest klasykator. Klasykator moe dokonywa decyzji w oparciu o rne cechy anafory i kandydata na poprzednika anafory. Cechy mona podzieli na cechy rozpatrujce nastpujce aspekty kandydata i anafory [29, 37]: aspekt leksykalny, tj. wynikajcy z zapisu kandydata i anafory. Przykadem moe by cecha okrelajca, czy anafora i potencjalny poprzednik s identycznymi acuchami znakw. aspekt pozycyjny, tj. wynikajcy z umiejscowienia kandydata i anafory. Przykadem moe by cecha okrelajca, czy anafora i poprzednik znajduj si w tym samym zdaniu. aspekt gramatyczny, tj. wynikajcy z cech gramatycznych rozpatrywanych fraz np. zgodno liczby. aspekt semantyczny, tj. wynikajcy ze znaczenia rozpatrywanych fraz np. okrelenie, czy anafora jest synonimem rozpatrywanego kandydata. Okrelenie cech wynikajcych z aspektu leksykalnego i pozycyjnego nie stanowi problemu dla systemw komputerowych. Cechy wynikajce z aspektu gramatycznego s okrelane na podstawie informacji pochodzcych z tagera i parsera. Ustalenie cech wynikajcych z aspektu semantycznego bywa zwykle dosy kopotliwe, cho w przypadku wielu jzykw (np. dla jzyka angielskiego) istniej komponenty jzykowe uatwiajce okrelenie tych cech. Przykadem takiego komponentu jest powszechnie dostpny, rozbudowany tezaurus WordNet[8], ktry dostarcza informacji o synonimi, hiperonimii i hiponimii2 . Algorytmy wykorzystujce indukcj drzew decyzyjnych rni si przewanie zbiorem cech uywanych do klasykowania potencjalnych kandydatw anafory, oraz doborem przypadkw negatywnych dla algorytmu indukcji. W zalenoci od zastosowanych mechanizmw, autorzy publikuj wyniki rzdu ok. 67% dokadnoci i 57% kompletnoci [21, 37] dla problemu rozwizywania koreferencji. Dla problemu rozwizywania anafory zaimkowej wyniki s nieco nisze, tj. dokadno 56% i kompletno 47% w [38].
1. Zdolno generalizacji klasykatora to umiejtno poprawnego klasykowania nowych przypadkw, ktre nie uczestniczyy w budowie klasykatora. 2. Sowo jest hiponimem w stosunku do innego sowa, jeeli jest bardziej szczegowe, obejmuje mniej znacze.
Rozdzia 5
Realizacja
W ramach niniejszej pracy wykonano system ktrego celem byo rozwizywanie problemu anafory dla tekstw napisanych w jzyku polskim. Wykonany system moe dziaa jako modu systemu ekstrakcji informacji. Modu rozpatruje anafory wynikajce z zastpowania wyrae nominalnych zaimkami osobowymi, dzierawczymi oraz miejscowymi. Modu jest wykonany w architekturze GATE. Przy budowie moduu wykorzystano algorytm budowania drzew decyzyjnych J48 [7], ktry jest modykacj algorytmu C4.5 [34]. W celu stworzenia moduu konieczne byo midzy innymi: pozyskanie danych uczcych, tj. budowa korpusu anafory w tym celu stworzono rozproszony system do rcznego oznaczania tekstw, dokonanie analizy morfo-syntaktycznej tekstw w tym celu uyto gotowych komponentw stworzonych specjalnie pod kontem przetwarzania dokumentw w jzyku polskim, zbudowanie bazy przypadkw uczcych, wygenerowanie wektorw uczcych na podstawie przypadkw uczcych, stworzenie klasykatora rozstrzygajcego anafor, zbudowanie moduu GATE, rozstrzygajcego anafor.
5.1. Pozyskanie danych uczcych systemu do budowy korpusu anafory

Ze wzgldu na brak korpusu anafory dla jzyka polskiego, konieczne byo samodzielne stworzenie takiego korpusu. Jak wspomniano, zadanie rozstrzygania anafory jest trudne nawet dla czowieka, wic proces budowania korpusu jest czasochonny i
26
wie si z wieloma problemami. Ze wzgldu na czasochonno oznaczania tekstw, zdecydowano si na stworzenie systemu wspomagajcego proces oznaczania. System wspomagajcy zosta wykonany jako aplikacja webowa, tak aby moliwe byo korzystanie z niego jednoczenie przez wiele osb, bez koniecznoci instalowania dodatkowego oprogramowania przez uytkownikw. System zbiera dane jedynie o powizaniach anaforycznych tworzonych przez wybran grup zaimkw. 5.1.1. Architektura systemu System wspierajcy budow korpusu anafory by zbudowany z nastpujcych podsystemw: repozytorium dokumentw, repozytorium anotacji, aplikacji webowej. Repozytorium dokumentw zawierao dokumenty, ktre mogy by oznaczane. Dokumenty pochodziy z korpusu IPI PAN [5], z sekcji Periodyki, byy wstpnie przetworzone i otagowane tagerem TaKIPP [30]. Tre dokumentw dotyczya wydarze politycznych, sportowych i kulturalnych. Specyka dokumentw ma wpyw na wyniki systemu i to, na jakich innych dokumentach system osignie najlepsze wyniki. W repozytorium anotacji, zbierana bya informacja o powizaniach anaforycznych wykrytych w dokumentach przez uytkownikw systemu. Anotacje byy przechowywane w relacyjnej bazie danych. Kada anotacja zawieraa numer segmentu, ktry by zaimkiem, numery segmentw wskazanych przez uytkownika jako anaforyzowane sowa, jaki jest typ anafory, informacj o tym, ktrego dokumentu dotyczy anotacja i kto j doda. Aplikacja webowa, pozwalaa wielu uytkownikom jednoczenie przeglda teksty z repozytorium oraz dodawa anotacje. Aplikacja webowa zostaa wykonana w jzyku PHP i umieszczona na serwerze Apache. Jako system zarzdzania relacyjn baz danych wykorzystano serwer MySQL. Struktur systemu przedstawia rysunek 5.1. 5.1.2. Dziaanie systemu Praca z systemem bya moliwa jedynie po wczeniejszym zalogowaniu si. Konieczno logowania zostaa wprowadzona w celu wyeliminowania ryzyka dostania si do systemu osb niepowoanych lub automatycznych systemw (np. indeksujcych), ktre mogyby wprowadzi do systemu bdne dane, ktre trudno byoby zidentykowa. Po zalogowaniu uytkownik mg wybra jeden ze znajdujcych si w repozytorium dokumentw i rozpocz oznaczanie. Po wybraniu dokumentu system wywietla tre dokumentu oraz wskazywa pierwszy nieoznaczony przez uytkownika zaimek. Zada-
Rozdzia 5. Realizacja
27
Rys. 5.1. Diagram przedstawiajcy struktur systemu do budowy korpusu anafory
niem uytkownika byo zaznaczanie fragmentu tekstu, do ktrego odnosi si zaimek oraz ustalanie rodzaju relacji, ktra czya zaimek ze wskazanym fragmentem. Po wskazaniu fragmentu i okreleniu typu anafory przez uytkownika, system zapamitywa wskazania i prosi o oznaczenie kolejnego zaimka z tekstu. W systemie zbierane byy informacje o nastpujcych zaimkach: osobowych: ja, ty, on, ona, ono, my, wy, oni, one, we wszystkich odmianach przez przypadki, w formach akcentowanych i nieakcentowanych (jego go), dzierawczych: jego, jej, ich, miejscowych: tam, stamtd, wskazujcych: to. List zaimkw, dla ktrych bya zbierana informacja o anaforze, ustalono na podstawie [15]. System znajdowa zaimki w tekcie w oparciu o wczeniej ustalon list sw, a nie o informacje z tagera. Zdecydowano si na takie rozwizanie w celu wyeliminowania wpywu bdw tagera na dane zbierane w korpusie anafory.1 Wizao si to jednak z jedn wad wynikajc z tego, e niektre sowa z tekstw, majce tak sam form jak zaimek, nie byy zaimkami. Uznano jednak, e w przypadku, gdy system wskae takie sowo, uytkownik bdzie mg zaznaczy, e sowo nie jest zaimkiem. Jak wspomniano, system pozwala oprcz zaznaczenia fragmentu tekstu, do ktrego odnosi si zaimek, ustali rodzaj anafory. Okrelono nastpujce rodzaje anafory:
1. Tager z ktrego korzystano w niniejszej pracy, by dosy dynamicznie rozwijany i usprawniany, liczono wic na to, e cz zaimkw niepoprawnie oznaczona przez wersj tagera z czasu, gdy budowano korpus anafory, zostanie poprawnie rozpoznana przez now wersj tagera, ktrej uyto na etapie analizy danych.
28
Rys. 5.2. Przykadowy ekran dziaajcej aplikacji do tworzenia korpusu anafory
zaimek odnosi si do bytu/bytw jest to anafora nominalna [25, 13]. zaimek odnosi si do zdania jest to anafora czasownikowa [25, 13]. Anafor czasownikow podzielono dodatkowo na dwa przypadki: gdy ktrym zaimek odnosi si do caego zdania wskazanego przez uytkownika, lub gdy zaimek odnosi si jedynie do wskazanego zdania skadowego. zaimek odnosi si do bytu nieopisanego w tekcie. Przykadem zaimkw, ktre tworz taki rodzaj anafory s zaimki ja, my, jeli nie s czci cytatu. Ten rodzaj anafory by rwnie wybierany, gdy zaimek odnosi si do elementu pominitego (elipsy), np. do podmiotu domylnego. zaimek jest czci staego zwrotu t opcj wybierano, gdy wskazane przez system sowo nie byo zaimkiem a jedynie miao form identyczn z form zaimka, lub gdy zaimek nie tworzy powizania anaforycznego, poniewa by czci staego zwrotu frazeologicznego, jak np. w zwrocie: kilka dni temu gdzie sowo temu nie peni funkcji zaimka wskazujcego2 .
2. W korpusie IPI-PAN sowo temu jest kublikiem (partyku) a nie zaimkiem
29
Przykadowy ekran z dziaajcej aplikacji przedstawiono na rysunku 5.2. Wida na nim fragment tekstu dokumentu, zaimek wskazany przez system, fragment tekstu zaznaczony przez uytkownika jako wyraenie anaforyzowane oraz zaznaczony rodzaj anafory. 5.1.3. Zbieranie danych Dane do systemu byy dostarczane przez wiele osb, pochodzcych z wielu krgw kulturowych (studenci, uczniowie licew). W wyniku eksperymentu udao si oznaczy 78 dokumentw, w ktrych uzyskano informacje o 1103 zaimkach. Zaimkw tworzcych anafor nominaln, a wic najbardziej interesujcych z punktu widzenia niniejszej pracy, byo 695, a wic 63% wszystkich oznaczonych zaimkw. Reszta oznaczonych sw, to zaimki ktre odnosiy si do: zdania lub zdania skadowego 11%, bytu spoza tekstu 10%, nie odnosiy si do niczego, lub nie byy zaimkami 16%. Dokadne podsumowanie uzyskanych danych przedstawiono w rozdziale 6.1. 5.1.4. Napotkane problemy Podczas zbierania danych o anaforach, napotkano na nastpujce problemy w ustalaniu relacji midzy zaimkami a tekstem, wynikajce z niejednoznacznoci dokumentw. Czsty by problemem ustalenia referenta dla zaimka to. Przykadowo w zdaniu: Taki transport to ok. 1000 euro. nie jest jednoznaczne, czy zaimek to peni rol anaforyczn, czy nie. Ostatecznie zdecydowano, e w podobnych przypadkach sowo to peni rol czasownika, w tym przypadku np. wynosi, a wic nie jest zaimkiem i nie tworzy anafory.3 Inny, bardziej skomplikowany problem zwizany z niejednoznacznoci zaimkw obrazuje ponisze zdanie: Portugalia i USA na przedmieciach Seulu, za Koreaczycy w Kiongdzu tam zamieszkaj rywale Polakw w grupie D. W tym zdaniu zaimek tam peni rol anaforyczn, jednak nie polega ona na prostym zastpowaniu zwrotw przedmieciach Seulu i Kiongdzu, ale na jednoczesnym wprowadzeniu powiza midzy rywalami a Portugali i Koreaczykami. Nietypowa specyka uytej struktury gramatycznej wprowadza niepewno w wyborze referenta dla zaimka tam. W podobnych przypadkach przyjto dla uproszczenia, e zaimek zastpuje poczenie bytw przedmiecia Seulu i Kiongdz. Podobny problem widoczny jest w poniszym zdaniu: Najwicej dziennikarzy przyjedao ze Szczecina i Gorzowa, bo stamtd blisko do mego rodzinnego Choszczna.
3. Wedug korpusu IPI-PAN sowo to nie jest zaimkiem, jednak w jzyku polskim moe ono peni rol anaforyczn, np w zdaniu: we to.
30
Niekiedy teksty miay bardzo skomplikowan struktur i uytkownicy mieli trudnoci z ustaleniem, ktre wyraenie jest anaforyzowane przez zaimek, mimo e powizanie byo jednoznaczne, jak na przykad w poniszym fragmencie: Mona by pewnym, e raczej wczeniej ni pniej Rosjanie odpowiedz tym samym. Zwikszenie si liczby satelitw szpiegowskich oraz tych, ktre wbrew wczeniejszym deklaracjom i traktatom bd dwiga dalekosin miercionon bro, wcale nie musi doprowadzi do wzmocnienia bezpieczestwa mieszkacw kuli ziemskiej. Przeciwnie. wiadomo pojawienia si nad nami trudnych do opanowania, ze wzgldu na wci zawodn czno i stopie wewntrznej komplikacji zainstalowanej aparatury, pojazdw kosmicznych moe doprowadzi Ziemian do powstania poczucia zagroenia, porwnywalnego z tym, ktre ogarno mieszkacw USA po ataku 11 wrzenia. Liczba ich bdzie ulegaa staemu zwikszeniu, co z kolei grozi popenieniem przez automaty, nie tylko kierujcych nimi ludzi, nieprzewidywalnych, niebezpiecznych i trudnych do uniknicia pomyek. Niewyobraalne koszty tego kosmicznego przedsiwzicia aktywizujcego rozwj naukowy i gospodarczy Stanw Zjednoczonych zmusz inne kraje do podjcia wysiku powanie przekraczajcego ich moliwoci. Zdarzay si te teksty, w ktrych ustalenie do ktrego bytu odnosi si zaimek, byo niemoliwe pomimo poprawnoci gramatycznej zda, jak na przykad w poniszym fragmencie, w ktrym nie wiadomo, czy zaimek tam odnosi si do pokoi czy do pitra: Na pierwszym pitrze s pokoje kardynaa Franciszka Macharskiego. Wchodzi si tam klatk schodow z barokowym sklepieniem i mocno wytart posadzk. 5.1.5. Bdne anotacje Jak wspomniano, dokumenty byy oznaczane przez wiele osb, ktre zostay poproszone o pomoc przy budowie korpusu anafory. Jednake czas potrzebny na oznaczenie wyraenia anaforyzowanego przez jeden zaimek jest stosunkowo dugi i pomimo dugiego czasu trwania caego procesu zbierania danych, udao si oznaczy jedynie cz dokumentw z caego zbioru. Naley take przypuszcza, e w korpusie znajduj si bdne anotacje, poniewa jak wspomniano przecitny czowiek przy rozwizywaniu anafory nie osiga stu procentowej skutecznoci. Jednym z moliwych sposobw poradzenia sobie z bdami w korpusie jest ponowne oznaczenie tych samych dokumentw przez innych uytkownikw, a nastpnie porwnanie tych anotacji. Jednak ze wzgldu na duy wpyw iloci danych uczcych na jako klasykatora, zdecydowano e nie bdzie si wykonywao wielokrotnego oznaczania tych samych dokumentw, ale powici czas i prac osb pomagajcych przy budowie korpusu na oznaczanie nowych teksw.
31
5.2. Analiza morfo-syntaktyczna

Oznaczone dokumenty z korpusu anafory zostay otagowane tagerem TaKIPI [30]. Tager dokonywa jednoczenie segmentacji na jednostki podstawowe leksemy oraz zdania. Segmentacja odbywaa si zgodnie z reguami przedstawionymi w [33], wedug ktrych leksemem moe by fragment sowa. Dla najbardziej interesujcych pod ktem niniejszej pracy klas gramatycznych, tj. rzeczownikw i zaimkw, tager okrela kategorie gramatyczne. Byy to: liczba, przypadek, rodzaj dla rzeczownikw i zaimkw, oraz dodatkowo: akcentowo, poprzyimkowo dla zaimkw. Naley tutaj zaznaczy, e w ramach kategorii rodzaj tager okrela jedn z piciu wartoci: mski osobowy, mski zwierzcy, mski rzeczowy, eski, nijaki. Autorzy tagera oceniaj jego dokadno na poziomie ok. 92,5%. Jako danych z tagera odgrywa kluczow rol w systemach ekstrakcji informacji, poniewa bdy powoduj lawinowe pogorszenie wynikw wszystkich kolejnych moduw przetwarzajcych tekst. Otagowane dokumenty byy konwertowane przy pomocy transformat XSLT do formatu rozpoznawanego przez narzdzie GATE.
5.3. Tworzenie bazy przypadkw uczcych

Na podstawie informacjami z tagera oraz danych o anaforach w dokumentach pochodzcych z korpusu zbudowano baz przypadkw uczcych do algorytmu maszynowego uczenia si. Naley tutaj zaznaczy, e dokumenty nie byy poddawane parsingowi, jak to ma miejsce w przypadku typowych systemw do rozwizywania anafory. Informacje z parsera s bardzo cenne przy analizie anafory, w czasie realizowania niniejszej pracy nie dysponowano parserem osigajcym satysfakcjonujc skuteczno. Brak parsera wprowadzi znaczne ograniczenia co do rodzaju anafor rozpoznawanych przez system. Jedn z wanych informacji pyncych z parsera jest informacja o fazach nominalnych, czyli grupach sw tworzcych jedn cao. Fraza nominalna skada si z rzeczownikw i przymiotnikw, ktre mog reprezentowa wiele bytw nazwanych, poczonych w zdaniu w jedn cao (np. poprzez uycie spjnika i ). Ma to due znaczenie w przypadku rozwizywania anafor mnogich, powstajcych w wyniku uycia takich zaimkw jak np. oni, poniewa zaimek odnosi si wtedy najczciej do jednej frazy nominalnej. Ze wzgldu na zastosowanie drzewa decyzyjnego do rozstrzygania zagadnienia anafory, ktre pozwala poczy zaimek z jedn fraz, oraz z powodu braku informacji o frazach mnogich (obejmujcych wiksze grupy sw), zdecydowano si na wykluczenie z procesu uczenia wszystkich zaimkw odnoszcych si do wielu bytw nazwanych. Drugim problemem zwizanym z brakiem parsera by fakt, e anotacje z korpusu koreferencji wizay zaimek z wyraeniem anaforyzowanym poprzez wskazanie grupy
32
sw, do ktrej zaimek si odnosi. Zaimek mg si odnosi do pojedynczego bytu, jednak opisanego poprzez dusz grup sw (np. gowa pastwa), ktre przez typowy parser s oznaczane jako jedna fraza nominalna. Do wyznaczania sowa, ktre stanowio element gwny frazy nominalnej i ktre powinno zosta wskazane poprzez klasykator, skorzystano z nastpujcej heurystyki (zbudowanej dowiadczalnie): jeeli zaznaczony w korpusie koreferencji fragment tekstu zawiera jedno sowo, to to sowo byo uznawane za element gwny frazy nominalnej, jeeli zaznaczony w korpusie koreferencji fragment tekstu zawiera wiele sw, i byy one oddzielone spjnikami i, lub, oraz, albo, czy lub znakami interpunkcyjnymi, to zaimek ktry odnosi si do takiej grupy nie by rozpatrywany przy uczeniu klasykatora, np. Krl i Krlowa jeeli w zaznaczonym fragmencie tekstu znajdoway si rzeczowniki w mianowniku, to pierwszy z nich by uznawany za element gwny frazy nominalnej, np. rozbawiajcy przykad gupoty jeeli w zaznaczonym fragmencie tekstu nie byo rzeczownikw w mianowniku, to pierwszy wyraz nie bdcy przymiotnikiem, przyswkiem ani przyimkiem by uznawany za element gwny frazy nominalnej, np. nowelizacji ustawy Po ustaleniu elementw gwnych zaznaczonych fraz nominalnych przypadki uczce do budowania klasykatora tworzono w postaci par sw (i, j), w ktrych i reprezentowao zaimek, a j potencjalne wyraenie anaforyzowane. Przypadki pozytywne i negatywne dobierano w nastpujcy sposb: przypadki uczce pozytywne tworzono poprzez zestawienie ze sob zaimka i sowa, do ktrego si odnosi, przypadki uczce negatywne tworzono poprzez zestawienie ze sob zaimka wszystkich rzeczownikw i zaimkw, znajdujcych si w tekcie midzy zaimkiem a sowem, do ktrego si odnosi. Przykadowo, dla teksu, skadajcego si z cigu sw (a1 , a2 , a3 , ..., an , B, c1 , c2 , c3 , ..., cn , b, d1 , ...), w ktrym sowo b jest zaimkiem odnoszcym si do sowa B, jako przypadek uczcy pozytywny wybierana jest para (B, b), a jako przypadki uczce negatywne pary (cx , b), gdzie sowo cx jest rzeczownikiem lub zaimkiem. Sw ax nie brano pod uwag podczas budowania przypadkw negatywnych, poniewa bya moliwo, e byy one poprzez wasno przechodnioci anafory rwnie potencjalnymi wyraeniami anaforyzowanymi przez b.
33
5.4. Generowanie wektorw uczcych

Po stworzeniu bazy przypadkw uczcych, na ich podstawie wygenerowano wektory cech. Dla kadego przypadku uczcego generowano cechy wynikajce z wasnoci leksykalnych i gramatycznych analizowanych wyrazw, oraz z cechy wynikajce z pozycji wyrazw w tekcie. Poniej przedstawiono zestaw wykorzystanych cech. Cechy dobierano na podstawie [29, 14], oraz wasnych eksperymentw. Identyczno zapisu (SringMatch): moliwe wartoci to true, false. Warto true bya przyjmowana, jeli sowa i i j miay taki sam zapis, bez uwzgldnienia wielkoci liter, false w przeciwnym wypadku. Warto unknown bya przyjmowana, jeli niemoliwe byo okrelenie rodzaju ktregokolwiek ze sw i i j. Zgodno liczby (NumberAgreement): moliwe wartoci to true, false, unknown. Warto true bya przyjmowana, jeli obydwa sowa i i j miay tak sam liczb (pojedyncz lub mnog), false w przeciwym przypadku. Rodzaj poprzednika (IGender): moliwe wartoci to m1, m2, m3, f, n, unknown. Dane o rodzaju gramatycznym sowa byy brane z tagera, przy czym jak wspomniano tager rozrnia trzy rodzaje mskie. Warto unknown bya przyjmowana, jeli niemoliwe byo ustalenie rodzaju tager nie zwrci tej informacji. Rodzaj nastpnika (JGender): moliwe wartoci to m1, m2, m3, f, n, unknown. Analogicznie jak w przypadku rodzaju poprzednika, jednak w odniesieniu do zaimka anafory. Zgodno rodzaju (GenderAgreement): moliwe wartoci to true, false, unknown. Warto true bya przyjmowana, jeli sowa i i j miay taki sam rodzaj gramatyczny, przy czym wszystkie rodzaje mskie (osobowy, zwierzcy i rzeczowy) byy traktowane jako jeden rodzaj mski. Jeli sowa miay rny rodzaj, przyjmowana bya warto false, warto unknown bya przyjmowana, jeli niemoliwe byo okrelenie rodzaju ktregokolwiek ze sw i i j. Poprzednik jest zaimkiem (IPronoun): moliwe wartoci to true, false. Warto true bya przyjmowana, jeli poprzednik by zaimkiem, warto false w przeciwnym przypadku. Przypadek poprzednika (IPrzypadek): moliwe wartoci to nom, gen, dat, acc, inst, loc, voc, unknown. Warto unknown bya przyjmowana, jeli niemoliwe
34
byo ustalenie przypadku poprzednika, poniewa tager nie dostarczy takiej informacji. Pozostae wartoci odpowiaday nastpujcym przypadkom: nom mianownik, gen dopeniacz, dat celownik, acc biernik, inst narzdnik, loc miejscownik, voc woacz. Przypadek nastpnika (JPrzypadek): moliwe wartoci to nom, gen, dat, acc, inst, loc, voc, unknown. Analogicznie jak w dla przypadku poprzednika, jednak w odniesieniu do zaimka nastpnika, anafory. Akcentowo zaimka (AccentPronoun): moliwe wartoci to true, false. Warto true bya przyjmowana, jeli nastpnik (j ) by zaimkiem akcentowanym (np. jego, zamiast go). Warto false bya przyjmowana w przeciwnym przypadku. Odlego wyraana w liczbie zda (Distance): moliwe wartoci pochodz ze zbioru liczb cakowitych nieujemnych. Warto 0 oznacza, e poprzednik i nastpnik znajduj si w tym samym zdaniu, 1 e poprzednik jest w zdaniu poprzedzajcym zdanie, w ktrym znajduje si zaimek, itp. Odlego wyraana w liczbie segmentw (TokenDistance): moliwe wartoci pochodz ze zbioru liczb cakowitych nieujemnych. Warto 1 oznacza, e poprzednik znajduj bezporednio przed zaimkiem, 2 e poprzednik i nastpnik dzieli jedno sowo, itp. Wzgldna odlego poprzednika od pocztku zdania (SentencePositionFromStart): moliwe wartoci pochodz ze zbioru liczb rzeczywistych, z zakresu od 0 do 1, z 0 i 1 wcznie. Warto reprezentuje pooenie poprzednika wzgldem zdania, w ktrym si znajduje. Warto 0 oznacza, e poprzednik znajduje si na pocztku zdania, 1 e na kocu. Wzgldna odlego poprzednika od koca zdania (SentencePositionFromEnd): moliwe wartoci pochodz ze zbioru liczb rzeczywistych, z zakresu od 0 do 1, z 0 i 1 wcznie. Warto reprezentuje pooenie poprzednika wzgldem koca, w ktrym si znajduje. Warto 0 oznacza, e poprzednik znajduje si na kocu zdania, 1 e na pocztku. Ta wielko jest wprowadzona, jako uzupenienie wielkoci wzgldnej pozycji poprzednika wzgldem pocztku zdania, poniewa w przypadku jednowyrazowych zda
35
sowo znajduje si jednoczenie na pocztku i na kocu zdania, co nie byoby moliwe do przedstawienia przy pomocy tylko jednej miary. Poprzednik rozpoczyna si wielk liter (Capitalic): moliwe wartoci to true, false, unknown. Warto true bya przyjmowana, jeli sowo nie znajdowao si na pocztku zdania i byo pisane wielk liter. Jeli sowo znajdowao si na pocztku zdania, przyjmowana bya warto unknown, jeli sowo byo pisane ma liter false. Poprzednik jest imieniem (Name): moliwe wartoci to true, false. Warto true bya przyjmowana, jeli forma podstawowa poprzednika znajdowaa si w licie imion dla jzyka polskiego, warto false bya przyjmowana w przeciwnym przypadku. List sw utworzono na podstawie danych z serwisu imiona.org[3]. Czsto wystpowania poprzednika w tekcie (Frequency): moliwe wartoci pochodz ze zbioru liczb rzeczywistych, z zakresu od 0 do 1. Wielko okrelaa, ile razy sowo odpowiadajce poprzednikowi wystpowao w tekcie, w stosunku do liczby wszystkich sw z dokumentu. Przy obliczaniu tej wielkoci brano pod uwag formy podstawowe, a wic nieodmienione sw. Czy sowa i, i s powizane anafor (Coref ): moliwe wartoci to true, false. Warto true bya przyjmowana dla przypadkw uczcych pozytywnych, false dla przypadkw negatywnych.
5.5. Stworzenie klasykatora rozstrzygajcego anafor
Zbir przypadkw uczcych posuy do zbudowania klasykatora, ktrego zadaniem byo rozstrzyganie, czy dana para sw (i, j) jest zwizana relacj anafory, czy nie. Do zbudowania klasykatora uyto algorytmu indukcji drzew decyzyjnych J48, ktry jest modykacj znanego algorytmu C4.5 [34]. Implementacja algorytmu pochodzia z pakietu WEKA [7] darmowego pakietu zawierajcego Javowe implementacje algorytmw maszynowego uczenia si. Algorytm J48 pozwala na jednoczesne stosowanie cech o wartociach nominalnych i cigych, a wic doskonale nadawa si do budowania klasykatora operujcego na zbieranych danych. Do budowy klasykatora uyto 340 przypadkw pozytywnych i 1200 negatywnych. Oceny generowanych drzew decyzyjnych dokonywano na podstawie walidacji krosowej
36
na dziesiciu podzbiorach zbioru przypadkw uczcych.4 Przy indukcji drzewa decyzyjnego uyto rnych wielkoci parametrw okrelajcych prunning (przycinanie). Do budowy klasykatora uyto pierwotnie wszystkich cech, ktrych wartoci zostay zebrane. Nastpnie dokonano prb automatycznej eliminacji najmniej znaczcych cech przy uyciu metody maksymalizacji zysku informacji [20]. Ostatecznie generowano drzewa na podstawie rcznie dobranego zestawu cech.
5.6. Zbudowanie moduu rozwizujcego anafor

. Kolejnym etapem byo stworzenie moduu GATE do rozstrzygania anafory zaimkowej. Skonstruowany modu dziaa wedug nastpujcego schematu: 1. Dokument by przegldany od pocztku do koca w poszukiwaniu zaimkw. 2. Po napotkaniu zaimka, tworzone byy wszystkie pary sw (i, j), gdzie j by rozpatrywanym zaimkiem a i rzeczownikiem lub zaimkiem, znajdujcym si w czci tekstu przed zaimkiem. 3. Dla kadej pary (i, j) ustalany by zestaw cech taki sam, jak w przypadku generowania danych uczcych, z wyjtkiem wartoci cechy Coref, ktra bya nieznana. 4. Na podstawie cech, klasykator ustala dla kadej pary (i, j), czy i jest wyraeniem anaforyzowanym przez j. W ten sposb tworzony by zbir potencjalnych rozwiza anafory stworzony ze sw i, dla ktrych klasykator okreli istnienie relacji anafory z j. 5. Ostatecznie spord wskazanych przez drzewo decyzyjne kandydatw na wyraenie anaforyzowane przez zaimek, wybierane byo jedno sowo. Wybr sowa odbywa si w oparciu o przyjt heurystyk. W ten sposb ustalano powizanie kadego zaimka ze sowem z tekstu. Uyto trzech heurystyk do ostatecznego wyboru wyraenia anaforyzowanego spord sw wskazanych przez klasykator ujednoznaczniania. Najprostszym sposobem byo uycie heurystyki odlegociowej, a wic przyjcie tego spord kandydatw, ktry znajdowa si najbliej zaimka. Pozostae dwie heurystyki ujednoznaczniania opisano sekcjach 5.6.1 i 5.6.2. Metoda odlegociowa ma t przewag nad pozostaymi uytymi metodami, e nie wymaga generowania zbioru wszystkich sw wskazanych przez klasykator. Przy zaoeniu, e sowa s przeszukiwane w kierunku od zaimka do pocztku dokument,
4. Walidacja krosowa na N podzbiorach (ang. N-fold cross validation) polega na tym, e pocztkowy zbir przypadkw uczcych jest dzielony na N podzbiorw, nastpnie N razy budowany jest klasykator, przy czym za kadym razem N-1 podzbiorw uywane jest jako dane uczce, a pozostay podzbir jako zbir testowy. Jako bd algorytmu przyjmuje si redni bd uzyskany z N klasykatorw.
37
wymagane jest jedynie znalezienie pierwszego sowa wskazanego przez klasykator. Ma to duy wpyw na wydajno caego algorytmu. 5.6.1. Ujednoznacznianie na podstawie bdu klasykatora W tej heurystyce do wyboru jednego z wyrae wskazanych przez drzewo decyzyjne uyto bdu klasykatora. Jako bd danego licia drzewa decyzyjnego przyjto liczb przypadkw uczcych, niepoprawnie zaklasykowanych przez ten li, podzielon przez liczb wszystkich przypadkw uczcych zaklasykowanych przez li. Spord zbioru sw wskazanych przez klasykator wybierano to, dla ktrego bd klasykatora by najmniejszy. W przypadku, gdy istniao kilka sw z najmniejszym bdem klasykatora, przyjmowano sowo znajdujce si najbliej rozpatrywanego zaimka. 5.6.2. Ujednoznacznianie na podstawie koincydencji W tej heurystyce przyjto znacznie bardziej skomplikowan metod ujednoznaczniania. Majc zaimek i grup potencjalnych kandydatw wskazanych przez klasykator, w pierwszym kroku ustalany by najbliszy kontekst semantyczny zaimka 5 . Kontekst semantyczny zaimka to wyrazy, z ktrymi jest on najbardziej zwizany i ktre nakadaj ograniczenia semantyczne na sowa, ktre moe on zastpowa. Kontekst semantyczny zaimka mg skada si z: rzeczownika, jeli zaimek by zaimkiem dzierawczym. Przykadowo, dla zdania: Po 11 latach uprawiania taca mistrzowie przyznaj, e ich pasja nie zrodzia si z marzenia. jest to rzeczownik pasja. czasownika, jak np. w zdaniu: Zapadaa ju noc, gdy krl z Bon przybyli do katedry, gdzie przywita ich biskup krakowski. jest to czasownik przywita. bezokolicznika, jak np. w zdaniu: Mog mu pomc. jest to wyraz pomc. rzeczownika odczasownikowego lub imiesowu, jak np. w zdaniu: Wedug resortu pracy, szybka pomoc organizacjom bya moliwa rwnie dziki natychmiastowej reakcji prezesa Urzdu Zamwie Publicznych Ta5. pojcie wasne
38
deusza Czajkowskiego, ktry wyrazi zgod na przydzielenie im przez ministerstwo zamwie z wolnej rki. jest to wyraz przydzielenie. Do wyznaczania najbliszego kontekstu semantycznego zaimkw uyto prostej, rcznie zbudowanej heurystyki. Nie rozwizywaa ona problemu czasownikw zwrotnych i zaimkw poprzyimkowych (gdy w kontekcie powinien znale si rwnie przyimek). Do ujednoznaczniania zaimkw poprzyimkowych stosowana bya metoda odlegociowa. Po ustaleniu kontekstu, budowane byy frazy zawierajce sowa z kontekstu i sowa wskazane przez klasykator, wstawione w miejsce zaimka. W budowanych frazach zarwno sowa z kontekstu jak i sowa wstawione w miejsce zaimka mogy znajdowa si we wszystkich moliwych odmianach. Przykadowo, dla zdania: Po 11 latach uprawiania taca mistrzowie przyznaj, e ich pasja nie zrodzia si z marzenia. i potencjalnych poprzednikw anafory: mistrzowie, samochody, budowane byy frazy: pasja mistrzw, mistrzw pasja, pasji mistrzw, mistrzw pasji, ... pasja samochodw, samochodw pasja, pasji samochodw, samochodw pasji, ... W kolejnym kroku okrelana bya liczba wystpie tak zbudowanych fraz w duym zbiorze dokumentw. Pocztkowo jako zbir dokumentw wykorzystana bya wyszukiwarka Google, jednak ostatecznie uyto penego korpusu IPI-PAN (zawierajcego ponad 250 milionw segmentw), ze wzgldu na dugi czas komunikacji z serwerem Google6 . Przy konstruowaniu zapyta do wyszukiwarki korpusu IPI-PAN nie byo konieczne odmienianie sw przez wszystkie przypadki, poniewa wyszukiwarka pozwalaa tworzy zapytania w oparciu o formy podstawowe sw. Wyniki dla fraz zawierajcych danego kandydata na poprzednika anafory byy sumowane, a nastpnie dzielone przez liczb wystpie samego kandydata w zbiorze dokumentw. Dziki temu uzyskano miary obrazujce jak czsto dany wyraz pojawia si w danym kontekcie semantycznym:
f orm
f req(antecedent, context) =
count(antecedentf orm , contextf orm ) f orm count(antecedentf orm )
(5.1)
gdzie: freq czsto wystpowania wyrazu w danym kontekcie,

6. Dodatkow przyczyn bya obawa, e w wyniku intensywnego odpytywania systemu Google, mog zadziaa systemy obronne wyszukiwarki, ktre zablokuj tymczasowo dostp do niej z komputera, na ktrym prowadzone byy badania.
39
Rys. 5.3. Moduy systemu rozwizywania anafory
antecedent potencjalny poprzednik, form odmiana, context kontekst semantyczny, count liczba wystpie danej frazy w zbiorze dokumentw. Ostatecznie, jako poprzednik anafory wybierany by ten wyraz, dla ktrego czsto wystpowania w kontekcie semantycznym zaimka bya najwiksza. Jeli wszystkie czstoci byy rwne zeru, stosowana bya heurystyka odlegociowa.
5.7. Architektura systemu

Ze wzgldu na to, e niektre czynnoci byy wykonywane zarwno w procesie generowania danych uczcych jak i w fazie klasykacji, ostateczny system podzielono na 4 gwne moduy GATE, ktre w zalenoci od potrzeb byy wczane do caego systemu przetwarzajcego dokumenty. Wspomniane moduy to: NPAnnotator jego zadaniem byo ustalenie cech poszczeglnych sw dokumentu, jeeli te cechy nie byy otrzymywane bezporednio z tagara, a byy potrzebne w dalszym procesie. LSGenerator jego zadaniem byo generowanie danych uczcych i zapisywanie ich w formacie odczytywanym przez narzdzie WEKA. AnaAnnotator jego zadaniem byo rozwizywanie anafory, w wic przypisywanie zaimkom ich poprzednikw. AnaComparator jego zadaniem byo porwnywanie wynikw rozwizywania anafory z danymi z korpusu. Schemat architektury przedstawia rysunek 5.3.
40
5.8. Ocena moduu

Jednym z wyznacznikw jakoci wynikw stworzonego systemu, byy wyniki klasykatora okrelajcego istnienie bd nieistnienie relacji anafory midzy dwoma wyrazami. Przy optymalnym doborze zestawu cech oraz parametrw algorytmu przycinania drzewa decyzyjnego, otrzymano klasykatory, ktre osigay skuteczno rzdu 83% (czyli 17% niepoprawnie zaklasykowanych przypadkw testowych). Jednak skuteczno caego moduu rozwizywania anafory jest znacznie mniejsza, albowiem algorytm wymaga wielokrotnego zastosowania klasykatora podczas znajdowania wyraenia anaforyzowanego przez jeden zaimek. Walidacji algorytmu dokonano na caym zbiorze dostpnych, oznaczonych dokumentw. Do walidacji, podobnie jak przy generowaniu bazy przypadkw uczcych (punkt 5.3), wybrano tylko te zaimki z korpusu koreferencji, ktre zostay oznaczone jako zaimki przez tager i jednoczenie dla ktrych wrd wskazanych w korpusie anaforyzowanych sw, znajdowa si cho jeden rzeczownik lub zaimek. Grupy sw zaznaczonych jako wyraenie anaforyzowane dla kadego zaimka zredukowano do pojedynczego sowa, wedug identycznej heurystyki jak uyto na etapie budowania bazy przypadkw uczcych (punkt 5.3). Zapamitano jednak dodatkowo informacje o pozostaych sowach wskazanych w korpusie. Przy ocenianiu skonstruowanego moduu brano pod uwag nastpujce fakty:
czy sowo, ktre wskaza algorytm, jest sowem, do ktrego zredukowane zostao zaznaczone w korpusie wyraenie anaforyzowane, czy sowo, ktre wskaza algorytm, naley do zaznaczonego w korpusie wyraenia anaforyzowanego.
Oczekuje si bowiem, e jeli uyje si parsera, wystarczy aby algorytm rozwizujcy anafor wskaza sowo nalece do anaforyzowanej frazy nominalnej, aby j wskaza. Problemem okazuj si te wyraenia wielosowowe, ktre reprezentuj jeden byt, ale ktrych nie mona jednoznacznie zredukowa do pojedynczego sowa. Przykadem takiego wyraenia moe by para: imi i nazwisko, np. Tomek Filak. W korpusie anafory dla tego typu wyrae zaobserwowano rne rodzaje ich oznaczania. W niektrych przypadkach zaznaczane byo cae wyraenie, w niektrych jedynie jego cz (np. samo imi albo samo nazwisko). W wyniku tej niekonsekwencji, a czasem trudnoci w wyborze tylko jednego sowa spord kilku, opisujcych jeden byt, przyjty sposb oceniania algorytmu moe okaza si nazbyt restrykcyjny. Przykadowo, jeli zaimek odnosi si do osoby, algorytm wskae jej imi a w korpusie zaznaczone jest tylko jej nazwisko, to przyjty sposb oceniania nie uzna tego rozpoznania za poprawne. Podobnie jak w poprzednich przypadkach, zastosowanie parsera powinno rozwiza ten problem.
41
5.9. Zaimki nieanaforyczne

W niniejszej pracy nie uwzgldniono problemu rozpoznawania zaimkw, ktre nie peni funkcji anaforycznej. W jzyku polskim, w przeciwiestwie do na przykad jzyka angielskiego, istnieje wiele takich zaimkw7 , np. zaimki to, tym, tam. W celu zwikszenia skutecznoci rozwizywania anafory naleaoby skonstruowa osobny mechanizm wykrywania zaimkw nieanaforycznych.
7. oznaczonych w korpusie IPI-PAN jako partykuy ze wzgldu na swoj nieodmienno
Rozdzia 6
Wyniki
6.1. Analiza danych z korpusu anafory
W procesie rcznego oznaczania zaimkw udao si zdoby informacje o 1103 zaimkach pochodzcych z 78 dokumentw. Kady z dokumentw by oznaczany tylko raz przez tylko jedn osob. Tabela 6.1 przedstawia procentowy udzia oznaczonych zaimkw w tworzenie rnych rodzajw anafory.
Rodzaj anafory Anafora nominalna Anafora do zdania Anafora do zdania skadowego Odwoania do bytw nieopisanych w tekcie Zaimki nieanaforyczne
Procent zaimkw 63% 6% 5% 10% 16%
Tabela 6.1. Procentowy udzia zaimkw z korpusu w tworzeniu rnych rodzajw anafory
rednia liczba zaimkw w dokumencie to 14,1. Zmierzono liczb segmentw znajdujcych si midzy zaimkami a wskazanymi dla nich elementami gwnymi fraz nominalnych. Wyniki prezentuje wykres na rysunku 6.1. Wida na nim wyrane maksimum w okolicy odlegoci rwnej czterem segmentom. Ilustruje ono czsto uywan przez autorw dokumentw skadni, w ktrej zaimek z pocztku zdania odwouje si do frazy z koca poprzedniego zdania, jak np. we fragmencie:
44
Rys. 6.1. Histogram liczby anafor nominalnych dla rnych odlegoci midzy zamikiem a elementem gwnym frazy nominalnej
Gwiazd zorganizowanej po raz pierwszy w Nowym Sczu Gali Boksu Zawodowego by byy mistrz wiata w kick boxingu Przemysaw Saleta. Potrzebowa on zaledwie trzydziestu sekund na znokautowanie swego czeskiego przeciwnika. Okazuje si, e prawdopodobiestwo wystpienia relacji anafory midzy zaimkiem a danym sowem maleje wraz z odlegocia wyraon w liczbie segmentw rodzielajcych zaimek i to sowo. Jest to zgodne z intuicj, ktra mwi, e czowiek jest w stanie zapamita jedynie pewien krtki kontekst analizowanego tekstu i w ramach niego znale waciwego poprzednika anafory. Zasada ta nie dotyczy sytuacji, w ktrych zaimkiem jest np. sowo ja a poprzednikiem autor cytatu, std niektre wyraenia anaforyczne sigaj nawet 60 sw wstecz. Tabela 6.2 przedstawia histogram liczby anafor dla rnej odlegoci midzy zaimkiem a poprzednikiem, wyraon w liczbie zna. Jak wida, najwiksze bo wynoszce cznie 87,7% jest prawdopodobiestwo, e poprzednik anafory znajdzie si w tym samym zdaniu co zaimek, bd w zdaniu poprzednim.
Rozdzia 6. Wyniki
45
Odlego 0 (to samo zdanie) 1 2 3 4 powyej 5
Przypadkw 51.2% 36.5% 6.6% 2.6% 1.6% 1.5%
Tabela 6.2. Liczba przypadkw dla rnych odlegoci midzy zaimkiem a poprzednikiem anafory, wyraonych w licznie zda.
6.2. Klasykator
Do budowy klasykatora uyto cznie 1667 przypadkw uczcych, z ktrych 383 stanowio zbir przypadkw pozytywnych a 1284 negatywnych. Nie byo konieczne ltrowanie, przeksztacanie ani uzupenianie danych uczcych, poniewa byy one kompletne i uyty algorytm (J48 z pakietu WEKA) nie wymaga ich przeksztacania. Pocztkowo zbudowano drzewo decyzyjne bez zastosowania przycinania i oceniono je na zbiorze uczcym, w wyniku czego otrzymano poprawno klasykatora (liczb poprawnie zaklasykowanych przypadkw) wynoszc 99,52%. Pozwolio to stwierdzi, e w zbiorze uczcym znajduje si stosunkowo niewiele sprzecznych przypadkw uczcych. Do budowy klasykatora uyto wspczynnikw zaufania (ang. condence) wynoszcych w kolejnych prbach 0.1, 0.2, 0.3, 0.4, 0.5, 0.6 oraz minimalnej liczby przypadkw, ktre musz znale si w liciu drzewa, wynoszcej kolejno 5, 7, 9, 11 i 13. Warto wspczynnika minimalnej liczby przypadkw w liciu ma wpyw na wielko budowanego drzewa (im mniejsza warto tym wiksze drzewo), natomiast warto wspczynnika zaufania ma wpyw na pniejsze przycinanie (im mniejsza, tym bardziej drzewo jest przycinane). Klasykator by oceniany metod walidacji krzyowej na 10 podzbiorach. Wyniki 30 pomiarw (6x5) dla caego zestawu atrybutw przedstawia tabela 6.3. Jak wida, maksymalna uzyskana poprawno wynosia 81% (19% bedu). Kolejnym krokiem by wybr podzbioru atrybutw, dla ktrego wyniki klasykacji byy moliwie najlepsze. Jak wspomniano, skorzystano z w tym celu z metody maksymalizacji zysku informacji [20], ktra jest zaimplementowana w pakiecie WEKA. Wyniki oceny istotnoci atrybutw wedug tej oceny przedstawia tabela 6.4. Do budowy klasykatora uyto atrybutw, dla ktrych zysk informacji by wikszy ni 0,01 (czyli dziesi pierwszych atrybutw z tabeli 6.4). Wyniki oceny klasykatorw budowanych przy uyciu tych atrybutw przedstawia tabela 6.5. Maksymalna uzyskana poprawno wynosia 80.1% (19.9% bedu) a wic nieco gorsza ni przy uyciu wszystkich atrybutw. Pogorszenie wynikw moe wynika z faktu, e do ustalenia istnienia relacji anafory midzy frazami konieczne jest czasem uycie pary atrybutw (np. rodzaj
46
Minimalna liczba przypadkw w liciu 5 7 9 11 13
0.1 79.9% 79.2% 79.9% 79.2% 78.7%
Wspczynnik zaufania 0.2 0.3 0.4 0.5 80.1% 79.7% 79.9% 79.3% 79.2% 80.4% 79.9% 80.4% 79.5% 79.3% 80.3% 80.3% 80.7% 79.5% 79.3% 80.7% 80.4% 81.0% 79.2 78.5
0.6 79.7% 80.0% 80.6% 79.1% 77.8%
Tabela 6.3. Procent poprawnie klasykowanych instancji drzewa budowanego z rnymi wspczynnikami przycinania i liczby przypadkw w liciu, na podstawie wszystkich atrybutw. gramatyczny poprzednika i anafory), podczas gdy uycie tylko jednego z nich daje may zysk informacyjny. Atrubut NumberAgreement IGender SentencePositionFromStart IPrzypadek SentencePositionFromEnd Distance TokenDistance Capitalic JPrzypadek Frequency Name AccentPronoun JGender StringMatch GenderAgreement IPronoun Zysk informacji 0.074727 0.04518 0.035674 0.035404 0.024226 0.023942 0.023669 0.021563 0.013757 0.012609 0.008557 0.002654 0.001132 0.000997 0.000644 0.000353
Tabela 6.4. Zysk informacji dla kadego z atrybutw. Ostatecznie dokonano oceny klasykatorw, ktre byy budowane z rcznie (dowiadczalnie) ustalonym zbiorem atrybutw. Najlepsze wyniki uzyskano usuwajc jedynie atrybut Name (okrelajcy, czy potencjalny poprzednik jest imieniem. Wyniki przedstawia tabela 6.6. Najlepszy znaleziony t metod klasykator osiga skuteczno wynoszc 82.1% i bya to najlepsza skuteczno uzyskana dla wszystkich pomiarw. Drzewo decyzyjne ktre zostao najwyej ocenione przedstawia rysunek 6.2. W dal-
Rozdzia 6. Wyniki
47
Minimalna liczba przypadkw w liciu 5 7 9 11 13
0.1 78.0% 77.5% 78.2% 78.6% 77.8%
Wspczynnik zaufania 0.2 0.3 0.4 0.5 79.4% 79.0% 79.2% 79.6% 79.5% 78.8% 78.6% 79.7% 80.1% 79.8% 78.1% 78.3% 79.6% 80.1% 79.8% 78.2% 78.2% 79.2% 80.0% 79.5%
0.6 77.2% 77.4% 78.5% 79.3% 79.1%
Tabela 6.5. Procent poprawnie klasykowanych instancji drzewa budowanego z rnymi wspczynnikami przycinania i liczby przypadkw w liciu, na podstawie atrybutw wybranych metod zysku informacji.
szych eksperymentach uyto wanie tego klasykatora, ze wzgldu na jego najwiksz skuteczno. We wszystkich pomiarach obserwowano pogorszenie wynikw klasykatora przy zwikszaniu wspczynnika zaufania powyej wartoci 0.4, co byo wynikiem przetrenowania algorytmu budujcego drzewo decyzyjne. Sugeruje to, e dostpny zbir przypadkw uczcych jest zbyt may, aby przy duych wartociach wspczynnika zaufania uzyska prawidowe reguy w drzewie decyzyjnym. Potwierdza si to w obserwacjach oceny wynikw systemu w pierwszych fazach eksperymentw, gdy baza przypadkw uczcych bya mniejsza. Ocena drzew tworzonych na podstawie maego zbioru przypadkw bya znacznie nisza. Minimalna liczba przypadkw w liciu 5 7 9 11 13 Wspczynnik zaufania 0.2 0.3 0.4 0.5 81.6% 81.8% 80.3% 80.5% 79.5% 81.1% 81.3% 80.1% 80.3% 80.5% 81.2% 80.9% 80.0% 80.1% 80.4% 80.9% 80.7% 80.0% 80.0% 80.4%
0.1 82.1% 81.8% 80.0% 79.5% 79.8%
0.6 79.2% 79.1% 79.5% 79.3% 80.2%
Tabela 6.6. Procent poprawnie klasykowanych instancji drzewa budowanego z rnymi wspczynnikami przycinania i liczby przypadkw w liciu, na podstawie rcznie ustalonego zestawu atrybutw.
6.3. Modu rozwizywania anafory

Ocen ostatecznego moduu rozwizywania anafory przedstawia tabelach 6.7 i 6.8. Pierwsza z nich przedstawia w wyniki uzyskane przy zastosowaniu rnych metod ujednoznaczniania odpowiedzi klasykatora tj. ustalania, ktre ze sw wskazanych przez
48
drzewo decyzyjne jest waciwym poprzednikiem anafory. Tabela 6.8 przedstawia ocen systemu przy zaoeniu, e poprawnym wynikiem jest wskazanie jedynie elementu gwnego frazy nominalnej. W tabeli tej umieszczono rwnie najlepsze wyniki, jakie mona by byo uzyska gdyby zastosowano idealne ujednoznacznianie. Tabela 6.8 przedstawia wyniki, w przypadku gdy jako poprawne traktuje rwnie wskazania innych sw zaznaczonych w korpusie jako poprzedniki anafory. W tej tabeli zaprezentowano wyniki uzyskane przy zastosowaniu ujednoznaczniania metod odlegociow. Metoda ujednoznaczniania metoda metoda metoda metoda odlegociowa minimalizacji bdu klasykatora koincydencji idealna Dokadno 47.8% 25.5% 43.0% 57.5% Kompletno 50.4% 31.5% 45.4% 60.6% F-miara 49.0% 28.2% 44.2% 59.0%
Tabela 6.7. Ocena moduu rozwizywania anafory dla rnych metod ujednoznaczniania.
Metoda ujednoznaczniania metoda odlegociowa
Dokadno 50.7%
Kompletno 53.5%
F-miara 52.1%
Tabela 6.8. Ocena moduu rozwizywania anafory dla odlegociowej metody ujednoznaczniania. Zaobserwowano najgorsz skuteczno przy uyciu metody bazujcej na bdzie klasykatora (F-miara rzdu 28.2).
6.4. Omwienie bdw

Wyniki systemu s obarczone duym bdem (ok 50%), co nie wydaje si dyskwalikowa zaproponowanej metody, zwaywszy na fakt, e przecitne wyniki systemw rozwizywania anafory zaimkowej dla jzyka angielskiego to precyzja i kompletno rzdu 65%. Trzeba zaznaczy, e niniejsza praca jest jedn z pierwszych, dotyczcych zagadnienia masynowego uczenia w rozwizywaniu anafory, a zbudowany system korzysta z dosy ubogiej bazy komponentw lingwistycznych (brak parsera, czy tezaurusa). Na ostateczny bd systemu skada si wiele skadowych, ktre zostay opisane w poniszych punktach. 6.4.1. Bdne anotacje w korpusie anafory Jak wspomniano, ze wzgldu na stosunkowo krtki czas prowadzenia eksperymentu tworzenia korpusu anafory, oraz ma liczb osb pracujcych nad wprowadzaniem
Rozdzia 6. Wyniki
49
anotacji, dokumenty byy oznaczane jednokrotnie i jako korpusu nie zostaa oceniona. Na podstawie bada opisanych w [44] naley przyj, e jedynie ok. 82% zaimkw jest poprawnie powizanych z wyraeniami anaforyzowanymi. Pewn ocen jakoci korpusu bya prba utworzenia drzewa decyzyjnego na podstawie caego zbioru przypadkw uczcych i ocenienienia go na tyche przypadkach (sekcja 6.2), ktra wykazaa may odsetek danych sprzecznych. 6.4.2. Bdy tagera Uyty tager osiga skuteczno rzdu 92,5%. Jest to stosunkowo dua skuteczno, jednak 7,5-procentowy bd mia znaczcy wpyw na wynik rozwizania niektrych anafor. Bdy tagera byy trojakiego rodzaju: 1. bdnie oznaczona klasa gramatyczna (w uproszczeniu: cz mowy) tokenu, 2. bdnie oznaczona kategoria gramatyczna (odmiana) tokenu, 3. bdnie okrelona forma podstawowa sowa. Pierwszy z nich powodowa wykluczenie niektrych oznaczonych anafor ze zbioru uczcego gdy wskazany przez uytkownika rzeczownik zosta rozpoznany przez tager jako inna klasa gramatyczna. Tager myli si zwaszcza przy rzadko uywanych sowach, przy okrelaniu klasy gramatycznej gdy wyraz by obcego pochodzenia (np. obce nazwy wasne), lub w przypadku takich sw jak np. zoty. Z drugiej strony, oznaczenie sowa niebdcego rzeczownikiem jako rzeczownik, powodowao nieuzasadnione rozpatrywanie go jako potencjalnego poprzednika anafory i mogo doprowadzi do ostatecznego, bdnego zwizania go z zaimkiem. Drugi rodzaj bdu, czyli bdnie okrelona kategoria gramatyczna sowa powodowao bdn ocen przez drzewo decyzyjne, poniewa wartoci kategorii gramatycznych byy jedynymi wskazwkami mwicymi o roli skadniowej analizowanych sw. Bdy te nie miay natomiast wpywu na kocowe ujednoznacznianie, czyli wybr jednego z poprzednikw wskazanych przez klasykator. Bdne okrelenie formy podstawowej miao wypyw na wyniki ujednoznaczniania na podstawie koincydencji z kontekstem semantycznym (punkt 5.6.2). Jeli ustalona przez tager forma podstawowa bya nieprawidowa (przykadowo: barbarzycw barbarzyniec), to zapytanie do programu Poliqarp (wyszukiwarki korpusu IPI-PAN) nie znajdowao, lub znajdowao bardzo mao zwrotw, w ktrych taka bdnie okrelona forma znajdowaa si w zadanym kontekcie semantycznym. 6.4.3. Bdy klasykacji Najwaniejszym etapem rozwizywania anafory byo ustalanie, czy midzy rozpatrywanym zaimkiem a rozpatrywanym rzeczownikiem istnieje relacja anafory. Poprawno klasykacji bya szczeglnie istotna, poniewa podczas rozwizywania jednej anafory konieczne byo wielokrotne uycie klasykatora, a sklasykowanie jednej pary
50
mogo spowodowa bdne zwizanie zaimka z anaforyzowanym wyraeniem. Oprcz opisanych wyej bdw tagera i bdw w korpusie anafory, najwikszy wpyw na duy (ok 18%) bd klasykatora miay: 1. maa liczba danych uczcych, 2. niemoliwo ustalenia cech, ktre dostarczaj wanej informacji podczas rozwizywania anafory (tj. cech skadniowych i semantycznych), 3. bedy w okrelaniu elementu gwnego frazy nominalnej. Znaczenie dwch pierwszych czynnikw moe zosta stosunkowo atwo zmarginalizowane poprzez zwikszenie liczby danych uczcych (oznaczenie kolejnych dokumentw z korpusu anafory), oraz skorzystanie z parsera i tezaurusa.1 Bdy w okrelaniu elementu gwnego frazy nominalnej powinny straci na znaczeniu jeli skorzysta si z parsera. Parser powinien dysponowa znacznie bardziej rozwinitymi mechanizmami ni opisana w punkcie 5.3 prosta heurystyka ustalania elementu gwnego, z drugiej strony znacznie atwiejsza jest klasykacja par typu (f razanominalna, zaimek) ni par (rzeczownik, zaimek), chociaby z tego wzgldu, e rzeczownikw w dokumencie jest znacznie wicej ni par nominalnych a wic prawdopodobiestwo dokonania jednej niepoprawnej klasykacji podczas rozwizywania jednej anafory jest wiksze, gdy rozpatruje si rzeczowniki, ni gdy rozpatruje si cae frazy. Z drugiej strony, rozwizanie anafor, w ktrych poprzednikiem jest fraza nominalna zawierajca wiele bytw (np. fraza: krl i krlowa), jest moliwe jedynie przy zastosowaniu parsera, ktry tak fraz wykryje. 6.4.4. Bdy ujednoznaczniania Jak pokazuj wyniki (tabela 6.7), sposb ujednoznaczniania mia duy wpyw na ostateczny wynik systemu. Opracowujc skuteczn metod ujednoznaczniania moliwe byo zwikszenie dokadnoci wynikw do 57,5% a kompletnoci do 60,6%. Jedyn metod ujednoznaczniania, na ktrej skuteczno miay wpyw bdy innych mechanizmw analizy tekstu, bya metoda oparta na koincydencji (punkt 5.6.2). Na pogorszenie jej skutecznoci, oprcz opisanych bdw tagera, miay wpyw midzy innymi: 1. bdy podczas wyznaczania kontekstu semantycznego zaimkw, 2. zbyt may zbir dokumentw w korpusie IPI-PAN, 3. problemy, gdy potencjalnym kandydatem na poprzednika by zaimek, Dokadno wyznaczania kontekstu gramatycznego zaimkw mona zwikszy, jednak wymaga to mudnego i czasochonnego rcznego poprawiania stworzonej heurystyki. Nie wydaj si, aby w systemie, wykorzystujcym techniki maszynowego uczenia,
1. W ramach projektu budowy systemu ekstrakcji informacji, na potrzeby ktrego stworzony zosta opisany w niniejszej pracy system rozwizywania anaofry, powstaje rwnie parser. Naley liczy, e w najbliszym czasie osignie on zadowalajc skuteczno. Jednoczenie trwaj prace nad stworzeniem polskiego WordNeta [6].
Rozdzia 6. Wyniki
51
rczne tworzenie regu byo waciw ciek rozwoju. Co wicej, ustalenie regu wyznaczania kontekstu semantycznego w skomplikowanych zdaniach, w ktrych wystpuj wtrcenia, jest zadaniem bardzo trudnym. Druga przyczyna niepowodze metody, wynikajca ze stosunkowo maej liczby dokumentw w korpusie IPI-PAN take nie jest prosta do wyeliminowania. Rozwizaniem pozostaje skorzystanie np. z komercyjnych ofert autorw systemu Google, ktre pozwalaj na wysyanie duej liczby zapyta do serwera w krtkim czasie, bez obawy, e zostan uruchomione systemy ochronne, ktre zablokuj dostp do wyszukiwarki. Trzeci problem pojawia si, gdy jednym ze wskazanych przez klasykator sw potencjalnych kandydatw na poprzednika anafory by zaimek. Prawie zawsze taki zaimek by najwyej oceniany spord wszystkich kandydatw przez metod koincydencji z kontekstem semantycznym, poniewa wystpie zaimka z czasownikami lub rzeczownikami z kontekstu semantycznego jest przewanie bardzo duo. Rozwamy problem rozwizania anafory dla przykadowego zdania z punku 5.3: Po 11 latach uprawiania taca mistrzowie przyznaj, e ich pasja nie zrodzia si z marzenia. Jeli jedym z kandydatw na poprzednika jest np. zaimek ona, to najprawdopodobniej zaimek ten zostanie wybrany, poniewa frazy typu jej pasja, jej pasji, jej pasj, ... wystpuj bardzo czsto w repozytorium tekstw, np. w korpusie IPI-PAN. Ten problem mona rozwiza rezygnujc z metody ujednoznaczniania w oparciu o koincydencj, w przypadku gdy jednym z potencjalnych poprzednikw anafory jest zaimek. Pomimo powyszych wad, metoda koincydencji wydaje si obiecujca. Szczeglnie ciekawe mogoby by zastosowanie jej na etapie wyznaczania cech przypadkw uczcych i uycie czstoci wystpowania rzeczownika w kontekcie jako jednej ze zmiennych w oparciu o ktr dziaa klasykator.
6.5. Podsumowanie
W ramach niniejszej pracy powsta jeden z pierwszych systemw rozwizywania anafory zaimkowej dla jzyka polskiego. System nie rozwizuje w peni problemu anafory zaimkowej rozpatruje jedynie anafor nominaln, nie uwzgldnia zaimkw nieanaforycznych jednak moe by podstaw bada nad budow w peni funkcjonalnego systemu. Przy uwzgldnieniu faktu, e system dziaa w oparciu o stosunkowo ma liczb danych (nie uyto w nim np. parsera) oraz faktu, e przy uczeniu systemu dysponowano ma baz przypadkw uczcych, wyniki uzyskiwane przez system mona uzna za obiecujce. W ramach pracy powsta rwnie pierwszy korpus anafory dla jzyka polskiego. Korpus jest may, lecz istnieje moliwo jego atwej rozbudowy, poniewa stworzony
zosta system wspierajcy oznaczanie dokumentw. System nie wymaga od osoby oznaczajcej instalacji adnego oprogramowania (jest to aplikacja webowa), pozwala wielu osobom pracowa z systemem w tym samym czasie i jest prosty w uyciu, a wic wymaga jedynie krtkiego przeszkolenia uytkownikw. Dokumenty mog oznacza osoby nie posiadajce fachowej wiedzy z zakresu informatyki czy lingwistyki. 6.5.1. Dalszy rozwj W sekcji Omwienie bdw (punkt 6.4) wskazane zostay moliwe metody wyeliminowania wikszoci bdw wystpujcych w caym procesie rozwizywania anafory. Najwaniejszym elementem caego systemu, od ktrego skutecznoci w najwikszym stopniu zaley jako ostatecznych wynikw, wydaje si by klasykator. Jego usprawnianie moe dotyczy dwch najwaniejszych aspektw: 1. dodanie nowych cech przypadkw uczcych, 2. dopasowanie parametrw uczenia. Pierwszy z nich zosta omwiony w punkcie 6.4.3 i opiera si na wykorzystaniu dodatkowych komponentw lingwistycznych (jak np. parser). Obserwacja wynikw oceny klasykatorw budowanych dla rnych zestaww atrybutw i rnych parametrw uczenia (przycinanie, minimalna liczba przypadkw w liciu) sugeruje, e dobr tych parametrw ma duy wpyw na jako wynikw. Jednak znajdowanie optymalnej konguracji algorytmu indukcji drzew jest zadaniem trudnym i czasochonnym. Jako wynikw powinna si poprawi gdy wykrywane bd zaimki nieanaforyczne. W korpusie koreferencji s zbierane dane o takich zaimkach, istnieje wic moliwo zastosowania mechanizmw maszynowego uczenia do rozwizywania tego zagadnienia. Wykrywanie zaimkw nieanaforycznych powinno znaczco wpyn na dokadno wynikw, jednak bardzo prawdopodobne jest pogorszenie kompletnoci bdy w wykrywaniu takich zaimkw mog spowodowa, e zaimki, ktre powinny by powizane z poprzednikiem, zostan uznane za nieanaforyczne. Dobre rezultaty moe rwnie przynie zastosowanie innego typu klasykatora, ni uyty w niniejszej pracy. Drzewo decyzyjne pomimo swojej czytelnoci nie sprawdza si dobrze przy analizie jakociowej danych liczbowych. Przykadowo, reguy zapisane w drzewie, opierajce si na wielkoci ktrego z atrybutw (np. pozycji poprzednika wzgldem pocztku zdania), zawsze sprawdzaj przynaleno wartoci atrybutu do pewnego zakresu. W przypadku minimalnego nawet przekroczenia zakresu, wynik klasykacja moe si cakowicie zmieni. Rozwizaniem tego problemu moe by zastosowanie systemw dziaajcych w oparciu o logik rozmyt (ang. fuzzy logic) [45], lub np. sztuczne sieci neuronowe (ang. neural networks).
NumberAgreement = true | IGender = n: false (173.0/12.0) | IGender != n | | Capitalic = unknown | | | JPrzypadek = gen: true (21.0/2.0) | | | JPrzypadek != gen | | | | TokenDistance <= 7.0: false (9.0/1.0) | | | | TokenDistance > 7.0: true (31.0/7.0) | | Capitalic != unknown | | | IPrzypadek = loc: false (100.0/15.0) | | | IPrzypadek != loc | | | | Distance <= 1.0 | | | | | IPrzypadek = dat: true (18.0/4.0) | | | | | IPrzypadek != dat | | | | | | IPrzypadek = inst | | | | | | | JGender = m1 | | | | | | | | Frequency <= 0.07: false (6.0) | | | | | | | | Frequency > 0.07: true (9.0/1.0) | | | | | | | JGender != m1: false (21.0/1.0) | | | | | | IPrzypadek != inst | | | | | | | IPrzypadek = gen | | | | | | | | IGender = m1 | | | | | | | | | JGender = m1 | | | | | | | | | | Frequency <= 0.08: true (23.0/2.0) | | | | | | | | | | Frequency > 0.08: false (13.0/5.0) | | | | | | | | | JGender != m1: false (25.0/7.0) | | | | | | | | IGender != m1 | | | | | | | | | JPrzypadek = dat: false (9.0) | | | | | | | | | JPrzypadek != dat | | | | | | | | | | Distance <= 0.0 | | | | | | | | | | | JGender = m3 | | | | | | | | | | | | Frequency <= 0.1: false (9.0/1.0) | | | | | | | | | | | | Frequency > 0.1: true (5.0/1.0) | | | | | | | | | | | JGender != m3 | | | | | | | | | | | | Frequency <= 0.06: false (30.0/10.0) | | | | | | | | | | | | Frequency > 0.06 | | | | | | | | | | | | | SentencePositionFromEnd <= 0.4: false (10.0/2.0) | | | | | | | | | | | | | SentencePositionFromEnd > 0.4: true (34.0/9.0) | | | | | | | | | | Distance > 0.0: false (76.0/16.0) | | | | | | | IPrzypadek != gen | | | | | | | | TokenDistance <= 3.0 | | | | | | | | | JPrzypadek = nom: true (6.0/2.0) | | | | | | | | | JPrzypadek != nom: false (34.0/7.0) | | | | | | | | TokenDistance > 3.0 | | | | | | | | | JPrzypadek = inst: true (14.0/3.0) | | | | | | | | | JPrzypadek != inst | | | | | | | | | | JGender = f | | | | | | | | | | | SentencePositionFromStart <= 0.17: true (15.0) | | | | | | | | | | | SentencePositionFromStart > 0.17 | | | | | | | | | | | | IGender = m3: false (5.0/1.0) | | | | | | | | | | | | IGender != m3 | | | | | | | | | | | | | SentencePositionFromStart <= 0.28: true (9.0/1.0) | | | | | | | | | | | | | SentencePositionFromStart > 0.28 | | | | | | | | | | | | | | Frequency <= 0.05: false (19.0/6.0) | | | | | | | | | | | | | | Frequency > 0.05: true (25.0/7.0) | | | | | | | | | | JGender != f | | | | | | | | | | | IGender = f: false (31.0/6.0) | | | | | | | | | | | IGender != f | | | | | | | | | | | | IPrzypadek = nom: true (63.0/21.0) | | | | | | | | | | | | IPrzypadek != nom | | | | | | | | | | | | | SentencePositionFromStart <= 0.42: true (8.0) | | | | | | | | | | | | | SentencePositionFromStart > 0.42: false (14.0/2.0) | | | | Distance > 1.0: false (255.0/41.0) NumberAgreement != true: false (547.0/29.0)
53 Rys. 6.2. Drzewo decyzyjne zbudowane na podstawie rcznie dobranego zestawu atrybutw.
Spis rysunkw
2.1 5.1 5.2 5.3 6.1 6.2 Diagram etapw przetwarzania tekstu . . . . . . . . . . . . . . . . . . . . . . . . Diagram przedstawiajcy struktur systemu do budowy korpusu anafory . . . . Przykadowy ekran dziaajcej aplikacji do tworzenia korpusu anafory . . . . . . Moduy systemu rozwizywania anafory . . . . . . . . . . . . . . . . . . . . . . . 9 27 28 39
Histogram liczby anafor nominalnych dla rnych odlegoci midzy zamikiem a elementem gwnym frazy nominalnej . . . . . . . . . . . . . . . . . . . . . . . . 44 Drzewo decyzyjne zbudowane na podstawie rcznie dobranego zestawu atrybutw. 53
55
Spis tablic
2.1 2.2 2.3 2.4 6.1 6.2 6.3 Byty zidentykowane w przykadowym tekcie . . . . . . Cechy wydobyte z przykadowego tekstu . . . . . . . . . Relacje midzy bytami wydobyte z przykadowego tekstu Zdarzenia opisane w przykadowym tekcie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7 8 8 9 43 45
6.4 6.5
6.6
6.7 6.8
Procentowy udzia zaimkw z korpusu w tworzeniu rnych rodzajw anafory . . Liczba przypadkw dla rnych odlegoci midzy zaimkiem a poprzednikiem anafory, wyraonych w licznie zda. . . . . . . . . . . . . . . . . . . . . . . . . . Procent poprawnie klasykowanych instancji drzewa budowanego z rnymi wspczynnikami przycinania i liczby przypadkw w liciu, na podstawie wszystkich atrybutw. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Zysk informacji dla kadego z atrybutw. . . . . . . . . . . . . . . . . . . . . . . Procent poprawnie klasykowanych instancji drzewa budowanego z rnymi wspczynnikami przycinania i liczby przypadkw w liciu, na podstawie atrybutw wybranych metod zysku informacji. . . . . . . . . . . . . . . . . . . Procent poprawnie klasykowanych instancji drzewa budowanego z rnymi wspczynnikami przycinania i liczby przypadkw w liciu, na podstawie rcznie ustalonego zestawu atrybutw. . . . . . . . . . . . . . . . . . . . . . . . . . . . . Ocena moduu rozwizywania anafory dla rnych metod ujednoznaczniania. . . Ocena moduu rozwizywania anafory dla odlegociowej metody ujednoznaczniania. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
46 46
47
47 48 48
57
Bibliograa
[1] Gate, a general architecture for text engineering. Available from: http://gate.ac.uk/. [2] Glossary of linguistic terms. Available from: http://www.sil.org/linguistics/ GlossaryOfLinguisticTerms/. [3] Internetowa encyklopedia imion. Available from: http://www.imiona.org/o. [4] Korpus ipi-pan. Available from: http://korpus.pl. [5] Korpus jzyka polskiego ipi pan. Instytucie Podstaw Informatyki PAN. Available from: http://korpus.pl/. [6] Polski wordnet. Available from: http://www.wordnet.z.pl/. [7] Weka machine learning project. Available from: http://www.cs.waikato.ac.nz/~ml/ index.html. [8] Wordnet. Available from: http://wordnet.princeton.edu/. [9] Message Understanding Conference MUC-7, 1998. [10] D. E. Appelt and D. J. Israel. Introduction to information extraction technology. Articial Intelligence Center SRI International, 1999. Available from: http://ranger.uta. edu/~alp/cse6331/ixtutorial.pdf. [11] A. Asudeh and M. Dalrymple. Binding theory. Technical report, Department of Linguistics, University of Canterbury and Linacre College, Oxford University, 2004. [12] M. Dimitrov. A light-weight approach to coreference resolution for named entities in text. Masters thesis, University of Soa t. Kliment Ohridski, 2002. [13] M. Dimitrov, K. Bontcheva, H. Cunningham, and D. Maynard. A light-weight approach to coreference resolution for named entities in text. DAARC, 2002.
59
[14] N. Fe, J. Hale, and E. Charniak. A statistical approach to anaphora resolution. Technical report, Dept. of Computer Science, Brown University. [15] R. Grzegorczykowa. Polskie leksemy z wbudowan informacj anaforyczn. In Anafora w strukturze tekstu, pages 7177. Konferencja Midzynarodowej Komisji Budowy Gramatycznej Jzykw Sowiaskich, Energia, 1994. [16] J. Hobbs. Resolving pronoun references. Lingua, 1978. [17] M. Johnson and E. Klein. Discourse, anaphora and parsing. [18] C. Kennedy and B. Boguraev. Anaphora for everyone: Pronominal anaphora resolution without a parser. In 16th International Conference on Computational Linguistics, 1996. [19] R. Kibble. Cb or not cb?: Centering theory applied to nlg. Association for Computational Linguistics, New Brunswick, New Jersey, The Relation of Discourse/Dialogue Structure and Reference, 1999. [20] I. Kononenko and S. Hong. Attribute selection for modeling. Future Generation Computer Systems, 1997. [21] S. Lappin and H. J. Leass. An algorithm for pronominal anaphora resolution. Computational Linguistics, 20(4), pages 535-561, 1994. [22] S. Lappin and M. McCord. A syntactic lter on pronominal anaphora for slot grammar 1989. [23] Message Understanding Conference MUC-6. Coreference task denition, 1995. [24] R. Mitkov. Robust anaphora resolution with limited knowledge. LING98/ACL98, 1998. In CO-
[25] R. Mitkov. Anaphora resolution: the state of the art. School of Languages and European Studies, University of Wolverhampton, Staord Street Wolverhampton WV1 1SB, 1999. [26] R. Mitkov. Anaphora resolution. Pearson Education, 2002. [27] R. Mitkov and C. Barbu. Evaluation tool for rule-based anaphora resolution methods. In ACL01, Toulouse, 2001. [28] C. Muller, S. Rapp, and M. Strube. Applying co-training to reference resolution, 2002. [29] V. Ng and C. Cardie. Improving machine learning approaches to coreference resolution, 2002. [30] M. Piasecki and G. Godlewski. Reductionistic, tree and rule based tagger for polish. In A. Mieczysaw, S. Kopotek, W. Trojanowski, and K. Trojanowski, editors, Intelligent Information Processing and Web Mining; Proceedings of the International IIS: IIPWM06 Conference held in Ustro, Poland, June 19-22, 2006., volume Advances in Soft Computing, Springer., 2006.
60
[31] K. Polaski, M. Jurkowski, S. Karolak, R. Laskowski, A. Lewicki, and Z. Saloni. Encyklopedia jzykoznawstwa oglnego. OSSOLINEUM, 1993. [32] J. Preiss. Choosing a parser for anaphora resolution. DAARC, 2002. [33] A. Przepirkowski. Korpus IPI PAN. Wersja wstpna. Instytut Podstaw Informatyki, Polska Akademia Nauk, Warszawa, 2004. [34] J. R. Quinlan. C4.5: Programs For Machine Learning. 1993. [35] G. Salton, E. A. Fox, and H. Wu. Extended boolean information retrieval. ACM, 26(11), 1983. [36] C. L. Sidner. Towards a computational theory of denite anaphora comprehension in english discourse. Massachusetts Institute of Technology, 1979. [37] W. M. Soon, H. Ng, and D. Lim. A machine learning approach to coreference resolution of noun phrases. Computational Linguistics, 2001. [38] M. Strube and C. Muller. A machine learning approach to pronoun resolution in spoken dialogue. In 41st Annual Meeting on Association for Computational Linguistics - Volume 1, 2003. [39] R. Stuckardt. Design and enhanced evaluation of a robust anaphor resolution algorithm. Computational Linguistics 27(4), 2001. [40] M. Szymczak, editor. Sownik Jzyk a Polskiego. PWN, 1947. [41] Z. Topoliska. Skadnia grupy imiennej. Skadnia, 1984. [42] S. Urbaczyk. Encyklopedia wiedzy o jzyku polskim. Ossolineum, 1978. [43] M. A. Walker. Centering, anaphora resolution, and discourse structure. Technical report, ATT Labs Research, 1997. [44] C. A. Will. Comparing human and machine performance for natural language information extraction. Technical report, Institute for Defense Analyses Computer and Software Engineering Division, 1993. [45] L. A. Zadeh. Decision-making in a fuzzy environment. Management Science 17, 1970.
61

Thesis

Uploaded by

Document Information

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Thesis

Uploaded by

Copyright:

Available Formats

ii

Wydzia Informatyki i Zarzdzania kierunek studiw: Informatyka

Praca dyplomowa - magisterska

Zastosowanie metod automatycznego uczenia do rozstrzygania problemu anafory

sowa kluczowe: pierwsze drugie trzecie

A Niniejszy dokument zosta zoony w systemie L TEX.

5.2. 5.3. 5.4. 5.5. 5.6.

5.7. 5.8. 5.9.

Spis rysunkw . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Spis tablic . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Bibliograa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

Zastosowanie metod automatycznego uczenia do rozstrzygania problemu anafory

Systemy ekstrakcji informacji

2.1. Systemy do wyszukiwania informacji (ang. Information Retrieval)

Zastosowanie metod automatycznego uczenia do rozstrzygania problemu anafory

2.2. Systemy do ekstrakcji informacji

Rozdzia 2. Systemy ekstrakcji informacji

Tabela 2.1. Byty zidentykowane w przykadowym tekcie

2. Ze strony: http://www-nlpir.nist.gov/related projects/muc/index.html

Zastosowanie metod automatycznego uczenia do rozstrzygania problemu anafory

Nazwa bytu Fletcher Maddox

Oliver La Jolla Ambrose

Tabela 2.3. Relacje midzy bytami wydobyte z przykadowego tekstu

Rozdzia 2. Systemy ekstrakcji informacji

Rodzaj zdarzenia Utworzenie przedsibiorstwa

Tabela 2.4. Zdarzenia opisane w przykadowym tekcie

Rys. 2.1. Diagram etapw przetwarzania tekstu

Zastosowanie metod automatycznego uczenia do rozstrzygania problemu anafory

2.3. Sposoby oceniania systemw ekstrakcji informacji

Rozdzia 2. Systemy ekstrakcji informacji

3.1. Formalna denicja anafory

Zastosowanie metod automatycznego uczenia do rozstrzygania problemu anafory

3.2. Rodzaje anafory

3.3. Techniki anaforyzacyjne

Zastosowanie metod automatycznego uczenia do rozstrzygania problemu anafory

3.4. Zadanie rozwizania anafory i koreferencji

Zastosowanie metod automatycznego uczenia do rozstrzygania problemu anafory

Metody rozwizywania koreferencji

4.1. Metody oparte na inynierii wiedzy

Zastosowanie metod automatycznego uczenia do rozstrzygania problemu anafory

4.2. Metody heurystyczne

Rozdzia 4. Metody rozwizywania koreferencji

4.3. Metody oparte na automatycznym uczeniu si

Zastosowanie metod automatycznego uczenia do rozstrzygania problemu anafory

Rozdzia 4. Metody rozwizywania koreferencji

5.1. Pozyskanie danych uczcych systemu do budowy korpusu anafory

Zastosowanie metod automatycznego uczenia do rozstrzygania problemu anafory

Rys. 5.1. Diagram przedstawiajcy struktur systemu do budowy korpusu anafory

Zastosowanie metod automatycznego uczenia do rozstrzygania problemu anafory

Rys. 5.2. Przykadowy ekran dziaajcej aplikacji do tworzenia korpusu anafory

Zastosowanie metod automatycznego uczenia do rozstrzygania problemu anafory

5.2. Analiza morfo-syntaktyczna

5.3. Tworzenie bazy przypadkw uczcych

Zastosowanie metod automatycznego uczenia do rozstrzygania problemu anafory

5.4. Generowanie wektorw uczcych

Zastosowanie metod automatycznego uczenia do rozstrzygania problemu anafory

5.5. Stworzenie klasykatora rozstrzygajcego anafor

Zastosowanie metod automatycznego uczenia do rozstrzygania problemu anafory

5.6. Zbudowanie moduu rozwizujcego anafor

Zastosowanie metod automatycznego uczenia do rozstrzygania problemu anafory

count(antecedentf orm , contextf orm ) f orm count(antecedentf orm )

gdzie: freq czsto wystpowania wyrazu w danym kontekcie,

Rys. 5.3. Moduy systemu rozwizywania anafory

5.7. Architektura systemu

Zastosowanie metod automatycznego uczenia do rozstrzygania problemu anafory

5.8. Ocena moduu