You are on page 1of 21

Ekstrakcja informacji o zdarzeniach z tekstw dziedzinowych

mgr in. Micha Marciczuk opiekun naukowy prof. Zbigniew Huzar


Instytut Informatyki Stosowanej Politechnika Wrocawska

17 czerwca 2008

Plan prezentacji

Ekstrakcja informacji (EI) Zarys problemu Istniejce rozwizania i ich ograniczenia Cel i zadania Zakoczenie

mgr in. Micha Marciczuk (PWr., IIS)

17 czerwca 2008

2 / 14

Ekstrakcja informacji (EI)

Denicje (1/2)
Ekstrakcja informacji jest to automatyczna identykacja wybranych typw bytw, relacji i zdarze w tekcie [Grishman 2003]. Identykacja instancji bytw jest rozumiana jako identykacja fragmentw tekstu reprezentujcych znane typy bytw.
Np.: osoby (imiona i/lub nazwiska), rmy (nazwy), lokalizacje (nazwy miast, ulic), wyraenia okrelajcze czas, itp.

Identykacja instancji relacji jest rozumiana jako identykacja instancji bytw, powizanych znanym typem relacji, ktrej wystpienie opisane jest w tekcie.
Np.: Zarzd Pol-Mot Warfama SA z siedzib w Krakowie poinformowa o zwoaniu Walnego Zgromadzanie Akcjonariuszy na dzie 20 stycze 2006.

mgr in. Micha Marciczuk (PWr., IIS)

17 czerwca 2008

3 / 14

Ekstrakcja informacji (EI)

Denicje (1/2)
Ekstrakcja informacji jest to automatyczna identykacja wybranych typw bytw, relacji i zdarze w tekcie [Grishman 2003]. Identykacja instancji bytw jest rozumiana jako identykacja fragmentw tekstu reprezentujcych znane typy bytw.
Np.: osoby (imiona i/lub nazwiska), rmy (nazwy), lokalizacje (nazwy miast, ulic), wyraenia okrelajcze czas, itp.

Identykacja instancji relacji jest rozumiana jako identykacja instancji bytw, powizanych znanym typem relacji, ktrej wystpienie opisane jest w tekcie.
Np.: Zarzd Pol-Mot Warfama SA z siedzib w Krakowie poinformowa o zwoaniu Walnego Zgromadzanie Akcjonariuszy na dzie 20 stycze 2006.

mgr in. Micha Marciczuk (PWr., IIS)

17 czerwca 2008

3 / 14

Ekstrakcja informacji (EI)

Denicje (1/2)
Ekstrakcja informacji jest to automatyczna identykacja wybranych typw bytw, relacji i zdarze w tekcie [Grishman 2003]. Identykacja instancji bytw jest rozumiana jako identykacja fragmentw tekstu reprezentujcych znane typy bytw.
Np.: osoby (imiona i/lub nazwiska), rmy (nazwy), lokalizacje (nazwy miast, ulic), wyraenia okrelajcze czas, itp.

Identykacja instancji relacji jest rozumiana jako identykacja instancji bytw, powizanych znanym typem relacji, ktrej wystpienie opisane jest w tekcie.
Np.: Zarzd Pol-Mot Warfama SA z siedzib w Krakowie poinformowa o zwoaniu Walnego Zgromadzanie Akcjonariuszy na dzie 20 stycze 2006.

mgr in. Micha Marciczuk (PWr., IIS)

17 czerwca 2008

3 / 14

Ekstrakcja informacji (EI)

Denicje (2/2)
Identykacja instancji zdarze jest rozumiana jako identykacja instancji bytw, midzy ktrymi zaszy zmiany relacji bdcych instancjami znanych typw relacji (powstanie lub zanik relacji midzy bytami) oraz atrybuty tych zmian opisane w tekcie.
Np.: 10 stycznia 2006 siedziba Pol-Mot Warfama SA zostaa przeniesiona z Krakowa do Warszawy.
10stycznia2006
<FIRMA> <FIRMA>

PolMotWarfamaSA

PolMotWarfamaSA

<LOKALIZACJA>

<LOKALIZACJA>

<LOKALIZACJA>

<LOKALIZACJA>

Krakw

Warszawa

Krakw

Warszawa

mgr in. Micha Marciczuk (PWr., IIS)

17 czerwca 2008

4 / 14

Ekstrakcja informacji (EI)

System Ekstrakcji Informacji


Definicjazadania ekstrakcjiinformacji

Kolekcja tekstw dziedzinowych

System Ekstrakcji Informacji

Byty,relacje izdarzenia

Zasobyjzykowe
mgr in. Micha Marciczuk (PWr., IIS) 17 czerwca 2008 5 / 14

Ekstrakcja informacji (EI)

Przykad ekstrakcji informacji


Rozwizanieumowy
ZarzdF.K.``POLLENAEWA``S.A.podajedo publicznejwiadomociinformacj,iwdniu21 marca 2008 roku zostaa podpisana z ING Bank lski S.A. z siedzib w Katowicach umowarozwizujcaumowkredytowzdnia 14 lipca 2003 roku wraz z pniejszymi zmianami,namocyktrejINGBanklskiS.A. udzieli emitentowi kredytu w wysokoci 2.000.000PLN. Umowakredytowazostaarozwizanazdniem 21marca2008r. (...)
Kto:
F.K.``POLLENAEWA``S.A.
System Ekstrakcji Informacji

Rozwizanieumowy

Zkim:

INGBanklskiS.A.
Kiedy:

21marca2008
Przedmiot:

kredyt2.000.000PLN

mgr in. Micha Marciczuk (PWr., IIS)

17 czerwca 2008

6 / 14

Ekstrakcja informacji (EI)

Wzorce ekstrakcji informacji


Wzorce s to wyraenia w pewnym jzyku formalnym, ktre identykuj pewne fragmenty tekstu, wydzielaj pewne wyraenia skadniowe i przypisuj im pewn interpretacj w odniesieniu do zadania ekstrakcji informacji. Przykad prostego wzorca zapisanego jako wyraenie regularne: ([A-Z].*(\w[A-Za-z-].*)*\wSA)\wz\wsiedzib\ww\w([A-Z][a-z]*)
rma lokalizacja

Wynik dopasowania: Zarzd Pol-Mot Warfama SA z siedzib w Krakowie poinformowa o zwoaniu Walnego Zgromadzenia Akcjonariuszy (...).
17 czerwca 2008 7 / 14

mgr in. Micha Marciczuk (PWr., IIS)

Ekstrakcja informacji (EI)

Wzorce ekstrakcji informacji


Wzorce s to wyraenia w pewnym jzyku formalnym, ktre identykuj pewne fragmenty tekstu, wydzielaj pewne wyraenia skadniowe i przypisuj im pewn interpretacj w odniesieniu do zadania ekstrakcji informacji. Przykad prostego wzorca zapisanego jako wyraenie regularne: ([A-Z].*(\w[A-Za-z-].*)*\wSA)\wz\wsiedzib\ww\w([A-Z][a-z]*)
rma lokalizacja

Wynik dopasowania: Zarzd Pol-Mot Warfama SA z siedzib w Krakowie poinformowa o zwoaniu Walnego Zgromadzenia Akcjonariuszy (...).
17 czerwca 2008 7 / 14

mgr in. Micha Marciczuk (PWr., IIS)

Ekstrakcja informacji (EI)

Wzorce ekstrakcji informacji


Wzorce s to wyraenia w pewnym jzyku formalnym, ktre identykuj pewne fragmenty tekstu, wydzielaj pewne wyraenia skadniowe i przypisuj im pewn interpretacj w odniesieniu do zadania ekstrakcji informacji. Przykad prostego wzorca zapisanego jako wyraenie regularne: ([A-Z].*(\w[A-Za-z-].*)*\wSA)\wz\wsiedzib\ww\w([A-Z][a-z]*)
rma lokalizacja

Wynik dopasowania: Zarzd Pol-Mot Warfama SA z siedzib w Krakowie poinformowa o zwoaniu Walnego Zgromadzenia Akcjonariuszy (...).
17 czerwca 2008 7 / 14

mgr in. Micha Marciczuk (PWr., IIS)

Zarys problemu

Kontekst problemu
Dziedzina spek giedowych: emitenci papierw wartociowych zobowizani s do publikowania informacji o 24 rodzajach zdarze [Dz.U.05.209.1744], ponad 400 spek na giedzie, ok. 2000 raportw publikowanych miesicznie w postaci elektronicznej (ok. 65 dziennie), moliwo wykorzystania informacji z raportw giedowych do ledzenia istotnych zdarze na giedzie, a take do prowadzenia analiz nansowych spek giedowych system bdzie rozwijamy w ramach grantu realizowanego w instytucie IIS. W jaki sposb pozyska du liczb wzorcw na potrzeby ekstrakcji informacji z danej dziedziny?
mgr in. Micha Marciczuk (PWr., IIS) 17 czerwca 2008 8 / 14

Istniejce rozwizania i ich ograniczenia

Istniejce prace
dla j. polskiego
od 2003 w IPI PAN (Kup 2004, Piskorski 2004, Marciniak, Mykowiecka), rcznie tworzone gramatyki,

dla j. angielskiego
od ok. 20 lat m.in. E. Rilo (1993-2007), Sudo, Yakushiji, rczne i automatyczne metody tworzenia wzorcw, problem prostszy ni dla j. polskiego, poniewa:
istnieje skuteczna powierzchniowa analiza skadniowa i rozpoznawanie bytw nazwanych, jzyk pozycyjny.

pomimo wielu prac nad ekstrakcj informacji dla wielu dziedzin i zada, nowe dziedziny nadal wymagaj duych nakadw pracy.
mgr in. Micha Marciczuk (PWr., IIS) 17 czerwca 2008 9 / 14

Istniejce rozwizania i ich ograniczenia

Ograniczenia istniejcych metod


problem z wyodrbnieniem penych fraz rzeczownikowych
powierzchniowa i pena analiza skadniowa dla j. polskiego jest na wstpnym etapie rozwoju, brak uniwersalnych narzdzi do rozpoznawania bytw nazwanych,

wzorce pozycyjne stosowane dla j. angielskiego s niewystarczajce ze wzgldu na dowolny szyk zdania w j.polskim Sd rozwiza spk. Spk rozwiza sd. rczne tworzenie wzorcw jest czasochonne oraz wymaga zarwno wiedzy dziedzinowej jak i lingwistycznej.
mgr in. Micha Marciczuk (PWr., IIS) 17 czerwca 2008 10 / 14

Cel i zadania

Cel
Opracowanie metody uczenia nadzorowanego do pozyskiwania wzorcw na potrzeby ekstrakcji informacji o zdarzeniach z tekstw dziedzinowych.
System Ekstrakcji Informacji

Ontologiadziedzinowa i opiszadania ekstrakcjiinformacji

Zbirdanych uczcych

Metoda automatycznego pozyskiwania wzorcw

Wzorce ekstrakcji informacji

mgr in. Micha Marciczuk (PWr., IIS)

17 czerwca 2008

11 / 14

Cel i zadania

Ocena metody
Kolekcja dokumentw
raporty z dziedziny giedowej, raporty s dostpne publiczne w formie elektronicznej, wymagany jest zbir dokumentw rcznie oznakowanych,
cz zbioru do automatycznego pozyskania wzorcw, pozostaa cz do oceny wzorcw,

Sposb oceny
miary jakoci
precyzja stosunek poprawnie wydobytych informacji do wszystkich wydobytych informacji, kompletno stosunek poprawnie wydobytych informacji do wszystkich interesujcych informacji w tekcie,

skuteczno rozpoznawania bytw, relacji i zdarze. celem bdzie osignicie skutecznoci nie gorszej ni zgodno niezalenych anotatorw w rcznej ekstrakcji informacji.
mgr in. Micha Marciczuk (PWr., IIS) 17 czerwca 2008 12 / 14

Cel i zadania

Zadania
1 2 3

Przygotowanie zbioru danych dla dziedziny giedowej. Stworzenie ontologii dla dziedziny giedowej. Sformuowanie zadania ekstrakcji informacji z raportw giedowych. Rczne oznakowanie zbioru danych testowych przez niezalenych anotatorw w celu ustalenia poziomu zgodnoci oznacze przez ludzi. Opracowanie metody uczenia nadzorowanego do pozyskiwania wzorcw ekstrakcji informacji. Testowanie i ocena metody ekstrakcji informacji dla dziedziny giedowej. Ocena moliwoci ekstrakcji informacji dla innych dziedzin.
17 czerwca 2008 13 / 14

mgr in. Micha Marciczuk (PWr., IIS)

Zakoczenie

Podsumowanie
1

Problem ekstrakcji informacji z tekstu nie jest zadaniem nowym, pomimo to jest jeszcze duo do zrobienia w tej dziedzinie. Narzdzia pomocnicze dla j. polskiego s na wczesnym etapie rozwoju
analiza skadniowa tekstu, rozpoznawanie bytw nazwanych.

3 4

Rczna konstrukcja jest kosztowna i czasochonne. Metody automatycznego pozyskiwania wzorcw stworzone dla j. angielskiego nie s zadowalajce dla j. polskiego. Propozycja opracowania metody uczenia nadzorowanego do pozyskiwania wzorcw na potrzeby ekstrakcji informacji dla j. polskiego.
17 czerwca 2008 14 / 14

mgr in. Micha Marciczuk (PWr., IIS)

Zakoczenie

Bibliograa
R. Grishman The Oxford Handbook of Computational Linguistic. Oxford University Press, 2003. The Message Understanding Conference (MUC)web page http://www-nlpir.nist.gov/related projects/muc. A. Kup, A. Marciniak, A. Mykowiecka, J. Piskorski, and T. Podsiady-Marczykowski. Information extraction from mammographic reports. In KONVENS 2004, Osterischeen Gesellschaft fur Articial Intelligence, pages 113-116, 2004. Rozporzdzenie ministra nansw z dnia 19 padziernika 2005r. w sprawie informacji biecych i okresowych przekazywanych przez emitentw papierw wartociowych, Dziennik Ustaw z 2005 r. Nr 209 poz. 1744, http://www.abc.com.pl/serwis/du/2005/1744.htm. Marciczuk Micha, Piasecki Maciej. Pattern Extraction for Event Recognition in the Reports of Polish Stockholders. Proceedings of the International Multiconference on Computer Science and Information Technology - 2nd International Symposium Advances in Articial Intelligence and Applications (AAIA07), 2007, 275-284 A. Buczyski and A. Przepirkowski. Demo: An Open Source Tool for Partial Parsing and Morphosyntactic Disambiguation. In Proceedings of LREC 2008. M. Piasecki, G. Godlewski Reductionistic, Tree and Rule Based Tagger for Polish. Intelligent Information Processing and Web Mining. Mieczysaw A. Kopotek, Sawomir Wierzcho, Krzysztof Trojanowski (eds). Berlin: Springer, cop. 2005 (Advances in Soft Computing, ISSN 1615-3871) s. 531-540 Proceedings of International IIS: IIPWM 06 Conference. Ustro, June 19-22, 2006.

Dodatki

Teza

Dysoponujc wiedz ogln w postaci Sowosieci, wiedz dziedzinow w postaci ontologii oraz zbiorem przykadowych, rcznie oznakowanych dokumentw dla danego zadania ekstrakcji informacji moliwe jest wygenerowanie uoglnionych wzorcw na potrzeby tego zadania ekstrakcji informacji.

Dodatki

Gramatyka systemu SProUT

Gramatyka ropoznajca numer ksigi i opcjonalnie rok:


nr ksiegi :> (token & [SURFACE "nr"] | morph & [STEM "numer"] | token & [SURFACE "Nr"]) token ? morph & [STEM "ksiga"] morph & [STEM "gwny"] @seek(liczba nat) & [LICZ #nr] ((token & [TYPE slash] | token & [TYPE back slash]) @seek (liczba nat) & [LICZ #nr1])? ->id str & [ID #nr, ID YEAR #nr1, CONT no].

You might also like