You are on page 1of 3

INFORMACJA

Morfologik to projekt tworzenia polskich sownikw


morfosyntaktycznych (std nazwa) sucych do znakowania
morfosyntaktycznego i syntezy gramatycznej.
LICENCJA
Dane pochodz ze sownika alternatywnego ze strony
kurnik.pl/slownik i s licencjonowane na licencji (m.in.) LGPL lub
Creative Commons ShareAlike.
Morfologik ma rwnie licencj LGPL lub (do wyboru) Creative Commons ShareAlike.
PLIKI
1. morfologik.txt to plik tekstowy z polami rozdzielanymi tabulatorem,
o nastpujcym formacie:
forma-odmienionaHTforma-podstawowaHTznaczniki
gdzie HT oznacza tabulator poziomy.
2. polish.dict to binarny plik sownika dla programu fsa_morph Jana Daciuka
(zob. http://www.eti.pg.gda.pl/katedry/kiw/pracownicy/Jan.Daciuk/personal/fsa.ht
ml),
wykorzystywany rwnie bezporednio przez korektor gramatyczny LanguageTool.
3. polish_synth.dict to binarny plik sownika syntezy gramatycznej,
uywany w fsa_morph i LanguageTool. Aby uzyska form odmienion,
naley uywa nastpujcej skadni w zapytaniu programu fsa_morph:
<wyraz>|<znacznik>
Na przykad:
niemiecki|adjp
daje "niemiecku+".
4. polish.info i polish_synth.info - pliki wymagane do uycia plikw
binarnych w bibliotece morfologik-stemming.
Do wykonania skryptw rdowych s potrzebne nastpujce pliki:
Plik: odm.txt - aktualny sownik z witryny www.kurnik.pl/slownik (sownik odmian)
Strona: http://www.kurnik.pl/slownik/odmiany/
Pobieranie: http://www.kurnik.org/dictionary/odm/alt-odm-<data>.tar.gz
Plik: polish.all - ze sownika alternatywnego
Strona: http://www.kurnik.pl/slownik/ort/
Pobieranie: http://www.kurnik.org/dictionary/alt-ispell-pl-src.tar.bz2
Plik : pl_PL.aff (plik afiksw)
Strona: http://www.kurnik.pl/slownik/ort/
Pobieranie: http://www.kurnik.org/dictionary/alt-myspell-pl.tar.bz2
Naley te ze strony http://www.eti.pg.gda.pl/katedry/kiw/pracownicy/Jan.Daciuk/pers
onal/fsa_polski.html
Pobra ftp://ftp.pg.gda.pl/pub/software/xtras-PG/fsa/fsa_current.tar.gz i zbudowa *
fsa_build
Z tego pakietu wykorzystany bedzie skrypt *morph_infix.awk*.
W pliku Makefile naley sprawdzi, czy cieka do pliku jest prawidowa.
ZNACZNIKI MORFOSYNTAKTYCZNE
Zestaw znacznikw jest zbliony do zestawu korpusu IPI (www.korpus.pl).
* adj - przymiotnik (np. "niemiecki")
* adjp - przymiotnik poprzyimkowy (np. "niemiecku")
* adv - przyswek (np. "gupio")
* conj - spjnik
* ign - ignorowana cz mowy
* num - liczebnik
* pact - imiesw przymiotnikowy czynny
* pant - imiesw przyswkowy uprzedni
* pcon - imiesw przyswkowy wspczesny
* ppas - imiesw przymiotnikowy bierny
* ppron12 - zaimek nietrzecioosobowy
* ppron3 - zaimek trzecioosobowy
* pred - predykatyw (np. "trzeba")
* prep - przyimek
* siebie - zaimek "siebie"
* subst - rzeczownik
* verb - czasownik
Atrybuty podstawowych form:
* sg - liczba pojedyncza
* pl - liczba mnoga
* irreg - forma nieregularna (nierozpoznana dokadniej pod wzgldem wartoci atryb
utw, np. subst:irreg)
* nom - mianownik
* gen - dopeniacz
* acc - biernik
* dat - celownik
* inst - narzdnik
* loc - miejscownik
* voc - woacz
* pos - stopie rwny
* comp - stopie wyszy
* sup - stopie najwyszy
* m (a take, w sposb nie do koca uporzdkowany, m1... m3) - rodzaj mski
* n - rodzaj nijaki
* f - rodzaj eski
* pri - pierwsza osoba
* sec - druga osoba
* tri - trzecia osoba
* depr - forma deprecjatywna
* aff - forma niezanegowana
* neg - forma zanegowana
* refl - forma zwrotna czasownika [nie wystpuje w znacznikach IPI]
* perf - czasownik dokonany
* imperf - czasownik niedokonany
* imperf.perf - czasownik, ktry moe wystpowa zarwno jako dokonany, jak i jako nie
dokonany
* nakc - forma nieakcentowana zaimka
* akc - forma akcentowana zaimka
* praep - forma poprzyimkowa
* npraep - forma niepoprzyimkowa
* ger - rzeczownik odsowny
* imps - forma bezosobowa
* impt - tryb rozkazujcy
* inf - bezokolicznik
* fin - forma nieprzesza
* bedzie - forma przysza "by"
* praet - forma przesza czasownika (pseudoimiesw)
* pot - tryb przypuszczajcy [nie wystpuje w znacznikach IPI]
* nstd - forma niestandardowa, np. archaiczna [nie wystpuje w znacznikach
IPI]
W znacznikach Morfologika nie wystpuje i nie bdzie wystpowa
znacznik aglt, a to ze wzgldu na inn zasad segmentacji wyrazw
(zasady IPI utrudniayby w ogromnym stopniu realizacj wielu zasad
poprawnej pisowni cznej i rozcznej, gdy stosowana w korpusie IPI
segmentacja nie pokrywaa si z granic wyrazu definiowan przez spacj
lub znak przestankowy).
Morfologik, (c) 2007-2010 Marcin Mikowski.

You might also like