morfosyntaktycznych (std nazwa) sucych do znakowania morfosyntaktycznego i syntezy gramatycznej. LICENCJA Dane pochodz ze sownika alternatywnego ze strony kurnik.pl/slownik i s licencjonowane na licencji (m.in.) LGPL lub Creative Commons ShareAlike. Morfologik ma rwnie licencj LGPL lub (do wyboru) Creative Commons ShareAlike. PLIKI 1. morfologik.txt to plik tekstowy z polami rozdzielanymi tabulatorem, o nastpujcym formacie: forma-odmienionaHTforma-podstawowaHTznaczniki gdzie HT oznacza tabulator poziomy. 2. polish.dict to binarny plik sownika dla programu fsa_morph Jana Daciuka (zob. http://www.eti.pg.gda.pl/katedry/kiw/pracownicy/Jan.Daciuk/personal/fsa.ht ml), wykorzystywany rwnie bezporednio przez korektor gramatyczny LanguageTool. 3. polish_synth.dict to binarny plik sownika syntezy gramatycznej, uywany w fsa_morph i LanguageTool. Aby uzyska form odmienion, naley uywa nastpujcej skadni w zapytaniu programu fsa_morph: <wyraz>|<znacznik> Na przykad: niemiecki|adjp daje "niemiecku+". 4. polish.info i polish_synth.info - pliki wymagane do uycia plikw binarnych w bibliotece morfologik-stemming. Do wykonania skryptw rdowych s potrzebne nastpujce pliki: Plik: odm.txt - aktualny sownik z witryny www.kurnik.pl/slownik (sownik odmian) Strona: http://www.kurnik.pl/slownik/odmiany/ Pobieranie: http://www.kurnik.org/dictionary/odm/alt-odm-<data>.tar.gz Plik: polish.all - ze sownika alternatywnego Strona: http://www.kurnik.pl/slownik/ort/ Pobieranie: http://www.kurnik.org/dictionary/alt-ispell-pl-src.tar.bz2 Plik : pl_PL.aff (plik afiksw) Strona: http://www.kurnik.pl/slownik/ort/ Pobieranie: http://www.kurnik.org/dictionary/alt-myspell-pl.tar.bz2 Naley te ze strony http://www.eti.pg.gda.pl/katedry/kiw/pracownicy/Jan.Daciuk/pers onal/fsa_polski.html Pobra ftp://ftp.pg.gda.pl/pub/software/xtras-PG/fsa/fsa_current.tar.gz i zbudowa * fsa_build Z tego pakietu wykorzystany bedzie skrypt *morph_infix.awk*. W pliku Makefile naley sprawdzi, czy cieka do pliku jest prawidowa. ZNACZNIKI MORFOSYNTAKTYCZNE Zestaw znacznikw jest zbliony do zestawu korpusu IPI (www.korpus.pl). * adj - przymiotnik (np. "niemiecki") * adjp - przymiotnik poprzyimkowy (np. "niemiecku") * adv - przyswek (np. "gupio") * conj - spjnik * ign - ignorowana cz mowy * num - liczebnik * pact - imiesw przymiotnikowy czynny * pant - imiesw przyswkowy uprzedni * pcon - imiesw przyswkowy wspczesny * ppas - imiesw przymiotnikowy bierny * ppron12 - zaimek nietrzecioosobowy * ppron3 - zaimek trzecioosobowy * pred - predykatyw (np. "trzeba") * prep - przyimek * siebie - zaimek "siebie" * subst - rzeczownik * verb - czasownik Atrybuty podstawowych form: * sg - liczba pojedyncza * pl - liczba mnoga * irreg - forma nieregularna (nierozpoznana dokadniej pod wzgldem wartoci atryb utw, np. subst:irreg) * nom - mianownik * gen - dopeniacz * acc - biernik * dat - celownik * inst - narzdnik * loc - miejscownik * voc - woacz * pos - stopie rwny * comp - stopie wyszy * sup - stopie najwyszy * m (a take, w sposb nie do koca uporzdkowany, m1... m3) - rodzaj mski * n - rodzaj nijaki * f - rodzaj eski * pri - pierwsza osoba * sec - druga osoba * tri - trzecia osoba * depr - forma deprecjatywna * aff - forma niezanegowana * neg - forma zanegowana * refl - forma zwrotna czasownika [nie wystpuje w znacznikach IPI] * perf - czasownik dokonany * imperf - czasownik niedokonany * imperf.perf - czasownik, ktry moe wystpowa zarwno jako dokonany, jak i jako nie dokonany * nakc - forma nieakcentowana zaimka * akc - forma akcentowana zaimka * praep - forma poprzyimkowa * npraep - forma niepoprzyimkowa * ger - rzeczownik odsowny * imps - forma bezosobowa * impt - tryb rozkazujcy * inf - bezokolicznik * fin - forma nieprzesza * bedzie - forma przysza "by" * praet - forma przesza czasownika (pseudoimiesw) * pot - tryb przypuszczajcy [nie wystpuje w znacznikach IPI] * nstd - forma niestandardowa, np. archaiczna [nie wystpuje w znacznikach IPI] W znacznikach Morfologika nie wystpuje i nie bdzie wystpowa znacznik aglt, a to ze wzgldu na inn zasad segmentacji wyrazw (zasady IPI utrudniayby w ogromnym stopniu realizacj wielu zasad poprawnej pisowni cznej i rozcznej, gdy stosowana w korpusie IPI segmentacja nie pokrywaa si z granic wyrazu definiowan przez spacj lub znak przestankowy). Morfologik, (c) 2007-2010 Marcin Mikowski.