You are on page 1of 4

Maciej Piasecki

Centrum Informatyczne Politechniki Wrocawskiej

Automatyczne modelowanie semantyki zda twierdzcych jzyka polskiego.


Mimo i, oficjalnie pracuj naukowo dopiero od roku, z przetwarzaniem jzyka
naturalnego jestem zwizany ju od 1991 roku, czasw studenckich. Specjalnym
zainteresowaniem i fascynacj darz problematyk automatycznego tumaczenia tekstu
oraz analiz znaczenia tekstw w jzyku naturalnym. Jedynym wikszym ukoczonym
przeze mnie dotychczas dzieem jest eksperymentalny system generujcy w sposb
automatyczny formu logiczn stanowic model znaczenia zdania. Stanowi on pewien
krok badawczy w kierunku jzyka poredniego - jzyka formalnego wyraajcego
znaczenie zdania. W dalszej czsci artykuu skoncentruj si gwnie na krtkiej
prezentacji charakterystycznych cech systemu.
W celu uczynienia opisu bardziej przejrzystym, podziel go trzy poziomy, plany:
podstawowej teoria lingwistyczna,
jej praktycznego rozwinicia pod ktem zastosowania informatycznego,
"implementacji" teorii w postaci systemu informatycznego.
Jako podstaw lingwistyczn mojej pracy przyjem gramatyk Richarda
Montague, a szczeglnie jej najbardziej praktyczn wersj - PTQ (ang. The Proper
Treatment of Quatification in Ordinary English) [1,2,3,4]. Spenia ona dobrze dwa
podstawowe wymagania:
generuje do szeroki wycinek jzyka (przynajmniej jak na potrzeby mojej
pracy),
oraz posiada spjne i cile zdefiniowane mechanizmy generujce struktur
znaczeniow zdania.
Rwnie zakres wyznaczony przez PTQ sta si naturaln granic mojej pracy -
okrela ono zarwno wycinek jzyka, jak ograniczenie si jedynie do analizy zda
twierdzcych.
Gramatyka Montague stanowi ciekawe poczenie pozornych przeciwiestw: cech
charakterystycznych dla gramatyki transformacyjnej (n.p. budowa regu produkcji),
gramatyki kategorialnej (n.p. konstrukcja systemu kategorii syntaktycznych) oraz
semantyki generatywnej. Definiuje zarwno zbir regu syntaktycznych, jak i te cile
z nimi powizanych regu semantycznych, przypisujcych kadej wytworzonej frazie,
jej reprezentacj semantyczn zapisan w postaci formuy logiki intensjonalnej (logika
intensjonalna zosta stworzona przez R. Montague poprzez rozszerzenie logiki
tradycyjnej o aspekty temporalne, modalne, operator lambda [12] oraz zdefiowane
przez niego operatory intensji i ekstensji, wywodzce si z teorii moliwych wiatw
MACIEJ PIASECKI "AUTOMATYCZNE MODELOWANIE SEMANTYKI ..."

[3]). Powizanie to jest definiowane w ramach roszerzonej wersji zasady Fregego


(nazywanej te zasad kompozycyjnoci): "znaczenie zdania jest funkcj znacze jego
czci i sposobu ich poczenia". W gramatyce Montague definiuje ona jednoznacze
powizanie pomidzy kategoriami syntaktycznymi a typami logicznymi, reguami
syntaktycznymi a semantycznymi oraz dla kadego wyraenia podstawowego jzyka
(leksemu) definiuje jego reprezentacj w postaci formuy logiki intensjonalnej (LI).
Dziki zasadzie kompozycyjnoci, jeeli wygenerujemy dla pewnego zdania
drzewo derywacji, to traktujc numery regu syntaktycznych w wzach jako numery
odpowiadajcych im regu semantycznych, oraz przypisujc wyraeniom w liciach
(czyli wyraeniom podstawowym) odpowiadajce im formuy LI, jestemy w stanie, w
prosty sposb, wyliczy formu LI. Moemy j traktowa, z pewnym przyblieniem,
jako reprezentacj semantyczn, model znaczenia zdania, utosamianego z sdem
logicznym - asercj (oczywicie interesuje nas tylko znaczenie informatywne zdania).
Proces ten, jest w duym skrcie zilustrowany przez poniszy przykad:
Jan mwi ,4

zdanie: Jan mwi, otrzymuje drzewo derywacji: Jan mwi .Indeks

skojarzony z wzem sygnalizuje uyt regu syntaktyczn (a tym samym


semantyczn). Na podstawie drzewa derywacji moemy wyliczy formu LI.

1) Jan P[P{j}] translacja wyraenia podstawowego,


2) mwi mwi' translacja wyraenia podstawowego,
3) P[P{j}](mwi') z 1) i 2) przez zastosowanie T4,
upraszczajc otrzymujemy mwi'(j), oraz ostatecznie mwi'(j).
(j oznacza pewn sta ze zbioru istnienie, bytw realnych bd abstrakcyjnych,
operator intensji oraz ekstensji)

Oczywicie oryginalne PTQ generuje wycinek jzyka angielskiego, musiaem


dlatego te sformuowa jego polsk wersj. Po odpowiednim dobraniu wycinka jzyka,
wyoni si tylko jeden powaniejszy problem pynnoci szyku zda.
Oryginalna gramatyka Montague nie nadaje si niestety do bezporedniej
implementacji w zastosowaniach informatycznych. Posiada dwie podstawowe wady:
ma charakter wybitnie generacyjny oraz operuje na cigach symboli ("stringach")
bardzo niewdzicznej strukturze danych do przetwarzania. Nie chcc wywarza
otwartych ju drzwi szukaem zrealizowanych rozwiza tego problem. Za
najciekawsze uznaem gramatyk izomorficzn M-grammar prof. Jana Landsbergena,
stanowic podstaw systemu automatycznego tumaczenia Rosetta [5, 6, 7, 8, 9].
Operuje ona na zdaniach zapisanych w postaci struktury drzew S-tree oraz jej
konstrukcja umoliwia atw budow zarwno analizatora (ang. parser), jak i

2
MACIEJ PIASECKI "AUTOMATYCZNE MODELOWANIE SEMANTYKI ..."

generatora. Wymaga skojarzenia z prost gramatyk wstpn, ktrej zadaniem jest


wygenerowanie dla zdania wejciowego skoczonej liczby drzew S-tree (nie wszystkie
musz by akceptowalne). Gramatyka ta, ukierunkowana na specyficzne zastosowanie
w systemie automatycznego tumaczenia, gubi niestety pewne korzystne z punktu
widzenia mojej pracy powizania pomidzy syntaktyk i semantyk. Zostay midzy
innymi wyeliminowane elementy pochodzce z gramatyki kategorialnej (powizania
pomidzy kategoriami i typami LI). Spowodowao to koniecznoci jej przetworzenia w
gramatyk PM-grammar, przywracajc wszystkie podane cechy gramatyki
Montague oraz oczywicie generujc wycinek jzyka polskiego.
Wprowadzenie W ten sposb zostay skompletowane
tekstu
podstawy lingwistyczne systemu -
przedstawiam obok jego pogldowy schemat.
Analizator morfologiczny AN-MORPH
AN-MORPH (niezbdny element wejciowy) pracuje w
c
oparciu o algorytm posugujcy si
lista-list
sownikiem tematw i tablicami odmian.
...
Podstaw do jego konstrukcji stanowi
e wietna praca prof. J. S. Bienia [10].
lista
d Produktem finalnym analizatora jest zbir
S-PARSER wszystkich prawdopodobnych cigw
wyrazw morfologicznych - zapisanych jako
f terminalne drzewa S-tree (sam wze
M-PARSER zawierajcy informacj morfologiczn i
syntaktyczn rozpoznanego wyrazu). Kady
z cigw jest poddawany dalszej analizie
poprzez parser gramatyki wstpnej S-
Wyliczenie
PARSER. Jest on oparty o opracowanie prof.
formu
IL S. Szpakowicza [11], formalizujce skadni
jzyka polskiego w postaci gramatyki DCG z
kontekstem. Efektem jego dziaania jest struktura drzewa S-tree, ktra nastpnie zostaje
przekazana do parsera gramatyki PM-grammar - M-PARSER. Jeeli struktura zostanie
rozpoznana jako poprawna to na podstawie wygenerowanego drzewa derywacji (lub
drzew w przypadku niejasnoci semantycznej) mona dokona wyliczenia formuy
(formu) LI.
Gramatyka Montague pozwala jedynie na formalny zapis struktury znaczeniowej
analizowanego zdania, zatrzymuje si na poziomie znaczenia leksemw, analizowane s
jedynie izolowane zdania a nie tekst. Wygenerowane formuy logiki intensjonalnej s

3
MACIEJ PIASECKI "AUTOMATYCZNE MODELOWANIE SEMANTYKI ..."

cigle trudne do maszynowej interpretacji, prawdopodobnie sama logika intensjonalna


jest zbyt mocnym narzdziem. Te przesanki wyznaczaj drog moich dalszych
poszukiwa. Moliwe, e ciekawe rozwizania przynioso by syntetyczne
wykorzystanie niektrych osigni sztucznej inteligencji (np. semantyki
proceduralnej).

Bibliografia (wybr najistotniejszych pozycji):


[1] Montague Richard "English as a Formal Language" zawarte w B.
Visentini et al , eds., "Linguaggi nella societ e nella technica",
Milan: Edizioni di Comunit, str. 189-224.
[2] Montague Richard "The Proper Treatment of Quantification in
Ordinary English", zawarte w Hintikka J., Moravcsik J., Suppes P.
"Approaches to Natural Language", Dordrecht: D. Reidel, str 221-242.
[3] Dowty D. R., Wall, R. E., Peters S. "Introduction to Montague
Semantics", Dordrecht: D. Reidel, 1981
[4] Dowty D. R. "Montague Grammar and Word Meaning", Dordrecht: D.
Reidel
[5] Landsbergen Jan, "Montague Grammar and Machine Translation",
artyku w zbiorczym wydaniu "Linguistic Theory and Computer
Applications" Academic Press Limited, 1987.
[6] Landsbergen Jan, Odijk Jan, Schenk Andr, "The Power of
Compositional Translation", artyku w "Literary and Linguistic
Computing", Vol. 4, No. 3, 1989, Oxford University Press.
[7] Landsbergen Jan, Appelo Lisette, Fellinger Carel, "Subgrammars,
Rule Classes and Control in the Rosetta Translation System", materiay
na "3rd Conference ACL, European Chapter", kwiecie 1987
[8] Landsbergen Jan, "Adaptation of Montague Grammar to The
Requirements of Parsing" artyku w zbiorczej publikacji "Formal
Methods in the Study of Language" cz 2, pod redakc Groenendijk
J.A.G., Janssen T.M.V., Stokhof M.B.J., MC Track 136, Mathematical
Centre, Amsterdam, 1981, strony 399-420.
[9] Landsbergen Jan, "Isomorphic Grammars and their Use in the
Rosetta Translation System", w zbiorczej publikacji "Machine
Translation Today", pod redakcj King M., Edinburg: Edinburg
University Press, 1985.
[10] Bie Janusz S. "Koncepcja sownikowej informacji morfologicznej
i jej komputerowej weryfikacji", Wydawnictwo Uniwersytetu
Warszawskiego, Warszawa 1991.
[11] Szpakowicz Stanisaw "Formalny opis skadiowy zda polskich",
Wydawnictwo Uniwersytetu Warszawskiego, Warszawa, 1983
[12] Brady J.M "Informatyka teoretyczna w ujciu programistycznym"
(tytu oryginau "The Theory of Computer Science A Programming
Approach"), Wydawnictwa Naukowo-Techniczne, Warszawa, 1983

You might also like