You are on page 1of 28

Artigo 05

DataGramaZero - Revista de Cincia da Informao - v.3 n.1 fev/02 ARTIGO 05


A Ambiqidade na Recuperao da Informao
Ambiguity in information retrieval
por Marisa Brscher
Resumo: Discutem-se questes relativas extrao de informaes contidas em textos completos e
posterior recuperao, por meio de mtodos de tratamento automtico da linguagem natural. Alm da
extrao de palavras do texto, procura-se manter as relaes de significado que estas palavras possuem no
contexto do discurso em que ocorrem. Assim, defende-se o tratamento de determinados fenmenos
lingsticos que afetam a qualidade da recuperao, como o da ambigidade. Como referencial terico-
metodolgico para efetuar a anlise e organizao sinttico-semntica de contedos, utilizam-se a
Gramtica de Valncias de Borba e a teoria de Grficos Conceituais de Sowa. Emprega-se um sistema de
tratamento automtico da linguagem natural o Zstation em um corpus constitudo de documentos
oficiais do Mercosul, para testes de desambiguao. Conclui-se que um sistema de recuperao da
informao em linguagem natural pode solucionar determinados tipos de ambigidades quando dispe de
informaes relativas valncia sinttico-semntica das unidades lexicais que compem um enunciado.
Os resultados obtidos demonstram ser possvel introduzir procedimentos automticos de soluo de
ambigidades em sistemas de tratamento da linguagem natural.
Palavras-chave: Recuperao da Informao; Tratamento Automtico da Linguagem Natural;
Ambigidade; Valncia Sinttico-Semntica; Grficos Conceituais
Abstract: TIssues relative to information extraction from complete texts and subsequent retrieval by
means of automatic natural language treatment methods are discussed. Besides extracting words from the
text, the relationship of significance that these words have in the context of the speech in which they
occur is attempted to be preserved. An information retrieval system using natural language should be able
to treat given linguistic phenomena that affect the quality of information, such as, for instance, the issues
of ambiguity. The Valence Grammar and the Conceptual Graphics are used as theoretical and
methodological. An automatic natural language treatment system Zstation is utilized, as well as a pool
of official documents concerning the Mercosul, for the ambiguity solutions tests. The conclusion is
reached that a natural language treatment system can solve certain types of ambiguities when information
is available regarding the syntactic-semantic valence of the lexical units that compose an enunciation. The
results obtained show that it is possible to introduce automatic procedures for solving ambiguities in a
natural language treatment system.
Keywords: Information Retrieval; Document Analysis; Natural Language Processing; Ambiguity;
Valence Grammar; Conceptual Graphs

INTRODUO
As tecnologias da informao vm provocando mudanas profundas nos processos tradicionais
http://www.dgz.org.br/fev02/Art_05.htm (1 de 28)20/7/2005 08:00:57
Artigo 05
de comunicao cientfica, quase que eliminando o espao de tempo entre a produo e a
disseminao dos textos cientficos. Essas mudanas, conseqentemente, afetam os processos de
tratamento da informao utilizados pela Cincia da Informao. Observa-se hoje uma tendncia
ao desenvolvimento de mecanismos que possibilitam a disponibilizao dos documentos no
momento de sua produo, em muitos casos pelo prprio autor. Como exemplo desta tendncia
podem ser citados a Biblioteca Digital de Teses e Dissertaes Eletrnicas, da Virginia Tech [i] e
os Arquivos Abertos [ii]. Ambos fornecem aos autores padres e ferramentas para produo e
submisso eletrnica de documentos, possibilitando a disseminao imediata das informaes
disponibilizadas nestes repositrios.
Apesar das mudanas ocorridas nos processos de produo, tratamento e disseminao de
informao, alguns problemas enfrentados pelos sistemas tradicionais de recuperao da
informao continuam presentes nas ferramentas de busca atuais e ganham maior amplitude e
complexidade. Como ressalta Chen [iii] isto de deve a diferentes fatores: variaes nas estruturas
e formatos de bases de dados, diferentes formas de documentos disponibilizados (texto, audio e
vdeo) e abundncia de contedos multilnges nas aplicaes da Web. Acrescente-se, ainda, a
estes aspectos, a multidisciplinaridade dos contedos disseminados na rede.
Considerando estes fatores e o contexto atual de produo e disseminao eletrnica de
documentos, as pesquisas realizadas na rea de recuperao da informao concentram-se, de
maneira geral, no desenvolvimento de ferramentas que possibilitem a extrao do contedo
diretamente dos textos completos dos documentos disponibilizados eletronicamente. No entanto,
ferramentas de busca que utilizam palavras como pontos de acesso ao contedo tm se mostrado
ineficientes, fato este observado pela quantidade de informao irrelevante recuperada por
motores de busca da Web.
Assim, os trabalhos mais recentes na rea baseiam-se na premisssa de que ferramentas de busca,
ao fazerem uso da linguagem natural, necessitam de conhecimento sobre o significado das
expresses que so tratadas e das relaes que se estabelecem entre elas. Essas ferramentas
devem, ainda, ser capazes de tratar determinados fenmenos lingsticos que afetam a qualidade
da recuperao, como o da ambigidade, a qual tratada no mbito deste trabalho.

WEB SEMNTICA
A necessidade de recuperao de informaes armazenadas em grandes repositrios de
informao disponveis na Internet e de responder com maior preciso s buscas realizadas
diretamente pelos usurios finais, tm levado a um esforo no sentido de adicionar informao
semntica s pginas Web. Procura-se, desta forma, como afirma Cranefield [iv], aumentar a
eficincia e a seletividade dos motores de busca e de outros tipos de ferramentas de
processamento automtico de documentos.
http://www.dgz.org.br/fev02/Art_05.htm (2 de 28)20/7/2005 08:00:57
Artigo 05
As propostas de incorporao de informao semntica em sistemas de busca aplicam abordagens
distintas, enfatizando um ou outro aspecto da anlise lingstica e utilizando diferentes mtodos
de organizao de bases de conhecimento [cf. v]. Doerr [vi] e Hunter [vii] defende o uso de
tesauros, que organizam termos e associam conceitos em redes semnticas, como uma ferramenta
importante para a busca de informao eletrnica, ressaltam, no entanto, a necessidade de tratar
problemas relativos interoperabilidade semntica entre diferentes tesauros e a necessidade de
desenvolvimento de metavocabulrios (metadata vocabularies) para permitir o intercmbio e a
busca de informao em diferentes aplicaes e domnios.
Nas pesquisas realizadas no mbito do projeto Digital Libraries Iniciative (DLI) [iii] procura-se
recuperar os avanos em diversas reas, tais como reconhecimento, segmentao e indexao de
objetos; anlise semntica em sistemas de tratamento automtico da linguagem natural;
representao do conhecimento e interao homem-mquina, tendo como principal objetivo
tornar possvel a interoperabilidade semntica nas bibliotecas digitais.
A questo da interoperabilidade semntica torna-se importante no mbito das pesquisas
relacionadas busca na Internet, uma vez que os diferentes repositrios de informao eletrnica
(bibliotecas digitais, bases de dados, etc.) utilizam sistemas prprios de organizao semntica
das informaes. O desafio que se coloca neste sentido, como afirmam Berners-Lee et al [viii]
fornecer uma linguagem que expresse dados e regras para raciocnio sobre esses dados de forma
que as regras de qualquer sistema de representao do conhecimento possam ser exportadas para
a Web.
Esta a proposta da Web Semntica, que visa fornecer uma estrutura de contedo significativo
para as pginas Web, criando um ambiente onde os softwares agents possam realizar tarefas
sofisticadas para os usurios. A Web Semntica utiliza-se da flexibilidade da estrutura RDF
(Resource Description Framework), na qual possvel descrever o contedo da informao
disseminada na rede, fazendo-se afirmaes sobre determinado objeto e identificando suas
propriedades e valores. Cada objeto ou assunto identificado por um Identificador Universal de
Registro (URI) que assegura que as palavras na Web estejam relacionadas a apenas uma
definio. [viii]
A Web semntica utiliza-se ainda das ontologias para possibilitar a recuperao de conceitos.
Uma ontologia na Web Semntica possui uma taxonomia e um conjunto de regras de inferncia.
A taxonomia define as classes de objetos e as relaes que se estabelecem entre eles. Forma-se
assim uma estrutura onde propriedades so atribudas a determinadas classes e os objetos que
pertencem a esta classe herdam suas caractersticas.
A soluo de ambigidades e a obteno de maior preciso na recuperao de informaes
disponveis na Web constitui-se numa das principais preocupaes dos estudos da Web
Semntica. Berners-Lee et al [viii] afirmam que a ambigidade pode ser solucionada atribuindo-
se diferentes URIs para cada conceito de uma palavra. Assim, os motores de busca podero
encontrar pginas que se refiram a conceitos especficos e no todas as pginas nas quais a
http://www.dgz.org.br/fev02/Art_05.htm (3 de 28)20/7/2005 08:00:57
Artigo 05
palavra ambgua utilizada. Outros tipos de ambigidades, no entanto, podem ocorrer no
contedo de documentos disponveis na Web, interferindo tambm na preciso da recuperao da
informao.

AMBIGIDADE
Entende-se ambigidade como uma expresso da lngua (palavra ou frase) que possui vrios
significados distintos, podendo, conseqentemente, ser compreendida de diferentes maneiras por
um receptor. [ix; x] A ambigidade ocorre quando palavras ou frases podem gerar mais de uma
interpretao de seu significado, como nos seguintes exemplos:

Ex.1: na frase O arquivo est precisando de manuteno, a ambigidade latente da
palavra arquivo induz interpretao de um arquivo como mvel, um arquivo como
conjunto de documentos ou de um arquivo como instituio.
Ex. 2 - na fraseologia Neutralizao de contaminao com leite , a ambigidade permite
interpretar que a neutralizao feita com leite ou que a contaminao causada pelo leite.
A ambigidade causa rudo na recuperao da informao, pois, sob um mesmo termo, o usurio
encontrar informao relevante e irrelevante. No exemplo 1, o usurio recuperar informao
sobre manuteno de arquivo em trs direes semnticas distintas: conjunto de documentos,
instituio e mvel. Qual desses significados respondem sua pergunta? No exemplo 2, a
ambigidade sinttica no permite, num sistema de recuperao, decidir entre os assuntos
neutralizao de contaminao e neutralizao com leite.
Ao encontrar diferentes significados possveis de serem extrados de uma frase ou palavra, o
sistema de recuperao necessita distinguir um destes significados, determinando, segundo o
contexto, qual o significado a ser aplicado, obtendo, dessa maneira, maior preciso na resposta
dada ao usurio.
A ambigidade pode ser ocasionada por diversos fatores[1]: polissemia, homografia,
policategorizao, relao contextual e estrutura sinttica das frases. Segundo o fator que a
ocasiona, a ambigidade pode ser classificada em diferentes tipos. Pela sistematicidade e clareza
com que distingue os tipos de ambigidades, adota-se, neste estudo, a classificao de Fuchs [x],
sintetizada a seguir.
I) Ambigidade morfolgica: ocorre quando no possvel classificar determinada forma quanto
categoria gramatical. Este tipo de ambigidade ocasionado pela policategorizao em que
palavras pertencem a mais de uma categoria gramatical, como proposta , que pode ser ou
http://www.dgz.org.br/fev02/Art_05.htm (4 de 28)20/7/2005 08:00:57
Artigo 05
substantivo, ou adjetivo ou verbo.
II) Ambigidade lexical: ocorre quando h mais de uma interpretao possvel do significado de
uma unidade lexical. Este tipo de ambigidade provocado por :
homografia : ocorre por meio da coliso acidental entre as formas de dois signos lingsticos
distintos . [x; p.9]. Ex.: cobre (metal) ; cobre (do verbo cobrir)
polissemia : ocorre quando uma s e mesma expresso envolve significados distintos, sendo um
nico signo lingstico; a prpria expresso que ambgua, medida que possui uma forma
qual corresponde uma pluralidade de significados. [x]. Ex.: arquivo (mvel, instituio, conjunto
de documentos).
III) Ambigidade sinttica : ocorre na estruturao da frase em constituintes hierarquizados,
quando se definem as ligaes que se estabelecem entre os sintagmas. As frases preposicionais
so uma das fontes mais freqentes de ambigidade sinttica. Alguns exemplos ilustram este tipo
de ambigidade:

Ex. 3: Eu li a notcia sobre a greve na universidade. (ou eu li a notcia e eu estava na
universidade, ou a greve ocorre na universidade)
Ex. 4: A professora de dana espanhola. (ou a professora espanhola, ou a dana
espanhola)
IV) Ambigidade predicativa : ocorre na interpretao das relaes temticas que articulam
predicado, argumentos e participantes. Exemplos :

Ex. 5: A crtica deste autor. (autor = ou objeto da crtica, ou agente da crtica)
Ex. 6: Eu a deixei feliz. (feliz = ou atributo do sujeito ou atributo do objeto)
V) Ambigidade semntica : ocorre quando h mais de uma interpretao possvel para o
relacionamento dos termos na frase, como, por exemplo, no clculo dos operadores de negao e
de quantificao :

Ex. 7: Ela no chora mais porque ele partiu. (ou ela chorava porque ele havia partido, ou
ela parou de chorar uma vez que ele j foi embora)
http://www.dgz.org.br/fev02/Art_05.htm (5 de 28)20/7/2005 08:00:57
Artigo 05
Ex. 8: Um rio corre atravs de cada pas europeu. (ou um nico rio corre atravs de todos
os pases, ou diferentes rios correm atravs de diferentes pases)
VI) Ambigidade pragmtica : relaciona-se ao clculo dos valores enunciativos, reconstruo
destes valores, que esto ligados situao do falante no momento da enunciao, como por
exemplo :

Ex. 9: Os pssaros voam. (referncia geral ou especfica?)
Ex. 10: Paulo vai escola. (ele estudante ou ele est indo escola neste momento?)
Como demonstram esses exemplos, a ambigidade pode ser ocasionada por diferentes fenmenos
lingsticos situados nos nveis morfolgico, lexical, sinttico, semntico e pragmtico. A
soluo destes problemas depende do objetivo de um sistema de recuperao da informao e das
bases de conhecimento disponveis neste sistema.

DESAMBIGUAO NA RECUPERAO DA INFORMAO
Denomina-se desambiguao[2] o processo pelo qual uma ambigidade solucionada. Este
processo exige diferentes nveis de conhecimentos lingsticos e extralingsticos.
A ambigidade morfolgica, causada por policategorizao, por exemplo, pode ser solucionada
pela anlise do co-texto imediato que circunda a palavra policategorial, recorrendo-se apenas a
conhecimento morfossinttico (categoria gramatical, concordncia e combinaes sintticas entre
constituintes da frase, entre outros). Na frase O governo aumentou o imposto, governo e imposto,
por estarem precedidos do determinante, so interpretados corretamente pelo sistema como
substantivos e no como verbos (formas flexionadas dos verbos governar e impor).
Certos casos de polissemia so solucionados por meio de conhecimento semntico. Ao dispor das
informaes:
* comprar uma ao que exige objeto comercializvel ;
* mveis so objetos que podem ser comprados ; e
* arquivo um tipo de mvel ;
um sistema recuperao em linguagem natural pode atribuir corretamente o significado mvel a
arquivo na frase Maria comprou um arquivo para seu escritrio[3]
http://www.dgz.org.br/fev02/Art_05.htm (6 de 28)20/7/2005 08:00:57
Artigo 05
Algumas ambigidades predicativas so solucionadas pela introduo de traos semnticos que
restringem os papis temticos desempenhados pelos argumentos de um predicado. Como
exemplifica Borba [xi], o sintagma nominal A observao da criana ambguo, mas A
observao do quadro no, uma vez que, pelo trao -humano, quadro no estabelece uma relao
agente de observar.
Existem, portanto, determinados tipos de ambigidades que podem ser solucionadas
automaticamente, pois os conhecimentos necessrios para desambigu-las so passveis de
modelizao aplicando-se mtodos de tratamento automtico da linguagem natural.
A soluo de ambigidades em sistemas de recuperao em linguagem natural tem por objetivo
determinar que escolhas so mais adequadas considerando-se o contexto onde ocorre a
ambigidade. Como afirma Fuchs [x], toda forma qual podem ser associados vrios
significados virtualmente ambgua (ambigidade virtual) quando considerada isoladamente,
fora de todo contexto de uso. Quando esta forma analisada num contexto, ela pode se tornar
unvoca, ou pode ser considerada efetivamente ambgua (ambigidade efetiva).
Sistemas desenvolvidos para desambiguar aplicam diferentes tcnicas de tratamento automtico
da linguagem natural e aplicam regras formais segundo a abordagem lingstica e o modelo de
representao do conhecimento adotados pelo sistema. A complexidade das regras utilizadas
varia em funo do tipo de ambigidade que se visa solucionar.
O processo de desambiguao automtica mais complexo que o de soluo de ambigidades
realizado por um receptor humano. O recurso ao contexto em sistemas de recuperao de
informao em linguagem natural restrito, uma vez que o contexto constitui-se no conjunto de
conhecimentos que o sistema possui num determinado momento da anlise. Nem todo tipo de
informao contextual pode ser representado formalmente e, portanto, nem todo tipo de
ambigidade pode ser resolvido nesses sistemas.
A pesquisa relatada neste artigo trata de diferentes tipos de ambigidades e prope a
desambigao por meio de tratamento sinttico-semntico, utilizando grficos conceituais como
estrutura de representao de conhecimento.

GRFICOS CONCEITUAIS COMO MODELO DE REPRESENTAO DE
CONHECIMENTO
A teoria dos grficos conceituais (GCs) comeou a ser desenvolvida por Sowa em 1968, quando
escreveu um trabalho de final de curso para Minsky. Neste trabalho, Sowa aplicou a idia de
fluxogramas para criar um modelo de representao de conhecimento em Inteligncia Artificial
que se utiliza de caixas e crculos para gerar Grficos Conceituais (GCs). Na dcada de 70, Sowa
inicia um trabalho de pesquisa sobre grficos conceituais como linguagem de representao do
http://www.dgz.org.br/fev02/Art_05.htm (7 de 28)20/7/2005 08:00:57
Artigo 05
conhecimento no Systems Research Institute da IBM. O resultado deste trabalho publicado, em
1976, no IBM Journal of Research and Development. Oito anos aps, Sowa [xii] publica seu
livro Conceptual Structures, apresentando a teoria de GCs como hoje conhecida. [xiii]
Como modelo de representao do conhecimento que utiliza uma notao em grficos, os GCs
so, para Sowa [xii; p. 7] uma sntese dos grficos existenciais de Peirce, dos grficos de
dependncia de Tesnire e das redes semnticas da Inteligncia Artificial. Os GCs formam
uma linguagem de representao do conhecimento e so constitudos por grficos que possuem
dois tipos de ns :

a) os conceitos, representados por retngulos ou por colchetes [CONCEITO],
correspondem a contedos de pensamento ; representam entidades, aes ou estados que
possam ser descritos em termos de linguagem; e
b) as relaes, representadas por crculos com uma flecha de entrada e outra de sada ou
entre parnteses => (RELAO) =>, simbolizam as ligaes existentes entre os conceitos
e demonstram os papis que cada entidade desenrola.
Para Sowa [xii; p.20], os grficos conceituais formam uma base semntica da linguagem
natural e representam modelos do mundo real ou de um mundo possvel. No esquema da figura
1, demonstra-se como funciona o mecanismo implcito no tringulo do conceito, com os GCs
servindo de ligao entre o referente e o significante, onde:

a) as regras de sintaxe mapeam grficos para sentenas em LN e mapeam sentenas para
grficos.
b) os arcos dos grficos correspondem funo da palavra e a casos relacionais da LN. No
exemplo da figura 1, EST e LOC so, respectivamente smbolos das relaes estado e
local
c) os ns dos grficos so conceitos intensionais de indivduos que devem existir no
mundo real ou em algum mundo hipottico.
O mesmo grfico, gerado a partir de um processo de percepo, serve de representao para as
frases expressas nas duas lnguas - portugus e francs. Os GCs constituem-se, portanto, numa
linguagem universal e independente, no nvel da estrutura profunda.

http://www.dgz.org.br/fev02/Art_05.htm (8 de 28)20/7/2005 08:00:57
Artigo 05
CONCEITOS NOS GCS
Nos grficos conceituais, um conceito um objeto que possui um tipo e um referente que
especifica exatamente que espcie do tipo precedente o conceito representa.
O tipo do conceito no necessariamente muito distante (do ponto de vista semntico) do
conceito representado. Por exemplo, o tipo do conceito gato GATO[4] e no MAMFERO,
apesar de gato ter como hipernimo mamfero. Esta relao de hiperonmia encontra-se
representada por uma rede, chamada treillis de conceitos, na qual estabelecida a hierarquia
entre tipos. A relao representada nessa hierarquia uma relao de ordem de grandeza que se
estabelece entre tipos de conceitos e no entre conceitos individuais.
Existem, assim, diversas famlias de conceitos, isto , conjuntos de conceitos que tm o mesmo
hipernimo. Esses conceitos so ditos do mesmo tipo. Tomando-se como exemplo o tipo
FRUTA, pode-se dizer que laranja, pra e banana so do tipo FRUTA - fruta um hipernimo de
laranja, pra e banana.
A hierarquia de tipos um ordenamento parcial definido a partir de um conjunto de etiquetas de
tipo. O smbolo <= determina a ordem hierrquica. Os termos subtipo e supertipo so utilizados
para designar a posio dos conceitos na hierarquia, como abaixo :
Se X < Y, ento :
X um subtipo de Y, e
Y um supertipo de X.
Se X <= Y e X < = Z, ento :
X um subtipo comum de Y e Z.
Se X >= Y e X >= Z, ento :
X um supertipo comum de Y e Z.
Na hierarquia de tipos, assim como em outras estruturas hierrquicas gnero/espcie baseadas em
Aristteles, os subtipos herdam as propriedades de seus supertipos. Um treillis de conceitos deve
ter supertipos e subtipos comuns. Para indicar os tipos de conceitos de forma linear, utiliza-se a
seguinte notao :
[<tipo> :<referente>]
Ex. : [INSTITUIO : Embratel]
RELAES NOS GCS
As relaes conceituais definem o papel de cada conceito num GC. So as ligaes que se
estabelecem entre os conceitos do grfico. Podem ter um nmero qualquer de arcos, sendo que a
relao mais comum dade[5].
http://www.dgz.org.br/fev02/Art_05.htm (9 de 28)20/7/2005 08:00:57
Artigo 05
A representao em diagramas no fcil de ser construda quando se estabelecem vrias
relaes entre os conceitos do GC. Dessa forma, Sowa [xii] prope uma notao linear que
substitui os diagramas, escolhendo como cabea o conceito ao qual se ligam maior nmero de
arcos. O grfico conceitual

representado linearmente assim :

[VENDER]-
(AGNT) => [BRASIL]
(OBJ) => [AUCAR]
(RCPT) => [ARGENTINA]
Os GCs devem ser lidos de acordo com o sentido das flechas. No exemplo dado, l-se :
VENDER tem por agente BRASIL, por objeto ACAR e por receptor ARGENTINA. Esse tipo
de representao segue uma sintaxe prpria, como o emprego do hfen aps a caixa do conceito
VENDER no exemplo acima, para indicar que as relaes que se estabelecem com este conceito
esto listadas nas linhas subseqentes. A sintaxe completa utilizada nessa notao descrita por
Sowa [xii], no apndice A6 de seu livro. As duas notaes - a linear e a em grfico - so
exatamente equivalentes e podem ser traduzidas automaticamente para outras formas de lgica ou
de representao do conhecimento.
Para evitar falsas combinaes entre conceitos e relaes num grfico conceitual, Sowa [xii]
introduziu o conceito de grfico cannico. Diz-se que um grfico cannico quando representa
situaes reais ou possveis num mundo externo. [xii; p.91] A construo de um conjunto
coerente de GCs que formam uma base de conhecimento feita a partir dos Grficos Conceituais
Cannicos (GCCs) que exprimem as restries semnticas do domnio representado.
Os grficos cannicos so utilizados num analisador semntico para orientar a escolha de certas
combinaes entre relaes e conceitos. Como afirma Sowa [xii; p.222], eles fornecem
preferncias semnticas para certas combinaes e reforam restries que bloqueiam outras
combinaes. Esse tipo de orientao auxilia na soluo de casos de ambigidade sinttica,
porque as restries semnticas levam escolha da interpretao correta da frase.

http://www.dgz.org.br/fev02/Art_05.htm (10 de 28)20/7/2005 08:00:57
Artigo 05
BASES DE CONHECIMENTO PARA TRATAMENTO SINTTICO-SEMNTICO DE
AMBIGIDADES
Neste artigo, descreve-se, de forma resumida, pesquisa realizada por Brscher [xiv], na qual se
utiliza conhecimentos sinttico-semnticos organizados com base na gramtica de valncias de
Borba [xi] para soluo de ambigidades em textos de lngua portuguesa. Estes conhecimentos
constituem-se, basicamente de :

a) conhecimento sinttico : caractersticas morfossintticas dos elementos que
representam, na estrutura superficial, uma relao predicado/argumento; funo sinttica
destes elementos e como eles organizam-se sintaticamente;
b) conhecimento semntico : caractersticas dos conceitos (traos semnticos); relaes
semnticas (hiperonmia, sinonmia, p.ex.) e relaes temticas (agente, ao, objeto, entre
outras).
Essas informaes sinttico-semnticas encontram-se armazenadas em bases de conhecimento de
acordo com o formalismo adotado no sistema Zstation [xv]. O Zstation constitui-se num sistema
de tratamento automtico da linguagem natural, cuja idia bsica que, para desempenhar uma
tarefa, como analisar uma sentena, faz-se necessrio coletar toda informao sobre esta
sentena, quanto a propriedades semnticas e morfolgicas das palavras, possveis grupos de
palavras e frases, e conexes possveis entre eles, at que o conhecimento coletado permita
propor uma ou vrias interpretaes.
Os mdulos especialistas deste sistema so responsveis por tarefas especficas. Cada mdulo
tem acesso a uma base de conhecimento em forma declarativa. Os mdulos especialistas so os
seguintes:

I) Gerao morfossinttica
Constri formas corretas a partir de lemas[6] de acordo com variveis morfossintticas
(nmero, tempo, etc.), extradas de uma gramtica morfolgica que descreve como as
formas so geradas. O programa de gerao morfossinttica procura primeiramente a qual
modelo morfolgico - prottipo de palavra - um lema morfolgico associado. Depois ele
procura pela gramtica de gerao associada a esse modelo e aplica a gramtica ao lema,
gerando as diversas formas possveis. Duas fontes de conhecimento so necessrias: a
gramtica morfolgica e a base de dados que associa lemas a modelos, ambas so
programadas usando formalismo declarativo.
II) Anlise morfossinttica
http://www.dgz.org.br/fev02/Art_05.htm (11 de 28)20/7/2005 08:00:57
Artigo 05
Encontra o lema morfolgico correspondente para cada forma no texto, e sua categoria
morfossinttica (substantivo, verbo, pronome, adjetivo, Tc). Sua tarefa reduz-se a
consultar uma base de dados que contm todos os lemas do dicionrio de lemas.
III) Anlise sintagmtica
Extrai todos os tipos de grupos necessrios para a anlise sinttica da sentena ou de
unidades de texto maiores. H uma diferena importante entre anlise sintagmtica e
anlise sinttica. O programa de anlise sintagmtica basicamente extrai tipos especficos
de grupos (grupo nominal, preposicional, verbal, adverbial, etc.). Na anlise sinttica, o
objetivo identificar as ligaes entre grupos ou frases, definindo os papis destes grupos
na frase: sujeito, objeto1, objeto2, etc.
IV) Anlise semntica
Procura, previamente, todos os conceitos que podem ser associados a um lema
morfolgico, para, ento, obter as informaes semnticas necessrias anlise semntica.
Num segundo estgio, o mdulo determina todas as restries semnticas que so
associadas a determinado conceito. Os parmetros semnticos so definidos sob forma de
traos individuais e de traos de classe e so estruturados em redes semnticas. Nestas
redes os conceitos constituem-se em ns aos quais podem ser ligados atributos semnticos
e outros conceitos hierarquicamente relacionados.

O clculo das ligaes entre grupos um processo complexo para o qual tanto a informao
sintagmtica quanto a semntica so requeridas. Os conhecimentos lingsticos relativos
anlise sinttica so formulados de maneira a considerar o conjunto de parmetros sintticos e
semnticos que podem ser atribudos a um lema especfico. Dessa maneira, a cada lema
morfolgico podem ser associados um ou vrios conceitos.
Para efetuar cada tipo de anlise, o Zstation utiliza diferentes tipos de ferramentas lingsticas
que so definidas e construdas pelo usurio do sistema. Essas ferramentas so baseadas em
formalismo de ampla aplicao de maneira que possvel construir dicionrios e gramticas para
diferentes lnguas, como francs, italiano, portugus, espanhol, ingls e alemo.

DICIONRIO AUTOMTICO
Um dicionrio no Zstation constitudo de um conjunto de lemas e de dados lingsticos
referentes a eles, como ilustrado no exemplo a seguir :

brasileiro
{CPT=brasileiro0
http://www.dgz.org.br/fev02/Art_05.htm (12 de 28)20/7/2005 08:00:57
Artigo 05
MOD=amigo
VSM=
VGR=
APD=
}
{CPT=brasileiro0
MOD=belo
VSM=
VGR=
APD=$qual
arg(0,rel=CHRC,cat=adj,fonct=modSub,conds=[ ])
}
Para cada registro so previstos, no dicionrio de base, os seguintes dados lingsticos :

a) Identificador do conceito (CPT) : conjunto de caracteres que simbolizam o conceito
representado pelo lema. No formalismo adotado, o conceito representado adicionando-se
o smbolo 0 ao final da cadeia de caracteres escolhida para representar o conceito. O CPT
possibilita a localizao de um conceito numa Ontologia e utilizado em qualquer anlise
automtica efetuada pelo sistema que aplique o conceito como varivel. No exemplo
dado, brasileiro0 representa o conceito do lema brasileiro.
b) Modelo morfolgico (MOD) : lema escolhido para representar uma classe de lemas
que, pertencendo a uma mesma categoria, sofre a mesma flexo quanto ao tempo, ao
modo e pessoa, para verbos, e quanto ao gnero e ao nmero para as demais categorias.
No exemplo, amigo o modelo morfolgico do lema brasileiro na condio de
substantivo e belo na condio de adjetivo.
c) Argumentos (APD) : contm parmetros sinttico-semnticos relacionados ao lema de
entrada. Constituem-se numa srie de enunciados que estabelecem condies sinttico-
semnticas a serem observadas no momento da anlise. Os argumentos so definidos com
base na valncia sinttica e semntica do lema. Cada argumento estruturado da seguinte
maneira :
(Code, rel=R,cat=C,fonct= F,conds=[r(...)], em que:
Code = cdigo de prioridade que pode ser 0 para um argumento facultativo ;1 para
argumento obrigatrio representado em termos de relao conceitual ; 2 para
argumento obrigatrio que no passvel de representao em relao conceitual e
3 para argumento proibido (regra de bloqueio).
rel = relao temtica estabelecida com o conceito do lema na Ontologia.
http://www.dgz.org.br/fev02/Art_05.htm (13 de 28)20/7/2005 08:00:57
Artigo 05
cat = categoria morfossinttica do argumento.
fonct = funo sinttica do argumento.
conds = condies de validao intralingsticas, que no podem ser deduzidas da
Ontologia utilizada. So definidas em forma de relaes conceituais.
Um lema pode ter um ou vrios blocos de dados, de acordo com as categorias gramaticais s
quais pertence. Os blocos so delimitados por colchetes. O lema brasileiro possui dois blocos de
dados, um para cada uma das categorias gramaticais s quais pertence. O primeiro bloco registra
o substantivo, atribuindo ao lema o modelo morfolgico amigo, o segundo indica que o lema
pode tambm ser um adjetivo, para o qual se aplica o modelo belo.
Os dados descritos em a, b e c, foram utilizados nos dicionrios construdos no curso da pesquisa
realizada. Alm destes, podem ser registrados nos dicionrios do Zstation : variveis semnticas
intralingsticas (VSM) e variveis gramaticais intralingsticas (VGR), que so variveis
prprias determinada lngua que est sendo tratada. Esses dados so utilizados sobretudo em
pesquisas multilnges.
No exemplo de entrada do lema ao, ilustra-se uma entrada completa no dicionrio. Este lema
monocategorial porque sempre um substantivo, portanto, seu modelo morfolgico o mesmo
em todos os blocos de dados. Porm, por ser polissmico, so-lhes atribudos vrios conceitos.
Para cada conceito existem restries sinttico-semnticas que so definidas nos diferentes
argumentos.

ao
{CPT=praticarao0
MOD=ao
VSM=
VGR=
APD= arg(0,rel=FIN,cat=sub_de,fonct=modN,conds=[ ])
}
{CPT=titcred0
MOD=ao
VSM=
VGR=
APD= arg(0,rel=ORIG,cat=sub_de,fonct=modN,conds=[ ])
}
{CPT=convpojur0
MOD=ao
VSM=
VGR=
APD= arg(0,rel=AGNT,cat=sub_de,fonct=Spsagt,conds=[ ])
http://www.dgz.org.br/fev02/Art_05.htm (14 de 28)20/7/2005 08:00:57
Artigo 05
arg(0,rel=OBJ,cat=sub_contra,fonct=Spcomp1,conds=[ ])
O argumento atribudo atividade0 indica que um conceito representado por substantivo
precedido da preposio de (sub_de) possui uma relao finalidade com o conceito de atividade0
do lema ao. Este substantivo um modificador de N (N o lema de entrada), pois indica uma
caracterstica de N. Em titcred0 (ttulo de crdito), o conceito expresso pelo sub_de indica a
origem (ORIG) do ttulo e constitui-se num modificador do nome ao. No sentido de convocar
poder jurisdicional (convpojur0), ao, possui outra estrutura argumental :

a) um agente (AGNT) representado por um sub_de, que est em relao subjetiva com o
predicado (fonct=Spsagt) ;
b) um objeto (OBJ) do ato de convocar, indicado por sub_contra, que se constitui no
primeiro e nico complemento.
O argumento de convpojur0 informa tambm que um substantivo precedido da preposio para
(cat=sub_para) indica com que finalidade (rel=FIN) convoca-se o poder jurisdicional. Este
substantivo funciona como modificador, no sendo parte da matriz valencial.
Nos argumentos, as condies sinttico-semntica so enunciadas. O detalhamento dos
parmetros sintticos feito na Gramtica de Variveis, e dos parmetros semnticos, na
Ontologia.

GRAMTICA MORFOLGICA
As gramticas morfolgicas no Zstation renem o conjunto de lemas selecionados como modelos
morfolgicos para os demais lemas includos num dicionrio de base. Cada entrada de uma
gramtica inclui : o modelo morfolgico, a categoria gramatical, as variveis (pessoa e tempo
para verbos e gnero e nmero para demais categorias aos quais se aplicam) e a regra
morfolgica a ser aplicada.
O modelo amigo exemplifica uma entrada da Gramtica Morfolgica Portuguesa criada no
mbito da pesquisa:

amigo
CAT=sub VARS=[masc,sing] REGS=[ ]
CAT=sub VARS=[masc,plur] REGS=[+s]
http://www.dgz.org.br/fev02/Art_05.htm (15 de 28)20/7/2005 08:00:57
Artigo 05
CAT=sub VARS=[fem,sing] REGS=[-o,+a]
CAT=sub VARS=[fem,plur] REGS=[-o,+as]
Na gramtica morfolgica, CAT identifica a categoria gramatical do modelo, VARS as variveis
morfolgicas e REGS a regra a ser aplicada segundo a variao definida. No exemplo, o lema
amigo constitui o modelo morfolgico de todos os substantivos que formam o masculino/plural
com acrscimo do s ; o feminino com a substituio do o pelo a, e o feminino/plural com a
troca do o pelo as.
A aplicao automtica do modelo morfolgico adequado a cada lema do dicionrio permite que
outros programas do Zstation identifiquem, nos textos que esto sendo analisados
automaticamente, todas as formas possveis de determinado lema. A utilizao do modelo
morfolgico reduz o nmero de entradas de um dicionrio automtico. Faz-se necessria apenas
uma entrada para cada lema, as demais formas so geradas e reconhecidas automaticamente.

GRAMTICA DE ARGUMENTOS
Esta gramtica especifica como se efetuam as ligaes entre os constituintes relacionados a
determinada funo sinttica. As regras so enunciadas segundo a sintaxe do Zstation, como
descrito a seguir:

r(X,Cat,Fonct,F,Ops), em que:
X = forma a ser encontrada
Cat = categoria associada X
Fonct = funo associada X
F = forma de referncia
Ops = operaes lingsticas
As regras da gramtica de argumentos possibilitam que o sistema identifique e analise, nos
enunciados do corpus, as seqncias que devem ser interpretadas segundo os parmetros
estabelecidos nos argumentos. A interpretao dos enunciados recorre tambm s informaes
semnticas descritas na Ontologia.
As regras estabelecidas para o argumento convpojur0 do exemplo 2, demonstram o uso da
gramtica :

Regra 1 : r(X,sub_de,Spsagt,F[match(F,de,X)])
http://www.dgz.org.br/fev02/Art_05.htm (16 de 28)20/7/2005 08:00:57
Artigo 05
Regra2 : r(X,sub_contra,Spcomp1,F[match(F,contra,X)])
Na primeira parte da regra, que est fora do parnteses, encontram-se as variveis a serem
interpretadas. As informaes includas nos parnteses orientam o sistema a interpretar as
variveis estabelecidas.
A regra 1, por exemplo, determina que, encontrando uma seqncia F + de + substantivo, o
sistema deve interpretar de + substantivo como sintagma preposicional em relao de sujeito
agente (Spsagt). Da mesma maneira ser interpretada a regra 2: ao encontrar as seqncias
indicadas pelo comando match, o sistema dever interpret-las como sintagma preposicional em
relao de complemento (Spcomp1). A interpretao dos enunciados recorre tambm s
informaes semnticas descritas na Ontologia.

ONTOLOGIA
A relao temtica definida num argumento especificada na Ontologia, que se constitui numa
representao linear dos grficos conceituais. A Ontologia representa objetos e relaes de um
domnio especfico. Cada conceito uma entrada na Ontologia, sendo acompanhado dos tipos de
relaes que podem ser com ele estabelecidas. As relaes podem indicar uma propriedade do
conceito (relao ISA) ou as relaes que este possui com outros conceitos ou classes de
conceitos.
Os conceitos definidos para o lema ao, no dicionrio, foram registrados da seguinte maneira na
Ontologia :

praticao0
r(0,isa,+abstrato0)
r(0,FIN,+aes0)
titcred0
r(0,isa,+produto comercivel0)
r(0,ORIG,+instifin0)
r(0,POSS,+animado0)
convpojur0
r(0,ISA,ao-processo)
r(0,AGNT,+animado0)
r(0,OBJ,+animado0)
http://www.dgz.org.br/fev02/Art_05.htm (17 de 28)20/7/2005 08:00:57
Artigo 05
A cada relao podem ser especificadas, se necessrio, as caractersticas ou categorias
conceituais que delimitam os tipos de conceitos com os quais esta relao pode ser estabelecida.
Cada relao contm trs tipos de informao :

a) um cdigo que indica se uma declarao obrigatria (1) ou facultativa (0) ;
b) um identificador de relao temtica; e
c) um conceito, caracterstica ou classe de conceito com o qual se estabelece a relao
temtica. O smbolo + indica os que so aceitos, aqueles com os quais a relao pode ser
estabelecida, e o smbolo - informa os que no so aceitos.
Os conceitos indicados nas relaes devem ser tambm includos na Ontologia, at se chegar s
classes mais genricas da cadeia hierrquica, cujo supertipo U. A Ontologia forma um treillis
de conceitos estabelecendo-se, portanto, um mecanismo de hereditariedade. Os subtipos herdam
as propriedades de seus supertipos. Indicando-se na Ontologia que banco uma instfin0
(instituio financeira), este conceito ser aceito para a relao ORIG do conceito titcred0.
O conceito instfin0 um subtipo de instituio0, que, por sua vez, um subtipo de entidades
animadas. Segundo esta cadeia hierrquica, qualquer conceito do tipo instituio0 aceito na
relao AGNT de convpojur0.
Na pesquisa realizada, as caractersticas eleitas para se estabelecer a Ontologia levaram em conta
as reas de assunto do Mercosul, tema do corpus de pesquisa.

DESAMBIGUAO APLICANDO TRATAMENTO SINTTICO-SEMNTICO
O conjunto de dados registrados no Dicionrio, na Gramtica Morfolgica, na Gramtica de
Argumentos e na Ontologia foram utilizados para efetuar-se o tratamento sinttico-semntico de
enunciados do corpus de pesquisa, verificando a ocorrncia de ambigidades e se estas foram
solucionadas ou no pelo sistema Zstation.
Fornecendo o enunciado : A empresa vende produtos ao consumidor, o sistema gera o seguinte
Grfico Conceitual:

[VENDER]-
(AGNT) => [EMPRESA]
http://www.dgz.org.br/fev02/Art_05.htm (18 de 28)20/7/2005 08:00:57
Artigo 05
(OBJ) => [PRODUTOS]
(BEN) => [CONSUMIDOR]
Aplicando as regras de formao de grficos conceituais, o Zstation capaz de analisar, tambm,
os seguintes enunciados :

Venda de gs ao consumidor.
O Brasil vender caf ao Paraguai.
O exportador vendeu vinho loja.
Como gs, caf e vinho so tipos de produtos, so aceitos como argumento da relao objeto
(OBJ) de vender; Brasil e exportador so aceitos como agentes (AGNT) de vender e consumidor,
Paraguai e loja pelo trao +animado, so tambm aceitos como argumentos da relao
beneficirio (BEN) de vender. O sistema analisar corretamente estes enunciados pois:

a) dispe da informao, no Dicionrio de Formas, de que vender e vendeu so formas
do lema vender, e as reconhece como verbos;
b) reconhece tambm as categorias gramaticais das demais formas do enunciado, uma vez
que estas se encontram indicadas pelos modelos morfolgicos informados para cada lema
no Dicionrio de Base;
c) interpreta os papis temticos e as funes sintticas desempenhadas por cada palavra
que compe os enunciados, com base nos argumentos indicados no Dicionrio; nas
estruturas sintticas descritas na Gramtica de Argumentos e nas relaes e nos traos
semnticos informados na Ontologia.
A anlise em GCs realizada pelo sistema permite testar e avaliar se as restries sinttico-
semnticas, registradas nas bases de conhecimento, so suficientes para solucionar casos de
ambigidades ocasionados por homografias e polissemias.
As seqncias constitudas de nome abstrato de ao[7] + sintagmas preposicionais (Sprep),
extradas automaticamente do corpus pelo sistema Zstation, so utilizadas como massa de teste de
soluo de ambigidades por meio de tratamento sinttico-semntico.
Pelos resultados da anlise em GCs, possvel verificar se ocorre ou no ambigidade. Em caso
afirmativo, realiza-se o teste de desambigao, aplicando restries sinttico-semnticas. Dessa
http://www.dgz.org.br/fev02/Art_05.htm (19 de 28)20/7/2005 08:00:57
Artigo 05
forma, possvel concluir se o sistema capaz de selecionar um significado entre as alternativas
de interpretao possveis.
Os grficos cannicos a e b informam, respectivamente, que vender exige como objeto (OBJ)
um produto comercivel e que ao um objeto comercivel, um tipo de ao ou um efeito. O
nome ao, portanto, polissmico, mas, dispondo das informaes contidas nos grficos, o
Zstation capaz de escolher o significado valor financeiro para esta forma, no enunciado
regras de preferncia para os casos de venda de aes e aumento do capital social.

a) [VENDER]-
(OBJ) => [PRODUTO COMERCIVEL]
b) [AO]-
(ISA) => [PRODUTO COMERCIVEL]
(ISA) => [AGIR]
(ISA) => [EFEITO]
Os testes realizados demonstraram que outros tipos de ambigidades tambm podem ser
solucionadas por meio de tratamento sinttico-semntico, como exemplificado a seguir.

Ambiguidade predicativa
Este tipo de ambigidade ocorre quando mais de um tipo de relao temtica pode ser
estabelecido entre predicado e argumentos. Os nomes abstratos de ao que indicam ao-
processo e que possuem os argumentos objeto e agente introduzidos pela preposio de podem
apresentar ambigidade predicativa.
Quando o argumento no possui o trao +animado, no ocorre ambigidade, sendo corretamente
interpretado como objeto, uma vez que um inanimado no pode funcionar como agente. Resta,
portanto, apenas uma interpretao, como em aprovao da tarifa, avaliao da proposta e
regulamentao das normas.
No entanto, quando o argumento possui o trao +animado, ocorre dupla interpretao. O
argumento pode ser interpretado como agente ou objeto, como em administrao dos estados,
aprovao da comisso, designao do diretor e regulamentao do estado. Nestes casos, duas
anlises em GCs so possveis, como no exemplo de designar, em que a primeira interpretao
equivale a o diretor designa algum e a segunda a algum designa o diretor.

DESIGNAR-
http://www.dgz.org.br/fev02/Art_05.htm (20 de 28)20/7/2005 08:00:57
Artigo 05
(AGNT) - [DIRETOR]
(OBJ) - [+ANIMADO]
DESIGNAR
(AGNT) - [+ANIMADO]
(OBJ) - [+DIRETOR]
Segundo Borba [xi], este tipo de ambigidade ocorre porque o sintagma preposicional em relao
subjetiva pode se tornar contguo ao nome abstrato, passando a ser introduzido por de, por causa
do apagamento[8] do sintagma preposicional em relao objetiva e, ainda, devido possibilidade
de apagamento do sintagma preposicional em relao subjetiva.
Quando no h apagamento, no ocorre ambigidade predicativa, como em aprovao pelo
Organismo Executor do relatrio final.

APROVAR
(AGNT) - [ORGANISMO EXECUTOR]
(OBJ) - [RELATRIO FINAL]
Com base nos testes realizados em ocorncias do corpus de pesquisa, possvel afirmar que a
ambigidade predicativa pode ser solucionada, por meio de tratamento sinttico-semntico,
quando outros elementos do contexto oferecem restries que orientem a escolha da interpretao
correta.

Polissemia
A polissemia dos verbos subjacentes tambm ocasiona polissemia nos nomes abstratos de ao
correspondentes, como no caso do verbo determinar, que pode significar estabelecer, fixar e
ordenar.
Pela anlise da valncia, observa-se que a natureza dos argumentos pode, em certos contextos,
solucionar a ambigidade do nome determinao, como nos exemplos a seguir:

a) trao semntico +princpios permite atribuir o significado estabelecer em
determinao de requisitos;
b) trao semntico +valor permite atribuir o significado fixar em determinao do
montante; e
http://www.dgz.org.br/fev02/Art_05.htm (21 de 28)20/7/2005 08:00:57
Artigo 05
c) trao semntico +ao permite atribuir o significado ordenar em determinao da
cessao;
Estes traos so considerados pelo sistema no momento da anlise em GCs, permitindo a
interpretao correta do significado do nome abstrato de ao.
Ocorre tambm polissemia entre o conceito do verbo subjacente e o de uma entidade concreta ou
abstrata envolvida na ao como o agente, o objeto, o resultado ou o instrumento utilizado na
ao. Os nomes notificao (ao ou resultado de notificar?), pedido (ao ou resultado de
pedir?) e administrao (ao ou agente de administrar?), exemplificam este tipo de polissemia.
Nestes casos, o trao semntico do argumento ou a valncia de outro elemento do contexto
permitem a desambigao, como nos exemplos a seguir:

a) A Presidncia Pro Tempore da Comisso remeter aos demais Estados-Parte cpia
das notificaes referidas no art...
O argumento objeto (OBJ) de copiar representado, na estrutura superficial do nome abstrato de
ao, por um substantivo precedido da preposio de (sub_de). Este argumento preenchido por
um conceito do tipo documento. Com base nestes dados, o sistema decidiu corretamente pela
interpretao documento (resultado da ao) para o nome notificao.

b) Os resultados da investigao devero ser comunicados s autoridades do pas
importador em um prazo no superior a quarenta e cinco (45) dias corrigidos, contados a
partir da data de recebimento do pedido.
Como a ao de receber exige um argumento objeto com o trao +concreto, o sistema decidiu
corretamente pelo significado documento, para o nome pedido, descartando o significado ao
de pedir.

c) As informaes fornecidas administrao aduaneira ou por esta obtida...
Os argumentos do conceito fornecer0 permitiram a soluo da polissemia de administrao, no
contexto exemplificado acima. A preposio a introduz o constituinte que preenche o argumento
beneficirio. Este argumento exige um conceito com o trao +animado. Dessa maneira, o
http://www.dgz.org.br/fev02/Art_05.htm (22 de 28)20/7/2005 08:00:57
Artigo 05
significado instituio foi o escolhido pelo sistema.
Nos casos exemplificados, assim como em outros analisados, o sistema pde escolher uma nica
interpretao. Isto foi possvel pois a valncia sinttico-semntica dos constituintes que
precederam ou sucederam os nomes forneceram parmetros sinttico-semnticos que
restringiram o tipo de conceito que pode preencher seus argumentos.
Em outros contextos, porm, os constituintes no ofereceram elementos para a desambiguao,
como nos exemplos d, e, f:

d) As mercadorias somente podero ser descarregadas ou transportadas mediante
autorizao da autoridade aduaneira...
e) inutilizar ou dificultar a operao de equipamento...
f) Para suas comunicaes oficiais, a Secretaria dispor de facilidades no menos
favorveis que as outorgadas pela Repblica s misses diplomticas...
No exemplo d, as duas interpretaes so possveis : +documento e +ao. No entanto, a relao
que ocorre entre a autorizao e autoridade aduaneira permanece sendo a mesma : a autoridade
aduaneira quem concedeu a autorizao.
No exemplo e , a ambigidade causada pela ocorrncia de polissemia nos dois nomes -
operao e equipamento. O nome operao, no sentido de manobrar exige um argumento com
o trao +equipamento e, no sentido de efetuar operao, um argumento com o trao +ao.
Neste caso, as duas interpretaes so possveis, uma vez que a forma equipamento admite os
dois traos.
O nome comunicao, no exemplo f, admite tanto a interpretao dinmica (ao da Secretaria se
comunicar) quanto a esttica (documentos do tipo comunicao elaborados pela Secretaria). A
soluo deste tipo de ambigidade s possvel quando outros elementos do contexto oferecem
parmetros sinttico-semnticos que favorecem uma ou outra interpretao. Na frase No sero
objeto de censura a correspondncia e outras comunicaes oficiais da Secretaria. , o nome
censura favorece a interpretao documento para comunicaes.

Homografia
Quando no ocorre relao semntica entre as entidades e as aes representadas pelo nome
abstrato de ao, estes foram classificados como homgrafos, como no caso do nome ao, que
http://www.dgz.org.br/fev02/Art_05.htm (23 de 28)20/7/2005 08:00:57
Artigo 05
pode significar ttulo de crdito (ex.: venda de aes); praticar ao (ex.: ao de articulao);
convocar o poder jurisdicional (ex.: ao administrativa ou judicial) ou efeito (ex.: substncia
de ao hormonal)
Nos testes efetuados, o nome ao foi desambiguado pelo sistema nas seguintes situaes :
a) quando o argumento do prprio nome introduzido pela preposio de possua o trao +aes
[9], como em aes de apoio ; aes de articulao. Nestes casos o conceito praticar ao foi
selecionado pelo sistema ;
b) quando este nome se constitua num argumento ou especificador de outro elemento predicador,
como em :

i) venda de aes ; transferncia de aes. Os nomes venda e transferncia admitem
como argumento apenas o conceito de ttulo de crdito ;
ii) os pases-membros realizaro aes necessrias. Entre os diferentes conceitos de ao,
o verbo realizar admite o conceito praticar ao ;
iii) substncia de ao hormonal. Como caracterstica do nome substncia, apenas o
conceito efeito aceito para o nome ao.
No foi possvel solucionar a ambigidade quando o argumento de ao possua o trao +
animado, como em aes do estado. Neste caso, o sistema admitiu as seguintes interpretaes :

[TTULO DE CRDITO]-
(POSS) - [ESTADO]
[TTULO DE CRDITO]-
(ORIG) - [ESTADO]
[PRATICAR AO]
(AGNT) - [ESTADO]
[CONVOCAR PODER JURISDICIONAL]
(AGNT) - [ESTADO]
Para todos os tipos de ambigidades identificados nos testes realizados, a desambiguao foi
possvel quando a valncia sinttica e semntica do nome ou de outros constituintes presentes no
contexto, bem como os traos semnticos de seus argumentos, forneceram restries que
orientaram a escolha de uma entre as possveis interpretaes.
http://www.dgz.org.br/fev02/Art_05.htm (24 de 28)20/7/2005 08:00:57
Artigo 05

CONCLUSO
Os avanos tecnolgicos influenciam a rea de informao e conduzem ao surgimento de novas
tcnicas de representao e recuperao de contedo. No contexto tecnolgico atual, h tendncia
para o desenvolvimento de sistemas inteligentes de recuperao de informao com base em
processamento de linguagem natural, em funo da disponibilidade de textos completos em
mquina e da necessidade de interfaces voltadas para o usurio final. Os sistemas de recuperao
exigem, para isso, modelos de representao do conhecimento que possibilitem contextualizar os
significados expressos nos textos armazenados.
fato que os sistemas de recuperao da informao evoluram com a utilizao de novas
tecnologias. No entanto, os resultados so mais visveis nas interfaces inteligentes e na
disponibilizao da informao para o usurio final atravs de redes de comunicao. Em relao
ao tratamento do contedo, as pesquisas encontram-se ainda em nvel experimental. Mesmo
assim, so primordiais, uma vez que o tratamento de contedo constitui-se no corao do sistema
de recuperao da informao. De nada adiantam interfaces inteligentes se elas conduzem
recuperao de documentos irrelevantes, ocasionada por problemas de tratamento de contedo.
H consenso de que quanto mais conhecimento lingstico/cognitivo for incorporado ao sistema,
maior preciso obter-se- na recuperao, mas, por sua vez, maior complexidade de
implementao e de manuteno. Deve ser considerado, no entanto, que a busca de informao
traz implcito o conceito de seletividade e, para isso, o preo pago esforo, tempo e dinheiro, ou
os trs juntos, como afirma Meadow [xvi].
Sistemas de recuperao que adotam extrao de palavras por meio de mtodos estatsticos e
aqueles que aplicam anlise sinttica para extrao de sintagmas exigem menor esforo do que os
sistemas que incorporam tratamento semntico. Apesar disso, no so capazes de solucionar
problemas lingsticos como a ambigidade e a sinonmia, tratadas nos sistemas tradicionais que
utilizam linguagens documentrias.
Um sistema de recuperao em linguagem natural pode tratar determinados tipos de ambigidade
quando dispe de informaes relativas valncia sinttico-semntica das unidades lexicais que
compem um enunciado, como demonstram os resultados dos testes de desambiguao
exemplificados neste artigo.
A utilizao de Grficos Conceituais como modelo de representao interna de sistemas de
recuperao em linguagem natural pode se constituir em alternativa de soluo de ambigidades
que interferem no grau de preciso desses sistemas. A experincia dos sistemas Dr-Link [xvii] e
Elen [xviii] demonstram este potencial ao transformar o contedo dos documentos e das
perguntas dos usurios numa representao em Grficos Conceituais.
http://www.dgz.org.br/fev02/Art_05.htm (25 de 28)20/7/2005 08:00:57
Artigo 05
Num modelo desta natureza, a comparao entre o contedo dos documentos e da pergunta do
usurio efetua-se em nvel de conceito - estrutura profunda - e no de forma estrutura
superficial. Como os GCs operam com base em dados sinttico-semnticos, possibilitam a
interpretao unvoca de formas polissmicas ou homgrafas.
Esquemas de representaes do conhecimento desenvolvidos em outras disciplinas, como
Inteligncia Artificial, Psicologia e Lingstica, tm despertado interesse crescente na criao de
bases de conhecimento que possam ser usadas em recuperao da informao. Cabe aos
pesquisadores da rea de Cincia da Informao acompanhar os desenvolvimentos dessas reas e
avaliar a possibilidade de aplicao e a adequao de novos mtodos e tcnicas recuperao de
informao.

NOTAS
[1] A lngua oral no objeto de estudo neste trabalho. Por este motivo, exclui-se aqui a
ambigidade causada por homofonia.
[2] Neologismo sugerido pela Prof. Dra. Enilde Faulstich, orientadora da pesquisa realizada.
[3] Arquivos, no sentido de conjunto de documentos podem ser objeto de compra, mas em
contextos muito restritos. Mesmo considerando-se este fator, seria possvel desambiguar a frase
exemplificada pela anlise da relao finalidade, introduzida pela preposio para.
[4] Na teoria dos GCs, as etiquetas de tipo so escritas em letras maisculas para diferenci-las
do conceito em si mesmo.
[5] Segundo o nmero de arcos, as relaes conceituais so denominadas por Sowa como
monoades (um arco) ; dades (dois arcos) ; trades (trs arcos)...n-ades (n arcos).
[6] Lema: unidade de coleta na sua forma gramatical neutra, i.e., sem conjugao, sem flexo,
etc.
[7] Os deverbais, nomes formados a partir de radicais verbais, so denominados por Borba [xi] de
nomes abstratos de ao.
[8] O apagamento uma operao sinttica que consiste do cancelamento de um constituinte.[xi].
[9] Aes no sentido de classe conceitual da Ontologia.

REFERNCIAS BIBLIOGRFICAS
http://www.dgz.org.br/fev02/Art_05.htm (26 de 28)20/7/2005 08:00:57
Artigo 05
[i] NETWORK Digital Library Thesis and Dissertations.Diponvel em:<http://www.ndltd.org>
[ii] OPEN archives initiative. Disponvel em:< http://www.openarchives.org >
[iii] CHEN, Hsinchun. Semantic research for digital libraries. D-Lib Magazine, v.5, n. 10
out.1999. Disponvel em : <http://www.dlib.org/dlib/october99/chen/10chen.html. > Acesso em:
19 abr. 2001.
[iv] CRANEFIELD, Stephen. Networked knowledge representation and exchange using UML
and RDF. Journal of Digital Information, Southampton, v. 1, n. 8, fev. 2001. Disponvel em:
<http://jodi.ecs.soton.ac.uk/Articles/v01/i08/Cranefield/>. Acesso em: 12 mar. 2001.
[v] PROCEEDINGS of the workshop on the semantic web: models, architectures and
management, Fourth European Conference on Research and Advanced Technology for digital
libraries (ECDL 2000). < http://www.ics.forth.gr/proj/isst/SemWeb/proceedins >
[vi] DOERR, Martin. Semantic problems of thesaurus mapping. Journal of Digital Information,
Southampton, v. 1, n. 8, mar. 2001. Disponvel em: <http://jodi.ecs.soton.ac.uk/Articles/v01/i08/
Doerr/>. Acesso em: 12 mar. 2001.
[vii] HUNTER, Jane. MetaNet: a metadata term thesaurus to enable semantic interoperability
between metadata domains. Journal of Digital Information, Southampton, v. 1, n. 8, fev. 2001.
Disponvel em: < http://jodi.ecs.soton.ac.uk/Articles/v01/i08/Hunter/>. Acesso em: 12 mar. 2001.
[viii] BERNERS-LEE, Tim; HENDLER, James; LASSILA, Ora. The semantic web. Scientific
American, mai. 2001. Disponvel em: <http://www.ciam.com/2001/0501issue/0501berners-lee.
html >. Acesso em: 19 abr. 2001.
[ix] FUCHS, C. Lambigut et la paraphrase en linguistique. In : FUCHS, C., ed.
Lambigut et la paraphrase : operations linguistiques, processus cognitifs, traitements
automatiss. Caen : Centre de Publications de LUniversit de Caen, 1987. p.9 - 20.
[x] FUCHS, C. Les ambiguts du franais. Paris : Orphys, 1996. 183p.
[xi] BORBA, F. S. Uma gramtica de valncias para o portugus. So Paulo : tica, 1996.
199p.
[xii] SOWA, J. F. Conceptual Structures : information processing in mind and machine.
Massachusetts : Addison-Wesley, 1984. 435 p.
[xiii] WAY, C. E. Conceptual graphs past, present and future. In : INTERNATIONAL
http://www.dgz.org.br/fev02/Art_05.htm (27 de 28)20/7/2005 08:00:57
Artigo 05
CONFERENCE ON CONCEPTUAL STRUCTURES ICCS94, 2. August 1993, Maryland.
Proceedings... p. 11-29. (Lectures Notes in Artificial Intelligence, 835).
[xiv] BRSCHER, M. Tratamento automtico de ambigidades na recuperao da
informao. 1999. 286p. Tese (Doutorado em Cincia da Informao) Universidade de
Braslia.
[xv] ZINGL, H. La modelisation des langues naturelles: aspects thoriques et pratiques.
Travaux du LILLA, numro spcial, 1999. 151p.
[xvi] MEADOW, C. T. Text information retrieval systems. San Diego : Academic Press,
1992. 302p.
[xvii] CHEVALLET, J.-P. Un modle logique de recherche dinformations appliqus au
formalisme des graphes conceptuels : le prototype ELEN et son exprimentation sur un
corpus de composants logiciels. 1992. Tese (Doutorado) Universit Joseph Fourrier.
[xviii] MYAENG, S. H. ; LI, M. Linguistic processing of text for a large-scale conceptual
information retrieval system. In: INTERNATIONAL CONFERENCE ON CONCEPTUAL
STRUCTURES ICCS94, 2. , August 1994, Maryland. Proceedings...p. 69-83. (Lectures Notes
in Artificial Intelligence, 835).

Sobre a autora / About the Author:
Marisa Brscher
marisa@ibict.br
Doutora em Cincia da Informao pela Universidade de Braslia
Coordenadora Geral de Projetos Especiais do IBICT

http://www.dgz.org.br/fev02/Art_05.htm (28 de 28)20/7/2005 08:00:57

You might also like