You are on page 1of 14

Web Semntica: Conceitos Bsicos e Tecnologias Associadas1

Tatiane Domingos Dias


Neide Santos
Departamento de Informtica e Cincia da Computao
Instituto de Matemtica e Estatstica - Universidade do Estado do Rio de Janeiro
neide@ime.uerj.br
Resumo: O tutorial tem como objetivo apresentar os
principais conceitos e tecnologias sobre a Web
Semntica. O trabalho aborda os problemas da
estruturao, entrega
e interoperabilidade de
informaes na Web, as ontologias e as tecnologias
propostas para representao do conhecimento e de seu
contedo semntico.

1. Introduo
Uma rea atual de pesquisa e desenvolvimento em
Cincia da Computao trata da questo da semntica
envolvida na recuperao da informao na Web. A
Web Semntica objetiva dar uma estrutura aos
contedos das pginas Web, criando um ambiente onde
agentes de software perambulam pelas pginas para
desempenhar tarefas sofisticadas requisitadas pelos
usurios. Entre estas tarefas, est a busca
contextualizada da informao.
Um dos objetivos originais da Web era a troca de
informao entre pessoas, mas de forma de que os
computadores pudessem participar da comunicao,
ajudando os usurios. Os computadores na Web,
atualmente, tm papel somente no direcionamento e
entrega de informaes, no tendo acesso ao contedo
das pginas, porque essa informao est estruturada
para utilizao pelas pessoas e no por mquinas. Hoje,
temos uma Web de documentos e no de informaes.
Por isso, os computadores oferecem ajuda limitada no
acesso e processamento da informao, deixando as
funes de extrao e interpretao dessa informao a
cargo dos usurios.
A Web Semntica visa resolver este problema,
estruturando o contedo das pginas Web de forma que
a informao possa ser interpretada pelas mquinas. A
proposta no a de uma Web separada da atual, mas
uma extenso da mesma, baseada em documentos as
ontologias - descrevendo relacionamentos entre objetos
e contendo informao semntica dos mesmos para
automatizar o processamento pelas mquinas.

Na Web h uma quantidade imensa de informaes


no pertinentes que fornecida pelos processos de
busca. As ferramentas de busca enfrentam a dificuldade
de executar pesquisas entre documentos que no esto
diferenciados em termos de assunto, qualidade e
relevncia. A tecnologia atual no capaz de diferenciar
uma informao comercial de uma educacional, ou
informao entre idiomas, culturas e mdia. necessrio
haver informaes de qualificao da prpria
informao, chamada de metadados, para ser possvel
classific-las e tornar os processos de busca mais
eficazes. Algumas dessas novas estruturas necessrias
j foram definidas e outras ainda esto sendo
desenvolvidas pelo Word Wide Web Consortium
(W3C). W3C um composto de organizaes
interessadas na definio e desenvolvimento de novos
conceitos, protocolos e padres de estruturas para a
Web, visando obter maior eficcia de seus recursos.
O trabalho desenvolvido pelo W3C tem como foco o
acesso universal Web Semntica para desenvolver um
ambiente onde a informao seja expressa de maneira a
possibilitar a automatizao de tarefas e a melhor
utilizao dos recursos por parte dos usurios. Outro
objetivo a criao de uma Web confivel, oferecendo
confiabilidade e possibilitando que as pessoas assumam
a autoria e responsabilidade por suas publicaes. Um
dos princpios fundamentais utilizados no design de
tecnologias para a Web a interoperabilidade. As
especificaes de linguagens e protocolos para Web
devem ser compatveis entre si de forma a permitir que
qualquer tipo de hardware ou software utilizado para
acessar a Web possa trabalhar em conjunto com estas
especificaes. Para tanto, o W3C faz uso de princpios
como interoperabilidade, evoluo e descentralizao
para desempenhar suas tarefas de identificao de novas
tecnologias para a Web e de projeo e padronizao
das mesmas.
O objetivo deste tutorial apresentar os principais
conceitos e tecnologias sobre a Web Semntica, pois a
idia de uma Web com semntica recente, e muitos
dos conceitos e tecnologias envolvidos esto ou
dispersos ou mal estruturados e divulgados

______________________________________________________
1

Tutorial extrado de Dias, Tatiane D,. Web Semntica: Fundamentos e Tecnologias. 2001. Trabalho de Concluso de Curso (Graduao em
Informtica) - Universidade do Estado do Rio de Janeiro.

80

: Cadernos do IME : Srie Informtica : Vol. 14 : Junho de 2003

2. Evoluo Histrica da Web


Originalmente, o computador era visto somente
como hardware. Na dcada de 80, ele se transformou
em um sistema capaz de simular jogos, processar textos
e elaborar apresentaes. Hoje em dia, tornou-se um
portal para uma rede de troca de informaes e
transaes comerciais. Como conseqncia, as
tecnologias que do acesso a essas informaes textuais,
no estruturadas e heterogneas se tornaram to
essenciais quanto s linguagens de programao nas
dcadas de 60 e 70. A Internet, mais especificamente a
tecnologia Web, deu incio a estas mudanas e acarretou
uma srie de transformaes de carter tecnolgico,
social e econmico. A Web passou a propiciar uma
nova plataforma para o desenvolvimento de aplicaes
com acesso distribudo por diferentes partes do planeta.
Antes de seu surgimento, os principais servios
utilizados na Internet eram a transferncia de arquivos,
o correio eletrnico e a emulao de terminal, e restritos
aos meios acadmicos e militares. O uso generalizado
da Internet s veio a acontecer, em 1992, com o
surgimento da Web, que organizou as informaes na
Internet por meio de hipertexto e, em um segundo
momento, tornou a interao do usurio com a rede
mundial mais amigvel.
Inicialmente, a Web era um projeto desenvolvido, a
partir de maro de 1989, por Tim Berners-Lee no CERN
(Laboratrio Europeu para Fsica de Partculas), para
acessar informaes estanques espalhadas pelos
diversos laboratrios na Europa, tendo evoludo para um
servio usado globalmente. O que era um sistema
baseado em buscas por hipertexto teve seu crescimento
viabilizado pelo trao cooperativo da Internet, ou seja,
pela colaborao mtua entre os componentes da rede.
A aparente simplicidade da Web gera obstculos para
seu prprio desenvolvimento, j que a tecnologia
utilizada atualmente limita a manipulao da
informao.
O primeiro objetivo do projeto da Web era criar um
ambiente em que pudssemos trabalhar melhor em
grupo tanto no trabalho quanto em casa. A idia era que
criando uma web de hipertexto, os grupos de usurios
seriam forados a utilizar um vocabulrio comum entre
eles para que no ocorressem mal entendidos e, em
algum momento, teriam um modelo na web dos planos e
idias em discusso no grupo. O precursor da web foi
um programa para uso prprio, chamado Enquire,
desenvolvido por Tim Berners-Lee, em 1980, quando
ele ainda trabalhava no CERN (Laboratrio Europeu de
Fsica de Partculas). Este programa tinha o propsito de
manter registros da complexa rede de relacionamentos
entre pessoas, programas, mquinas e idias espalhadas
pelos diversos laboratrios na Europa. Mais tarde, em
1989, ele viria a apresentar uma proposta para a Web
que, na verdade, era uma extenso deste programa
pessoal.

Muito freqentemente desperdiamos tempo e


esforo tentando registrar em documentos idias e
definies discutidas e firmadas em reunies ou
encontros de grupos e acabamos por causar mal
entendidos por causa da subjetividade de interpretao
de cada pessoa. A Web foi desenhada para ser utilizada
como um instrumento de preveno de mal entendidos.
Para que isso funcione, a Web no tem que ser apenas
fcil de se navegar, mas tambm auto-explicativa.
Qualquer informao disponvel na Web pode ser
facilmente assimilada e qualquer informao que esteja
faltando pode ser facilmente adicionada. A Web deve
ser um meio de comunicao entre as pessoas;
comunicao atravs do compartilhamento de
conhecimento. Isso requer que computadores, redes,
sistemas operacionais e programas sejam transparentes
aos usurios, disponibilizando somente uma interface
intuitiva e o mais direta possvel com a informao.
O segundo objetivo da Web, dependente do
primeiro, baseado na premissa que se h informao
disponvel na Web ento possvel estruturarmos esta
informao, criando um mapa de relacionamentos e
dependncias. Isso possibilitaria o acesso dos programas
a estas informaes e permitiria que eles nos ajudassem
em sua anlise e gerenciamento. A estruturao do
contedo semntico da informao das pginas web
criaria um ambiente, onde agentes de software executam
tarefas solicitadas pelos usurios e pessoas e
computadores possam trabalhar em cooperao,
deixando a cargo dos computadores qualquer tarefa que
possa ser reduzida a um processo racional.
Apesar de inicialmente estar direcionada ao trabalho
em grupo, a Web se desenvolveu rapidamente como um
ambiente de compartilhamento de documentos e no de
informao que pudesse ser utilizada pelos
computadores. Isso ocorreu devido facilidade de
publicao de documentos na Web e um ambiente onde
poucos publicam e milhares utilizam. Ainda so poucos
os que publicam porque o mercado de softwares de
edio de pginas ainda est amadurecendo lentamente.
A falta de editores de fcil utilizao no o nico
empecilho para a consolidao da Web como um
ambiente de colaborao. H tambm a necessidade de
ferramentas que forneam controle de acesso confivel
garantindo que somente pessoas autorizadas tenham
acesso s informaes, e que estas ferramentas sejam de
fcil manipulao tornando transparente a seus usurios
os detalhes pertinentes aos sistemas operacionais.
Na verdade, h tambm um limite do que possvel
de ser feito somente pelos humanos, sem interferncia
das mquinas. Uma das maiores queixas dos
navegadores iniciantes a quantidade imensa de
informaes no pertinentes fornecida pelos processos
de busca na Web.
Algumas das novas estruturas necessrias j foram
definidas e outras ainda esto sendo desenvolvidas pelo

Cadernos do IME : Srie Informtica : Vol. 14 : Junho de 2003 :


W3C. Seus interesses esto voltados para novas reas e
conceitos que esto emergindo como intranet, comrcio
eletrnico e e-learning, e que podem agregar a evoluo
da Web. Eles procuram alcanar consenso sobre
protocolos a serem aplicados nestas reas, regras que
possibilitem a comunicao entre mquinas, pois a
partir da criao desses protocolos que se torna hbil o
desenvolvimento de novas aplicaes capazes, ento, de
se comunicarem. Essa a chave para qualquer
desenvolvimento na Web e para a criao de um
ambiente realmente interativo.
O trabalho desenvolvido pelo W3C tem como foco
os seguintes objetivos [W3C01] [W3C02]:

Acesso universal: colaborar para que a Web se


torne acessvel a todos a partir do desenvolvimento
e utilizao de tecnologias que contemplem as
grandes divergncias culturais, educacionais, de
recursos, e principalmente as limitaes fsicas dos
usurios em todo o mundo;

Web Semntica: desenvolver um ambiente onde a


informao seja expressa de maneira a possibilitar a
automatizao de tarefas e melhor utilizao dos
recursos por parte dos usurios;

Web confivel: guiar o desenvolvimento na Web


considerando cuidadosamente os aspectos legais,
comerciais e sociais da tecnologia em questo. Criar
uma Web que oferea confiabilidade e possibilite
que as pessoas assumam a autoria e
responsabilidade por suas publicaes.
W3C concentra seus esforos em trs principais
tarefas [W3C01] [W3C02]:

Viso: promover e desenvolver sua viso a respeito


do futuro da World Wide Web. Devido
contribuio de milhares de pesquisadores e
engenheiros que trabalham em organizaes filiadas
ao W3C e a comunidade da Web, possvel que o
W3C identifique os requerimentos tcnicos
necessrios para que a Web se torne um verdadeiro
espao universal de compartilhamento de
informao;

Design: projetar tecnologias para a concretizao de


sua viso tendo como base trs princpios
fundamentais: interoperabilidade, evoluo e
descentralizao. Esses princpios sero descritos
mais adiante;

Padronizao: contribuir para reforar a


padronizao de tecnologias Web produzindo
especificaes, denominadas recomendaes, que
descrevem as etapas de construo. Estas
recomendaes esto disponveis para serem
acessadas por qualquer pessoa interessada e sem
nenhum custo.
Como foi especificado anteriormente, existem trs
princpios fundamentais utilizados no design de
tecnologias para a Web [W3C01] [W3C02]:

Interoperabilidade:
as
especificaes
ou
recomendaes de linguagens e protocolos para

81

Web devem ser compatveis entre eles e permitirem


que qualquer tipo de hardware ou software utilizado
para acessar a Web possa trabalhar em conjunto
com estas especificaes;
Evoluo: a Web precisa ser capaz de acomodar
tecnologias futuras, e para isso, conceitos como
simplicidade, modularidade, compatibilidade e
extensibilidade, devem ser considerados na
especificao de tecnologias e protocolos. Assim, as
chances de compatibilidade das tecnologias
dispostas atualmente na Web com tecnologias
emergentes aumentam muito;
Descentralizao: este o princpio utilizado pelos
sistemas distribudos e o mais difcil de ser
considerado no design de tecnologias. necessrio
eliminar o mximo de dependncias existentes em
centrais de registro, gerando um ambiente flexvel e
fundamental para a evoluo no s da Web, mas
da Internet como um todo.

Para atingir os objetivos de criao de uma Web de


acesso universal e que contenha informaes
estruturadas de maneira a serem utilizadas pelas
mquinas na automao de tarefas e informaes
confiveis em que possam ser identificados os autores e
responsveis por suas publicaes, o W3C faz uso de
princpios como interoperabilidade, evoluo e
descentralizao.

3. Web Semntica
O primeiro passo para dotar a Web de semntica a
construo das chamadas ontologias de domnio. Para
Berners-Lee, Hendler e Lassila [TBL01], uma ontologia
tpica para a Web composta de uma taxonomia e um
conjunto de regras de inferncia. Mas elas no seriam
suficientes para imprimir semntica Web, requerendo
a adoo de tecnologias novas, como por exemplo,
XML (Extensible Markup Language) [XML] e RDF
(Resource Description Framework) [RDF]. XML
possibilita a criao de tags, campos de texto que ficam
escondidos nas pginas web. Os programas ou scripts
podem fazer uso dos tags de vrias formas, mas o
programador precisa saber o significado de cada tag
criado pelos autores das pginas para utiliz-los. Ou
seja, XML permite que o usurio adicione estruturas
arbitrrias a seus documentos, mas no permite
representar o significado de cada estrutura. Este seria o
papel desempenhado pelo RDF - expressar significado
s estruturas. O RDF codifica os tags em um conjunto
de triplas, sendo cada tripla dotada de um sujeito, verbo
e objeto de uma sentena simples. Essas triplas podem
ser escritas utilizando XML tags. Em RDF, um
documento pode fazer assertivas sobre relaes entre
coisas tais como Maria (sujeito) irm (verbo) de Pedro
(objeto). Essa estrutura tende a ser uma maneira natural
de descrever a maioria das informaes processadas
pelos computadores. O sujeito e o objeto desta sentena
so identificados, cada um, por um indicador universal
denominado URI (Universal Resource Identifier), como

82

: Cadernos do IME : Srie Informtica : Vol. 14 : Junho de 2003

os utilizados em links nas pginas web, j que a URL


(Uniform Resource Locator) o tipo mais comum de
URI. Os verbos tambm seriam identificados por URIs,
facilitando a definio de novos verbos ou conceitos
apenas pela criao de novas URIs em qualquer lugar na
Web [TBL01].
Utilizando URIs para codificar informaes de
relacionamentos entre objetos assegura-se que esses
conceitos no so somente palavras escritas em um
documento, mas tambm so definies nicas
acessveis a todos na Web. Se, por exemplo, tivssemos
acesso a vrios bancos de dados contendo informaes
sobre pessoas, inclusive seus endereos e se
quisssemos encontrar algum que reside em um cdigo
de endereamento postal especfico, precisaramos saber
que campo em cada banco de dados se refere ao nome
desta pessoa e qual se refere ao cdigo, para realizarmos
esta busca. O RDF seria capaz de representar esta
informao atravs de sentenas que utilizam URI para
cada termo.
possvel que vrios bancos de dados utilizem
identificadores diferentes para conceitos iguais. Um
programa que queira comparar ou utilizar informaes
de distintos bancos de dados precisa saber que
diferentes termos tm o mesmo significado. Esse
objetivo alcanado atravs da criao de colees de
informaes denominadas Ontologias. Ontologia, na
filosofia, significa teoria a respeito da natureza da
existncia. Pesquisadores e estudiosos das reas de
Inteligncia Artificial e Web incluram esse termo em
seus jarges com um significado adaptado que
documento ou arquivo que define formalmente as
relaes entre os termos.
A taxonomia define classes de objetos e
relacionamentos entre os mesmos. Por exemplo, um
endereo pode ser definido como um tipo de localizao
e cdigos de cidade podem ser definidos como
aplicveis somente localizaes. Classes, subclasses e
relacionamentos entre entidades so muito teis para
uso na Web. Entre elas existe o conceito de herana de
propriedades, ou seja, possvel associarmos
propriedades s classes que suas subclasses herdam
automaticamente essas propriedades. Por exemplo, se
cdigos de cidade so definidos como do tipo cidade
que, por conseguinte, possui Web sites, ento podemos
associar um determinado cdigo de cidade a um site
Web sem existir um relacionamento direto entre os dois.
As regras de inferncia so de essencial importncia
para as ontologias. Atravs delas possvel
expressarmos, por exemplo, que se um cdigo de
cidade estiver associado a um determinado estado, ento
os endereos que utilizam este cdigo de cidade tambm
esto associados a este estado. Um programa poderia
deduzir que se a rua Paissandu, localizada na cidade do
Rio de Janeiro, pertence ao estado do Rio de Janeiro e,
por conseguinte, ao pas Brasil, ento, as informaes

devem seguir os padres brasileiros de formatao. O


computador realmente no entende esse tipo de
informao, mas consegue manipul-lo de maneira a
desempenhar um papel mais significante e eficaz de
ajuda ao usurio.
Pginas Web baseadas em ontologias so o comeo
de muitas solues para os problemas de terminologia.
O significado de alguns termos e cdigos XML
utilizados nas pginas podem ser definidos atravs da
criao de ponteiros para ontologias. Continuaro
existindo alguns problemas inerentes aos usurios, pois
se uma pessoa cria um ponteiro para uma ontologia que
define um endereo atravs da informao de cep e
outra pessoa cria um ponteiro para uma ontologia que
tambm define endereo, mas utilizando a informao
de caixa postal necessrio que ambas as ontologias ou
outro servio web qualquer seja capaz de identificar que
a informao de cep equivalente a de caixa postal.
As ontologias podem agregar valor ao
funcionamento da Web, j que podem ter vrias
aplicaes diferenciadas. A forma mais simples seria
aumentar a preciso dos mecanismos de busca de
informao. Os programas de busca pesquisariam
somente em pginas que fizessem referncia a um
conceito pr-definido ao invs de pesquisar todas as que
contenham palavras-chave. As aplicaes mais
avanadas as utilizariam com o objetivo de relacionar o
contedo das pginas s suas estruturas existentes de
conhecimento e regras de inferncia.
O potencial da Web Semntica ser realmente
compreendido quando forem desenvolvidos programas
que sejam capazes de efetuar buscas de informao de
diferentes fontes disponveis na Web, as processem e
compartilhem os resultados com outros programas. A
eficcia dos programas, baseados em agentes, tende a
aumentar na medida em que houver mais contedo na
Web estruturado de maneira que possa ser utilizado
pelos computadores. Os agentes seriam responsveis
por captar as necessidades do usurio, pesquisar e
disponibilizar os resultados esperados de forma
interativa.

3.1. Heterogeneidade da Informao


A integrao de informaes na Web um assunto
muito discutido pelos estudiosos da rea. A variedade
de fontes de informao distintas com diferenas
sintticas, semnticas e estruturais entre elas muito
grande, tornando o compartilhamento, integrao e
resoluo de conflitos entre essas informaes um
problema de difcil soluo.
Outra questo a ser tratada seria a criao ou
remoo de fontes de informao, o que teria que ser
realizada com extrema cautela de forma a no causar
grandes impactos ao ambiente integrado. Deve-se
considerar que as fontes de informao podem ter

Cadernos do IME : Srie Informtica : Vol. 14 : Junho de 2003 :


capacidades computacionais diferentes, podendo variar
desde sistemas de banco de dados a arquivos. As
informaes podem variar de no estruturadas, como
imagens e vdeos, a semiestruturadas, como arquivos de
e-mail e pginas Web.
A heterogeneidade estrutural e semntica da
informao na Web, atualmente, imensa e a maioria
das propostas de integrao ainda adota solues com
alto ndice de centralizao, tornando seu uso na Web
invivel. Para tratar esses problemas necessrio
considerar questes relevantes como a utilizao de
metadados e ontologias, visando a busca de uma
linguagem nica, capaz de estruturar e representar
conhecimento e regras.

3.2. Busca e Recuperao da Informao


Um dos motivos do grande sucesso da Web sua
liberdade de publicao de informao. Encontra-se
facilidade para criao de pginas Web e no
necessrio, por exemplo, pedir autorizao de qualquer
pessoa para criar links entre pginas, nem mesmo do
prprio criador da pgina.
Devido a isso, existe uma enorme quantidade de
documentos e recursos de todo tipo disseminado na
Web, tais como: bancos de dados, artigos, programas,
arquivos, etc. Por serem criados de forma autnoma,
sem preocupao com regras de estruturao,
catalogao e descries de suas propriedades, essas
informaes so difceis de serem abrangidas pelos
mecanismos de pesquisa, ocasionando demora e
ineficcia na localizao de informaes. Alguns
problemas enfrentados pelos mecanismos de busca e
recuperao de informaes so: demora na localizao
de informaes; informaes no localizadas devido s
mudanas de URLs; recuperao de um nmero elevado
de informaes que, em sua maioria, no atendem s
expectativas dos usurios; e, recuperao de
informaes fora do contexto solicitado pelo usurio
devido a problemas de semntica e ambigidade.
Devido a esses problemas, a busca pelo
aprimoramento das ferramentas e mecanismos de busca
direcionados localizao e recuperao das
informaes um tpico importante e um grande
desafio. A efetividade desses mecanismos de busca
depende principalmente da maneira pela qual as
informaes foram estruturadas e catalogadas na Web.
Documentos podem ser estruturados e organizados de
vrias formas diferentes na Web e as ferramentas de
busca tm que utilizar mecanismos de recuperao
adequados para cada tipo de organizao.
As ferramentas de busca esto classificadas em
quatro categorias que esto, sucintamente, descritas a
seguir [HAB] [KAM] [UTM]:

Pesquisa em diretrios: essas ferramentas efetuam


pesquisa por tema e de forma hierrquica.

83

Comeam as buscas a partir de um tpico genrico,


ramificando
em
subtpicos
especficos.
Disponibilizam a informao em forma de
diretrios e o prprio usurio tem que navegar na
rvore de diretrios a procura de informaes mais
especficas a respeito do tema pesquisado. Estas
ferramentas so mais eficazes para pesquisas de
temas amplos.
Mquinas de busca: efetuam pesquisa atravs de
palavras-chave. Utilizam bancos de dados que so
constitudos de palavras-chave e URLs [URL] que
foram previamente pesquisadas nas pginas web e
copiadas para o banco de dados por robs
(crawlers). A pesquisa feita no banco de dados e
fornece como resultado uma relao de URLs de
pginas Web onde o usurio pode encontrar algo
sobre o tema pesquisado. Por ser pesquisa textual,
muitas vezes, os resultados no correspondem s
expectativas do usurio.
Diretrios com mquinas de busca: elas utilizam
tanto a pesquisa em diretrios quanto por palavraschave. Na parte referente pesquisa em diretrios,
ela segue um percurso hierrquico, desde assuntos
genricos aos mais especficos e, em cada pausa ao
longo deste percurso, disponibiliza-se uma mquina
de busca permitindo que o usurio efetue uma
pesquisa por palavra-chave dentro daquele universo
de diretrios. No indicada para pesquisas
complexas e difceis devido ao problema de
impreciso.
Meta Busca (mltiplos mecanismos de busca):
utilizam recursos de vrias mquinas de busca em
paralelo e conduzida atravs de palavras-chave. O
resultado apresentado na forma de uma lista de
informaes obtida de acordo com cada mecanismo
de busca envolvido ou de forma integrada.

A Web Semntica visa tornar a Web um ambiente


de acesso inteligente informao heterognea e
distribuda atravs de agentes de software que utilizaro
mecanismos de busca mais acurados para disponibilizar
informaes aos usurios. A heterogeneidade da
informao dificulta a integrao de contedo na Web.
Agora veremos como possvel a descrio de forma
homognea da informao atravs do uso de metadados.

3.3. Metadados na Web


Metadados, tambm conhecidos como informaes
sobre dados, so utilizados para documentar e organizar
de forma estruturada e padronizada as informaes de
documentos com o objetivo de facilitar e tornar mais
efetiva a busca e recuperao da informao na Web. O
metadado estruturado com elementos de descrio do
contedo dos dados. Cada bloco de informaes deve
conter, por exemplo, autor, ttulo, data de publicao
etc. e para cada campo pode conter as seguintes
informaes: nome do campo, descrio do campo, tipo
de dados, formato, etc, e qualquer informao que seja
relevante para a recuperao da informao. No

84

: Cadernos do IME : Srie Informtica : Vol. 14 : Junho de 2003

contexto da Web, trs aspectos devem ser considerados


no desenvolvimento de metadados: descrio de
recursos, produo e uso de metadados [IAW].
O primeiro aspecto refere-se a quais informaes
estaro sendo consideradas nos metadados. Um
metadado tem que ser suficientemente flexvel para
capturar informaes de diversas fontes distintas. O
segundo aspecto refere-se construo de metadados.
Os metadados nada mais so do que sumrios sobre
uma determinada informao. Utilizar trabalho humano
para gerar estes metadados seria caro e cansativo. A
tendncia automatizar este processo o mximo
possvel. J o terceiro e ltimo aspecto trata de como os
metadados sero acessados e utilizados. Eles tm que
estar disponibilizados de maneira que possam ser
processados preservando seu contedo semntico.
Quanto sua utilizao, podem servir de forma
especialmente relevante na localizao de recursos na
Web, contendo informao descritiva dos recursos e
onde estes podem ser encontrados.
No entanto, devido ao aspecto dinmico dos
recursos na Web, a disponibilizao de metadados causa
alguns desafios, j que freqentemente novas verses de
recursos so acrescentadas a Web e documentos so
renomeados e disponibilizados em outros endereos
(URL) [URL]. Outras questes tambm importantes a
serem discutidas a respeito dos metadados so [IAW]:

Possibilidade de descrever um recurso a partir de


mais de um conjunto de qualificadores devido ao
grande nmero de padro de metadados;

Necessidade de existncia de um conjunto de


padres especficos para cada tipo de recurso de
forma a acomodar todos os tipos diferentes;

Internacionalizao dos padres, j que a maioria


dos padres baseada em qualificadores em Ingls;

Metadados devem ser gerados na medida em que


um recurso criado e disponibilizado na Web,
sendo alterado na medida em que o recurso
modificado. Entretanto alguns tipos de metadados
mais especficos podem ser gerados parte, tais
como: crticas sobre um filme ou artigos;

Metadados tambm so dados e por isso


apresentam caractersticas de armazenamento e
acesso, e dificuldades de interpretao de seu
contedo.
Padro de Metadados
A criao de um nico padro de metadados que
aborde todas as reas do conhecimento humano um
assunto muito discutido e de expectativa remota, j que
existem muitos problemas a serem solucionados
primeiramente como a necessidade de um padro
composto de inmeros qualificadores para que seja
possvel abranger os diversos domnios existentes. Isso
torna a catalogao exaustiva e exige um conhecimento
mais especfico devido aos vrios domnios de
conhecimento. Mas possvel estabelecer padres de
metadados de forma que as organizaes possam ser

convidadas e encorajadas a utiliz-los no sentido de


contribuir para a documentao de suas informaes. O
esforo neste sentido deve ser conjunto para que haja
uma padronizao e uma diviso das tarefas. Fortemente
associados aos metadados existem determinados
padres que podem ser adotados.
Neste tutorial, consideramos apenas os padres
utilizados para descrio dos recursos na Web, e que so
utilizados para recuperao da informao. Este tipo de
padro de metadados apresenta uma forma estruturada a
partir de um conjunto de qualificadores simples e
genricos que objetivam a descoberta e gerenciamento
dos recursos. Dentre os padres que se encontram nesta
categoria esto o IAFA (Internet Anonymous FTP
Archive) [IAFA], SOIF (Summary Object Interchange
Format) [SOI] e Dublin Core [WKL] [DC]. Dentre os
mais utilizados, encontra-se o padro Dublin Core.
Padro Dublin Core
O padro Dublin Metadata Core Element Set [DKL]
[DC], ou Dublin Core, foi desenvolvido pelo W3C com
a finalidade de contemplar os seguintes objetivos:
simplicidade de criao e manuteno; semntica de
fcil compreenso; interao com padres j existentes
ou emergentes; escopo e aplicabilidade internacional;
capacidade de extenso; e, interoperabilidade entre
colees e sistemas de indexao.
Dublin Core tem como objetivo catalogar e
classificar os documentos eletrnicos (textos, mapas,
imagens) de forma a facilitar a recuperao dos mesmos
na Web. um dos padres mais utilizados devido sua
facilidade de manipulao e extensa capacidade de
descrio dos recursos. constitudo de 15 elementos
qualificadores, que possuem as seguintes propriedades:

Name: nome nico de identificao do


qualificador;

Label: nome como o qualificador conhecido;

Definition: Descrio que representa o conceito


e natureza do qualificador;

Comment: Informao adicional a respeito do


qualificador (opcional);

See Also: Link para maiores informaes sobre


o qualificador (opcional)
Os elementos qualificadores de Dublin Core so:
Title: Ttulo do objeto
Creator: Pessoas responsveis pelo contedo do objeto
Subject:
Tpico abordado pelo objeto
Description: Descrio textual do contedo do objeto
Publisher: Entidade responsvel pela disponibilizao
do objeto
Contributor: Pessoa ou organizao que contribui
intelectualmente na criao do objeto
Date: Data da criao ou publicao do recurso
Type: Forma como o contedo expresso
Format: Formato em que o objeto disponibilizado
(HTML, DOC, PDF, etc).

Cadernos do IME : Srie Informtica : Vol. 14 : Junho de 2003 :

85

Identifier: Identificador nico do objeto


Source: Informao sobre as fontes de informao que
contriburam para a criao do contedo do objeto
Language: Idioma
Relation: Relacionamentos com outros objetos
Coverage: Caractersticas temporais e espaciais
Rights: Informaes sobre os direitos autorais do objeto

respeito de conceitos e relaes da camada


terminolgica, informaes estas que no podem
estar classificadas em nenhum das outras duas
camadas. Nesta camada podemos encontrar
informaes, por exemplo, a respeito da forma
como um determinado conceito ou relao
apresentado ao usurio.

Veremos a seguir como as ontologias se integram ao


conceito da Web Semntica.

As ontologias so de grande importncia para a


Web Semntica, pois conseguem embutir significado,
sem ambigidade, s informaes atravs da criao de
vocabulrios, interconexes semnticas entre os termos
e regras de inferncia e lgica sobre um determinado
domnio de conhecimento, facilitando a interpretao e
recuperao da informao por agentes de software e
viabilizando tambm o intercmbio de informaes
entre eles. Possibilitam tambm um mecanismo de
pesquisa mais apurado e restrito s informaes
realmente relevantes, automao de tarefas que exijam
raciocnio, e permitem que os agentes atuem como
guias, sugerindo opes e caminhos e auxiliando o
usurio no alcance de seus objetivos.

3.4. Ontologias
Na Web Semntica, a ontologia utilizada no
contexto de compartilhamento do conhecimento e tem
como objetivo a especificao explcita e formal de uma
conceituao. Assim, Ontologia a descrio explcita e
precisa de conceitos e relaes que existam em certo
domnio de conhecimento [GRU]. Uma Ontologia
requer o uso de um vocabulrio especfico para
descrever os requisitos para um determinado domnio e
tambm um conjunto de axiomas lgicos necessrios
para imprimir semntica ao significado pretendido pelas
palavras do vocabulrio. Assim a Ontologia pode gerar
um ambiente com informaes documentadas,
confiveis, e de fcil manuteno e reutilizao.
Existem duas principais propriedades das ontologias
que devem ser analisadas devido a sua importncia no
processo de criao das mesmas [BEZ]. So elas:

Compartilhamento: refere-se a capacidade de


compartilhar informaes comuns entre sistemas.
Diferentes sistemas devem utilizar as mesmas
ontologias de modo a ter as mesmas definies de
conceitos, minimizando assim a ocorrncia de
vrias ontologias para conceituao das mesmas
informaes; e,

Filtragem: definio do que realmente relevante a


ser extrado de um determinado sistema utilizando
modelos de abstrao que levam em considerao
somente parte da realidade, deixando de lado
caractersticas indesejveis da informao.
Atravs dessas duas propriedades, uma ontologia
deve ser capaz de extrair informaes de modo a criar
um modelo de sistema enxuto, significativo e integrado.
Mas tambm preciso que uma ontologia seja flexvel o
bastante para aceitar informaes de diferentes
naturezas.
Geralmente, em uma ontologia, existem trs nveis
ou tipos de informao em uma ontologia:

Terminolgica: constitudo de um conjunto bsico


de conceitos e relaes da ontologia. Normalmente
conhecida como a camada de definio;

Assertiva: conhecida como camada de axiomas da


ontologia, constituda de um conjunto de
assertivas aplicveis aos conceitos e relaes; e,

Pragmtica: denominada camada de caixa de


ferramentas. Constitui-se de informaes tcnicas a

Os agentes desempenham papel importante na Web


Semntica. Agentes so programas que capturam o
contedo de vrias fontes na Web, processam estas
informaes e fazem intercmbio desses resultados com
outros programas. Possuem um certo grau de autonomia
e so capazes de realizar tarefas que auxiliem o usurio
no desempenho de suas atividades, de acordo com seus
interesses [JHD].
Por esses motivos, a pesquisa na rea de agentes
considerada um caminho promissor para o
desenvolvimento de aplicaes para a Web, em especial
aquelas relacionadas a sistemas distribudos e
inteligentes [WOOL]. Dada existncia de inmeras
pesquisas nessa rea, h muitas definies sobre o
significado de agentes, entre elas: um agente um
sistema computacional encapsulado, que est situado
em algum ambiente e capaz de executar aes
flexveis e autnomas no ambiente de forma a alcanar
seus objetivos [WOOL]. A idia de ambiente
utilizada de forma genrica, podendo se referir a
qualquer meio fsico ou lgico, composto de aspectos
heterogneos ou no. J por aes autnomas que um
agente pode executar, compreende-se qualquer ao que
possa ser realizada sem interveno humana, e flexveis,
no sentido de no contemplarem somente aes prdeterminadas, ou seja, que possuam uma tabela de
ocorrncias possveis em uma ambiente. Esses tipos de
agentes so denominados agentes inteligentes.
A flexibilidade dos agentes inteligentes implica na
considerao de trs caractersticas:

Reatividade: capacidade de perceber o ambiente


onde atuam e responder em tempo satisfatrio s
mudanas que ocorrem;

86

: Cadernos do IME : Srie Informtica : Vol. 14 : Junho de 2003


Pr-atividade: possuir um comportamento centrado
no alcance da meta e assim sendo capaz de tomar a
iniciativa de certas tarefas; e,
Habilidade social: capacidade de interagir com o
ambiente, com outros agentes e com os usurios.

Os agentes podem ser classificados em diversas


categorias. Algumas delas consideram a mobilidade do
agente, outras os classificam de acordo com seu sistema
de raciocnio, dividindo-os em reativos e deliberativos
(ou cognitivos). Outros classificam os agentes segundo
o grau de autonomia, aprendizado e cooperao que
possuem. Atualmente, pode-se encontrar na literatura
uma grande variedade de aplicaes que, de formas
distintas, fazem uso do conceito de agentes para
implementar algumas funcionalidades, mas o que fica
realmente evidente o papel que o agente desempenha.
Os agentes esto assim classificados da seguinte forma
[NWA]:Agentes de Colaborao; Agentes de Interface;
Agentes de Informao; Agentes Mveis; e, Agentes
Hbridos. O tipo de agente utilizado na Web Semntica
o agente de informao, responsvel pela pesquisa e
recuperao de contedo na Web.
Um agente de informao deve ser capaz de se
adaptar a seus inmeros usurios e ao contedo a ser
disponibilizado, e possuir uma nica interface para
acesso a mltiplos repositrios de informao. Alm
disso, ele deve ser capaz de localizar, recuperar e
integrar informaes, e, ainda, procurar por informaes
de forma pr-ativa em fontes distribudas, evitando
intervenes do usurio sempre que possvel. E, mais
importante, o agente s deve disponibilizar informaes
que sejam realmente do interesse do usurio.
Esses agentes, capacitados com as qualidades j
descritas, podem solucionar problemas atualmente
encontrados em sistemas de recuperao da informao,
tais como: necessidade de solues integradas,
recuperao de informao distribuda, expanso de
termos para refinamento de busca, interfaces e
navegao,
filtragem,
recuperao
eficiente,
identificao de preferncias do usurio.

3.5. Tecnologias para Representao da


Informao
A Web Semntica no est relacionada apenas ao
formato do contedo de um recurso, mas tambm
forma como este contedo ser disponibilizado e
interagir com outros recursos na Web. Para que a Web
Semntica funcione de forma efetiva necessrio que as
informaes estejam estruturadas disponibilizadas de tal
maneira que possibilite a implementao de um
raciocnio automatizado por parte das mquinas.
Os metadados e as ontologias so conceitos
importantes, pois permitem a criao de colees
estruturadas de informaes e conjuntos de regras de
inferncia, estabelecendo assim um domnio de

conhecimento com vocabulrio comum e informao


semntica a respeito de seu contedo e suas relaes.
Entretanto, h inmeros domnios de conhecimento
distintos a serem representados a partir de diferentes
padres de metadados e Ontologias e para isso so
necessrias arquiteturas de alto nvel, capazes de prover
suporte codificao e intercmbio dessa variedade de
metadados desenvolvidos de forma independente na
Web. E sempre com o objetivo de estar contemplando a
interoperabilidade tanto semntica quanto sinttica e
estrutural.
Nesta seo do tutorial, sero vistas as principais
tecnologias que despontam atualmente para o
desenvolvimento da Web Semntica e suporte a
interoperabilidade de informao.
A linguagem criada para prover sintaxe
informao XML. Considerada a mais importante e
capaz de codificar todo tipo de informao de forma que
esta possa ser transferida entre recursos na Web
alcanando assim a interoperabilidade sinttica. A
semntica conseguida atravs da criao de
Ontologias especficas para cada domnio de
conhecimento utilizando linguagens como SHOE
[SHOE], XOL [XOL], OIL [OIL], DAML [DAML],
entre outras. J a interoperabilidade sinttica
responsabilidade do RDF, modelo capaz de prover uma
estrutura padro para a informao [TBL01].
Estes padres foram desenvolvidos pelo consrcio
W3C [W3C] no intuito de que, quando utilizados em
conjunto, sejam capazes de fornecerem informaes
estruturadas, passveis de serem processadas pelas
mquinas e intercambiadas entre recursos de forma mais
inteligente.
Extensible Markup Language XML
Originalmente desenvolvida com o objetivo de dar
suporte a larga escala de softwares de editorao
eletrnica que estavam surgindo no mercado, a
linguagem XML atualmente uma ferramenta de muita
importncia para o intercmbio entre recursos da grande
variedade de informaes disponveis na Web.
Alguns dos objetivos que o consrcio W3C visava
alcanar quando disponibilizou a primeira verso da
linguagem, em Fevereiro de 1998, so [XML]:

Possibilitar a internacionalizao da mdia


independente da editorao eletrnica;

Permitir que as indstrias definam protocolos de


plataformas independentes para o intercmbio de
informaes recursos, especialmente as pertinentes
ao comrcio eletrnico;

Disponibilizar informaes aos softwares agentes


de forma a permitir o processamento automtico
pelas mquinas;

Facilitar o desenvolvimento de softwares


especializados na manipulao de informaes
distribudas em vrias fontes na Web;

Cadernos do IME : Srie Informtica : Vol. 14 : Junho de 2003 :

Facilitar o processamento das informaes pelos


usurios atravs de softwares de custo mais
acessvel;
Permitir que os usurios disponibilizem as
informaes da forma desejada, sem estarem presos
a controles de estilos de formatao;
Facilitar o fornecimento de metadados e
possibilitando uma pesquisa e recuperao da
informao mais eficaz e satisfatria ao usurio.

Hoje em dia, a maioria dos documentos


disponibilizados na Web utiliza o sistema de marcao
provido pela linguagem HTML. XML supre alguns
objetivos que HTML no conseguiu alcanar e que
foram identificados ao longo do percurso como pontos
muito importantes para esse tipo de linguagem. A
linguagem XML similar a HTML em alguns aspectos.
XML tambm faz uso de marcaes, denominadas tags,
mas estes tm a finalidade somente de delimitar e
descrever parte das informaes, deixando a
interpretao a cargo das aplicaes que as utilizam.
Alm disso, os documentos em XML podem ser
utilizados por mais de uma aplicao ao mesmo tempo,
j que estas acessam somente os tags que so relevantes
para elas e fazem sua prpria interpretao dos mesmos.
O fator que realmente diferencia XML de outras
linguagens deste mesmo tipo sua capacidade
extensiva, pois provem um formato de dados para
estruturao de documentos sem utilizao de um
vocabulrio especfico. Isso permite que a XML seja
identificada como uma linguagem de aplicabilidade
universal, j que possvel criar ilimitados tags para
inmeros tipos de documentos. XML consegue que a
formatao do documento seja tratada separadamente de
sua estrutura, que pode ser descrita com maior riqueza
de informaes, pois passvel de ser personalizada
pelo autor.
A entidade principal na linguagem XML o
element. Este constitudo normalmente de dois tags,
denominados tag inicializador e tag finalizador, e do
texto delimitado entre eles. Geralmente os tags so
representados, respectivamente, como <pessoa> e
</pessoa>. Um elemento pode conter outro elemento ou
texto. Se um elemento no possuir nenhum contedo,
ele pode ser abreviado para <pessoa/>.
Os elementos possuem conceitos de parentesco, ou
seja, quando so criados vrios elementos aninhados,
preciso finalizar os elementos mais inferiores,
denominados filhos, primeiro para, por ltimo, finalizar
o elemento raiz. Todo documento XML deve possuir
um elemento raiz e este deve necessariamente ser
finalizado ao final do documento. possvel associar
aos elementos atributos com valores. Um atributo
codificado como um par, palavra=valor, dentro de um
tag do elemento. Quando um documento em XML
possui um tag raiz, os tags esto corretamente
aninhados e os atributos so nicos diz-se que um

87

documento ou bem formado, sendo possvel organiz-lo


em uma estrutura de rvore.
A utilizao de XML no implica na obteno de
interpretao especfica do contedo de um documento.
Um documento XML constitudo de entidades, subentidades e valores, compondo assim uma rvore
ordenada e valorada, mas sem nenhum tipo de
semntica. vivel codificar qualquer tipo de estrutura
de dados em sintaxe ambgua, mas a linguagem XML
no especifica a semntica e a forma de utilizao da
informao dentro do contexto do documento. Ento os
recursos responsveis pelo intercmbio destas
informaes precisam assegurar vocabulrio comum
(nome de elementos e atributos), como ser sua
utilizao e seu significado. Ento veremos a seguir dois
mecanismos de especificao de vocabulrio a ser
utilizado em documentos: DTD e XML Schema.
Document Type Definition (DTD) e XML Schema
DTD e XML Schema so mecanismos utilizados
para especificar a estrutura de documentos escritos em
linguagem XML. Ento possvel e recomendado
verificar se um documento est elaborado conforme as
regras de estrutura especificadas em um DTD ou XML
Schema com a finalidade de determinar se este
documento vlido ou no [XML]. DTD e XML
Schema so conhecidos tambm como informao de
cabealho de documentos XML e so responsveis por:

Descrever regras estruturais que os tags devem


seguir no documento, tais como, se permitido
utilizar elementos aninhados, atributos necessrios e
seus valores possveis, e estruturada de nome de
elementos e atributos;

Lugares no documento onde permitida a


utilizao de texto normal;

Listar os recursos externos ou entidades externas


utilizadas no documento;

Declarar os recursos internos ou entidades internas


que podem ser requeridas no documento; e,

Relacionar os tipos de recursos que no fazem parte


da linguagem XML, tais como anotaes e dados
binrios, mas que esto presentes no documento e
aos quais outras aplicaes podem fazer referncia.
XML Schema o provvel sucessor do DTD
atualmente, j que recomendado pelo W3C e possui
muitas vantagens sobre DTD. A primeira dessas
vantagens a utilizao de uma gramtica mais rica e
elaborada na prescrio da estrutura dos elementos,
como por exemplo, especificao da quantidade exata
de ocorrncias possveis de elementos filhos, de valores
padro, classificao de elementos em grupos de
escolha permitindo a identificao dos elementos
passveis de serem utilizados em uma determinada
localidade do documento. A segunda vantagem a
formatao para digitao de informao, ou seja,
possvel estabelecer mscaras para determinado valor de
atributo, como, por exemplo, o nmero de telefone
sendo composto por quatro dgitos numricos mais o

88

: Cadernos do IME : Srie Informtica : Vol. 14 : Junho de 2003

caractere - mais quatro outros dgitos numricos. A


terceira e ltima vantagem do XML Schema a
existncia de mecanismos de incluso e derivao de
definies que possibilitam a reutilizao de definies
de elementos e adaptao de definies j existentes
para novas prticas.
Mas a principal diferena entre esses dois
mecanismos que torna XML Schema bastante aceitvel
ao invs do DTD que XML Schema utiliza a
linguagem XML para codificao sinttica de suas
especificaes. Isso simplifica o desenvolvimento de
ferramentas, pois o documento e suas regras de
estruturao utilizam a mesma sintaxe.
XML provm somente a sintaxe para codificao da
informao do documento, sendo necessria outra
ferramenta para imprimir significado a essa informao
e ser abordada a seguir.
Arquiteturas de Metadados
As arquiteturas de metadados visam integrar e dar
suporte a uma grande variedade de esquemas de
metadados espalhados em um sistema distribudo,
provendo interoperabilidade sinttica, semntica e
estrutural da informao. Foram desenvolvidas
inmeras arquiteturas de metadados nos ltimos anos e
todas tm o mesmo objetivo em comum, isto ,
possibilitar a troca de informaes entre recursos, tais
como provedores, catlogos e indexadores, e
conseqentemente prover um mecanismo de
identificao e recuperao da informao mais
eficiente na Web. Como contribuies importantes de
arquiteturas podemos citar: Kahn e Wilensky [KAW],
Warwick [LLD], MetaContent Framework (MCF)
[GUH] e Resource Description Framework (RDF)
[RDF]. Dentre essas, a arquitetura que mais se destaca
a RDF, elaborada pelo W3C, e que atualmente a
plataforma de desenvolvimento de aplicaes na Web.
Arquitetura RDF
RDF uma arquitetura de metadados cujo maior
objetivo definir um mecanismo de descrio de
documentos que no esteja vinculado a nenhum
domnio de conhecimento especfico. Os mecanismos
devem ter aplicao universal e ser capazes de descrever
informaes a respeito de qualquer tipo de domnio.
Assim podem prover interoperabilidade entre aplicaes
atravs do intercmbio de informaes estruturadas de
forma a possibilitar a automao de processos na Web.
A arquitetura RDF pode ser utilizada por aplicaes
de diversas reas como, por exemplo [RDF]:

Recuperao
de
informao:
fornecendo
informao estruturada de forma a possibilitar a
implementao de mecanismos de pesquisa mais
eficientes;

Catalogao: descrevendo a informao e seus


relacionamentos disponveis em pgina web,
biblioteca digital, etc; e,

Agentes
inteligentes:
facilitando
o
compartilhamento de conhecimento e intercmbio
de informaes.

RDF possui um sistema de classes, semelhante aos


utilizados em sistemas de modelagem e programao
orientados a objetos. Existem colees de classes,
geralmente criadas para um determinado domnio ou
propsito, denominadas schemas. As classes so
organizadas de forma hierrquica e so extensivas, ou
seja, podem ser adicionadas subclasses s classes j
existentes, diminuindo assim a necessidade de criao
de
novos
esquemas.
A
possibilidade
de
compartilhamento de esquemas RDF ajuda a
reutilizao de definies de metadados e que
juntamente com sua capacidade de extenso permite aos
criados de metadados utilizar mltiplos conceitos de
herana para mesclar definies, proporcionando
mltiplas vises possveis das informaes e
diminuindo os esforos que outros criadores teriam
futuramente.
A arquitetura RDF resultado do trabalho em
conjunto de vrias comunidades em torno da utilizao
de princpios bsicos de representao e transporte de
metadados na Web.
Modelo RDF
O modelo RDF [RDF] responsvel por prover um
mecanismo para representao do metadado que seja
neutro em termos de sintaxe e domnio de
conhecimento. Ele prov a interoperabilidade estrutural,
porm no fornece mecanismos para declarao e
definio de propriedades e seus relacionamentos. Para
a definio de propriedades de domnios especficos e
sua semntica necessria a aplicao do esquema RDF
[RDFS].
O modelo RDF utilizado para identificao de
equivalncia de significado, j que duas ou mais
expresses em RDF so equivalentes se, e somente se, a
representao de seus modelos de dados forem
similares. Essa definio de equivalncia permite a
variao sinttica em algumas expresses sem alterar
seu significado. Esse modelo de dados representado
atravs de um DLG (Directed Labeled Graphs) e
consiste de trs tipos de objetos:

Resource (Recurso): tudo que descrito atravs de


expresses RDF, podendo ser tanto um documento
HTML, quanto um elemento XML de um
documento; uma coleo de pginas ou um site
inteiro. Um recurso pode tambm ser objeto que
no seja acessado diretamente pela Web, tal como
um livro impresso. Recursos so sempre nomeados
por uma URI, o que permite a criao de
identificadores para qualquer entidade imaginvel;

Property (Propriedade): uma caracterstica,


atributo ou relao utilizado para descrever um
recurso. Cada propriedade possui um significado
especfico, define seus prprios valores permitidos,

Cadernos do IME : Srie Informtica : Vol. 14 : Junho de 2003 :

tipos de recursos a que podem ser aplicados e seus


relacionamentos com outras propriedades; e,
Statement (Declarao): composto da associao
de um recurso especfico, uma propriedade e o valor
da propriedade para esse recurso. Essas trs partes
individuais da declarao so denominadas,
respectivamente, de sujeito, predicado e objeto,
onde o objeto pode ser um outro recurso ou um
literal, ou seja, um recurso especificado por uma
URI ou uma cadeia de caracteres ou outro tipo de
dados definido por XML.

Esses elementos que compem um DLG so


representados graficamente atravs de diagramas de ns
e arcos, onde o recurso representado por uma elipse, a
propriedade por um arco ou seta e os valores por
retngulos. A direo da seta importante, j que esta
sempre inicia no sujeito e aponta para o objeto da
declarao.
Sintaxe RDF
O modelo RDF [RDF] fornece uma estrutura
abstrata e conceitual para a definio e utilizao dos
metadados, mas necessria uma sintaxe concreta para
que criao e intercmbio desses metadados seja vivel.
A sintaxe RDF utiliza para codificao a linguagem
XML e existem dois tipos de sintaxe XML para
codificar as instncias de um modelo de dados RDF: a
sintaxe de serializao, capaz de representar toda a
capacidade do modelo de dados de modo simples, e a
sintaxe abreviada que possui construes adicionais
capazes de prover uma forma mais compacta de
representao de partes do modelo de dados
Freqentemente faz-se necessria referncia a
colees de objetos para mencionar, por exemplo, que
trabalho ou material de autoria de mais de uma pessoa
ou listar os estudantes de um determinado curso. Para
isso so utilizados recipientes, denominados Containers,
que suportam uma lista de recursos ou literais. Existem
trs tipos de objetos RDF Container:

Bag: lista no ordenada de recursos, ou literais,


utilizada para declarar que uma propriedade
composta de mltiplos valores independentes da
ordem de atribuio, permitindo valores duplicados.
A propriedade rdf:type especifica o tipo de coleo
que est sendo utilizado, neste caso o tipo rdf:Bag.

Sequence: lista ordenada de recursos, ou


literais, utilizada para declarar que uma propriedade
pode ser composta de mltiplos valores que
obedecem a uma determinada ordenao como, por
exemplo, alfabtica ou numrica. Este tipo de
coleo tambm permite valores duplicados; e,

Alternative: lista de recursos ou literais que


representam valores possveis e mutuamente
exclusivos para uma propriedade, proporcionando
livre escolha de qualquer item da coleo.
O modelo RDF permite no apenas descrever os
recursos, mas tambm descrever as prprias declaraes

89

(statements), sendo necessria uma sintaxe capaz de


expressar declaraes a respeito de outras declaraes
(Statements about Statements).
Esquema RDF
Na arquitetura RDF [RDF], o Modelo RDF fornece
um mecanismo neutro de representao de metadados,
suas propriedades e seus relacionamentos.
A codificao dessa representao fornecida pela
Sintaxe RDF, mas ainda faz-se necessrio um
mecanismo para definio dos recursos, suas
propriedades e seus relacionamentos. Esta a funo
exercida pelo Esquema RDF ou RDFS [RDFS], isto ,
permitir a criao de classes de tipos de recursos e
propriedades, descries dessas classes, combinaes
possveis de classes, propriedades e valores e restries
entre relacionamentos, definindo assim esquemas que
podem ser utilizados em conjunto com vocabulrios
descritivos, tal como o Dublin Core.
Conforme j descrito, os recursos podem ser
instncias de uma ou mais classes e so indicadas pela
propriedade rdf:type. Classes so freqentemente
organizadas de forma hierrquica. Por exemplo, uma
classe denominada Cachorro pode ser considerada
uma subclasse da classe Mamfero que uma subclasse da classe Animal. Utilizando a notao
rdf:type, qualquer recurso do tipo rdf:type Cachorro
pode ser considerado tambm um recurso do tipo
rdf:type Animal e assim por diante. Para especificar
este tipo relacionamento entre classes utilizada a
propriedade rdfs:subClassOf. Alm da propriedade
rdfs:subClassOf, existem outros inmeros recursos
disponveis para criao de declaraes relativas a
utilizao consistente de propriedades e classes no RDF.
Por exemplo, possvel que um Esquema RDF descreva
as limitaes de tipos de valores vlidos para uma
determinada propriedade, ou de propriedade vlidas
para uma classe. O esquema RDF capaz de definir
estes valores, mas no fornece nenhuma informao
sobre quando e como um aplicativo deve processa-los.
Este sistema de tipos possveis especificado como
recursos e propriedades no modelo de dados RDF,
conforme uma hierrquica de classes, na forma de
diagrama de ns e arcos do Modelo RDF. Se uma
classe um subconjunto de outra, ento o arco
representado pela propriedade rdfs:subClassOf e sua
direo tm como origem a classe principal e destino a
classe secundria. Similarmente, se um recurso uma
instncia de uma classe, ento o arco representado
pela propriedade rdf:type cuja direo tem como origem
o recurso e destino o n representativo da classe

3.6. Linguagens para Criao de Ontologias


As ontologias so capazes de estabelecer uma
terminologia comum entre os membros de uma
determinada comunidade de interesses ou domnio de

90

: Cadernos do IME : Srie Informtica : Vol. 14 : Junho de 2003

conhecimento, sendo esses membros considerados


humanos ou agentes. Elas provm o mecanismo formal
capaz de viabilizar o processamento semntico da
informao atravs de uma mquina. Para aplicaes na
Web, importante haver uma linguagem com um
padro sinttico para que seja possvel o intercmbio de
ontologias. J que o XML emergiu como um padro de
linguagem para intercmbio de informaes na Web,
ento nada mais bvio como o desenvolvimento de
linguagens de representao de conhecimento baseadas
em XML para definio de ontologias.
Diversas linguagens e mecanismos para a definio
de ontologias foram criados nos ltimos anos, a
exemplo de: SHOE (Simple HTML Ontology
Extensions) [SHOE], XOL (XML-based Ontology
Exchange Language) [XOL], OIL (Ontology Inference
Layer) [OIL], DAML (DARP Agent Markup Language)
[DAML], dentre outros. A principal caracterstica
dessas linguagens est na capacidade de representar
ontologias em RDF, arquitetura j consagrada pela W3C
para interoperabilidade de informaes na Web.
SHOE (Simple HTML Ontology Extensions)
A linguagem SHOE uma extenso do HTML que
permite incorporar aos documentos contedo com
informao semntica legvel pelas mquinas ou por
outros documentos na Web. Recentemente, a linguagem
SHOE foi adaptada para ser compatvel com XML. Seu
principal objetivo possibilitar que softwares agentes
tenham acesso a informaes significativas em pginas
Web e documentos, melhorando os mecanismos de
busca. A linguagem SHOE inclui um mecanismo de
definio de ontologias, instncias de dados em pginas
Web e de classificao hierrquica de documentos
HTML. Isto feito a partir de classes e regras de
restries que especificam relacionamentos e
hierarquias entre instncias, a partir de um conjunto de
tags acrescidos ao HTML padro.
XOL (XML-based Ontology Exchange Language)
XOL uma linguagem de especificao e
intercmbio de ontologias, especificado em DTD/XML.
Utiliza um modelo semntico baseado em frames
denominado
OKBC
(Open
Knowledge Base
Connectivity). Um arquivo XOL consiste de um mdulo
cabealho de definio, que prov metadados com
informao sobre a ontologia, tal como nome e verso,
classes e subclasses que permitem estabelecer
hierarquias entre categorias de elementos, e slots que
estabelecem propriedades aos elementos das classes, e
definies individuais que permitem declarar nomes,
descries, informaes sobre instncia e valores s
propriedades dos slots.
OIL (Ontology Inference Layer)
Ontology Inference Layer uma proposta de
linguagem para representao de conhecimento na Web
e camadas de inferncia para Ontologias que combina o
uso de primitivas de modelagem de linguagens baseadas

em frame com a semntica formal e servios de deduo


de proveniente de descries lgicas. compatvel com
o Esquema RDF (RDFS) [RDF Schema] e possui
semntica precisa para descrio de significados. Uma
ontologia OIL contm descries para classes,
relacionamentos, denominados slots, e instncias.
Classes podem se relacionar com outras classes atravs
de uma hierarquia (classes/subclasses) e atravs de
relaes binrias estabelecidas entre duas relaes.
Alm disso, restries de cardinalidade podem ser
atribudas aos relacionamentos. A definio de uma
ontologia em OIL constituda de dois componentes: o
primeiro, denominado ontology container, descreve as
caractersticas da ontologia, utilizando-se de descritores
do padro Dublin Core; e o segundo, denominado
ontology definitions, define o vocabulrio particular
daquela ontologia.
A linguagem OIL tem sido considerada pela W3C
como uma linguagem de grande relevncia no contexto
atual de desenvolvimento de aplicaes na Web. Diante
desse fato, apresentado a seguir um exemplo, parcial,
de uma ontologia definida nessa linguagem, onde parte
dos termos da sintaxe auto descritiva. Uma
caracterstica importante dessa linguagem que a
mesma pode ser utilizada em conjunto com a linguagem
XML, muito embora esquemas XML no capturem
totalmente a semntica embutida no OIL. Porm, sua
integrao com RDF Schemas (RDFS) [RDFS]
bastante promissora.
Do mesmo modo que um RDF Schema [RDFS]
utilizado para se auto definir, o mesmo tambm pode ser
utilizado para definir outras linguagens de ontologia.
Dessa forma o RDF Schema foi utilizado para definir o
OIL bsico, onde elementos de seu vocabulrio foram
mapeados para termos do Schema RDF, tais como:
classe OntologyConstraint mapeada como subclasse
de rdfs:ConstraintResource, classes do tipo class-def
so definidas como rdfs:Class, subclasses OIL subclassof tornam-se rdfs:subClassOf, OIL-slots tornam-se
sub-propriedades de rdf:Property, e assim por diante.
Alm disso, a sintaxe RDF inclui namespaces
especficos para definir os termos especficos do padro
Dublin Core e outros do vocabulrio OIL
respectivamente, que no existam em RDF.
DAML (DARP Agent Markup Language)
A linguagem DAML uma iniciativa da agncia
DARPA que est sendo desenvolvida como uma
extenso de XML e RDF. A sua mais recente iniciativa
oriunda da combinao de DAML e OIL, uma
linguagem que est sendo proposta como padro para
representao de ontologias e metadados pela W3C. A
combinao de DAML e OIL, denominada
DAML+OIL, sofre muita influncia do OIL original,
embora no se utilize do seu conceito original de
frames. constituda de uma coleo de classes e
propriedades, que esto agrupados numa coleo de
axiomas e precedidos pelo tag daml, e de objetos que

Cadernos do IME : Srie Informtica : Vol. 14 : Junho de 2003 :


so adicionados ao RDF e RDFS. Assim, declaraes
(statements) em DAML+OIL tambm so declaraes
RDF.
A Web Semntica s poder ser atingida a partir do
inter-relacionamento
automtico
de
pequenas
ontologias, desenvolvidas de forma totalmente
independente e especfica em seus subdomnios,
servindo dessa forma como resposta a uma consulta
especfica. Esse fato talvez justifique o desenvolvimento
e proliferao de tantas linguagens de definio de
ontologias e representao de conhecimento em torno
da Web Semntica. Porm, medida que tais linguagens
so utilizadas, tornam-se necessrios mecanismos de
edio e modelagem de ontologias que, a exemplo de
ferramentas Case, possibilitem o uso de ferramentas
distintas de modelagem, permitam a utilizao de vrias
linguagens semnticas na Web.
O sistema Protg-2000 [PROTEGE] uma
ferramenta grfica para a edio de ontologias e
aquisio de conhecimento. Inclui um mecanismo de
customizao que permite a modelagem conceitual em
vrias linguagens semnticas a exemplo de RDF, OIL e
DAML+OIL. Outras ferramentas, a exemplo de
OntoEdit [ONT] [SaM00] e OntoBroker [OBR] tambm
caminham nessa direo. A OntoBroker, por exemplo,
um sistema orientado a objeto que prov compiladores
em diversas linguagens para descrever ontologias,
regras e fatos.

4. Concluses
A Web Semntica pretende solucionar o problema
da falta de informao semntica e significativa a
respeito do contedo disposto na Web atravs de novas
tecnologias, tais como, a utilizao de um sistema de
marcao de pginas flexvel como o XML que permite
incluir informaes significativas a respeito de palavras
ou termos do documento, uma arquitetura de metadados
como RDF que padroniza a criao de metadados na
Web permitindo maior intercmbio e reutilizao de
descries de termos e palavras, e Ontologias que
disponibilizem um vocabulrio especfico de
conhecimento e descrevem os termos e seus
relacionamentos.
A implementao dessas novas tecnologias implica
na reestruturao de pginas e web sites disponveis
atualmente na Web contemplando a criao de novas
marcaes e pginas de definio para termos e
palavras. Surgir, ento, um novo mercado de trabalho:
o de converso de pginas web. Mas por qu as pessoas
teriam custos para reestruturar seus sites Web ou
pginas? O motivo desta iniciativa acredita-se que seja a
criao de softwares agentes capazes de utilizar essas
novas informaes semnticas disponveis nas pginas
na execuo de pesquisas mais inteligentes e eficientes e
auxiliar os usurios a seguir o caminho correto para
conseguir a informao desejada.

91

A Web Semntica no apenas uma ferramenta para


conduzir e auxiliar a execuo de tarefas individuais e
de pesquisas mais eficientes na Web, mas tambm uma
ferramenta para assistir no desenvolvimento do
conhecimento. Uma das maiores preocupaes, hoje em
dia, quando discutido o trabalho independente de
diversos pequenos grupos na Web a necessidade de
mesclar essas informaes com as de outras
comunidades. Um pequeno grupo capaz de inovar de
forma rpida e eficiente, mas como resultado produz
uma sub-cultura cujos conceitos no podem ser
compreendidos por outras pessoas. Um processo
essencial para resoluo desse tipo de problema a
juno de sub-culturas, conseqente da utilizao de
uma linguagem em comum ou de relacionamentos e
equivalncias entre termos utilizados por cada grupo
independente.
A Web Semntica no uma realidade em curto
prazo, mas da mesma forma que todos se sentiram
surpresos com o surgimento da Web, podem se sentir
tambm com o surgimento desta nova Web.
imprescindvel que, principalmente, as empresas tenham
conhecimento desta nova tecnologia e mantenham-se
atentas ao incio de ofertas de softwares agentes no
mercado para que no sejam as ltimas a reestruturarem
seus sites Web.

Referncias e Bibliografia Complementar


[ALTA] Altavista. http://www.av.com
[BEZ] J. Bzivin. Whos Afraid of Ontologies?
http://www.metamodel.com/oopsla98-cdifworkshop/bezivin1/
[DAML] DAML: The DARPA Agent Markup
Language. http://daml_about.html
[DIA] Dias, Tatiane D. Web Semntica: Fundamentos e
Tecnologias. 2001. Trabalho de Concluso de Curso
(Graduao em Informtica) - Universidade do Estado
do Rio de Janeiro, 42 pg. (Unpublished).
[DC]
Dublin
Core
Metadata
Initiative.
http://dublincore.org
[DOG] Dog Pile http://dogpile.com
[GRU] Grubber, T. What is an Ontology? (http://wwwksl.stanford.edu/kst/what-is-an-ontology.html)
[GUH] Guha G.V., Meta Content Framework
http://mcf.research.apple.com/hs/mcf/html
[HAB] Habbib, D. P., Balliot, R. L. How to Search the
World Wide Web: A Tutorial for Beginners and NonExperts.http://204.17.98.73/midlib/tutor.htm#GSE.
[HFD] I. Horrocks, D. Fensel, J. Broekstra, S. Decker.
The OntologyInference Layer
OILhttp://www.ontoknowledge.org/oil//TR/oil.long.htm
l
[HIST] A Little History of World Wide Web.
http://www.w3.org/History.html
[IAW] Iannella, R., Waugh, A. Metadata: Enabling the
Internet.
http://www.dstc.edu.au/RDU/reports/CAUSE97
[INF] http://www.infoseek.com

92

: Cadernos do IME : Srie Informtica : Vol. 14 : Junho de 2003

[JHD] Hendler, J. Agents and The Semantic Web.


http://www.cs.umd.edu/users/hendler/AgentWeb.html
[KAN] Kansas. Kansas City Publication Library.
Introduction
to
Search
Engines.
2001
http://www.kcpl.lib.mo.us/search/srchengines.htm
[KAW] Kahn, R. and Wilensky, R. A Framework for
Distributed
Object
Services.
http://www.cnri.reston.va.us/home/cstr/arch/k-w.html
[LLD] Lagose, C., Lynch C.; Daniel, R. The Warwick
Framework A Container Architecture for
aggregating
Sets
of
Metadata.
1996.
http://www.dlib.org/ dlib/july96/lagoze/07lagoze.html
[MAG] http://www.mckinley.com
[META http://www.metacrawler.com
[OBR] http://www.ontoprise.de/start_products.htm
[OECC] Oklahoma Eletronic Commerce Connection.
Semantic Web Will Force Business Site Changes.
Http://www.okec.org/news/semanticweb.htm
[OIL] www.ontoknowledge.org/oil/
[ONT]http://www.ontoknowledge.org/tools/ontoedit.sht
ml
[PROTEGE]http://www.smi.Stanford.edu/projects/prot
g/protg-rdf/ protg-rdf.html
[RDF] Resource Description Framework (RDF) Model
and Sintax Specification. W3C Recommendation.
http://www.w3.org/TR/2000/CR-rdf-schema20000327
[RDFS] Resource Description Framework (RDF)
Schemas.
W3C
Candidate
Recommendation.
http://www.w3.org/TR/rdf-schema/
[SHOE]http://www.cs.umd.edu/projects/plus/SHOE/spe
c.htm

[SOI] Summary Object Interchange Format (SOIF).


http://harvest.cs.colorado.edu/
[TBL]
Tim
Berners-Lee.
http://www.w3.org/People/Berners-Lee
[TBL01] Tim Berners-Lee, J. Hendler, O. Lassila. The
Semantic
Web.
Scientific
American.
http://www.scientificamerican.com/2001/0501issue/0
501berners-lee.html
[UMT] University of Texas Medical Branch. Searching
for
Subject
Information
on
the
WWW.
http://library.utmb.edu/SearchEngines/ComparisonCh
art.asp
[URL]
Uniform
Resource
Location.
http://www.w3.org/Addressing
[W3C]
World
Wide
Web
Consortium.
http://www.w3.org
[W3C01] About World Wide Web Consortium.
http://www.w3.org/Consortium
[W3C02] World Wide Web Consortium in 7 tips.
http://www.w3.org/Consortium/Points
[WKL] Weibel, S. L., Kunze, J. A., Lagoze, C., Wolf,
M. Dublin Core Metadata for Resource Discovery.
1998. http://www.ietf.org/rfc/rfc2413.txt
[XML] Extensible Markup Language (XML) Activity.
http://www.w3.org/XML
[YAHO] Yahoo. http://www.yahoo.com.br
W3C XML Schema http://www.w3.org/XML/Schema
W3C
XSL
Transformation
(XSLT).
http://www.w3.org/TR/xslt
www.ibm.com/developer/xml
XML Schema http://www.w3c.org/XML/Schema

You might also like