Professional Documents
Culture Documents
ciência da informação
Renato Rocha Souza INTRODUÇÃO
Doutorando em ciência da informação. Escola de Ciência da
Informação. Universidade Federal de Minas Gerais Surgida no início dos anos 90, a World Wide Web*, ou
E-mail: rsouza@eci.ufmg.br
simplesmente Web, é hoje tão popular e ubíqua, que,
não raro, no imaginário dos usuários, confunde-se com
Lídia Alvarenga
Doutora em ciência da informação (UnB). Professora titular da Escola a própria e balzaquiana Internet – a infra-estrutura de
de Ciência da Informação. Universidade Federal de Minas Gerais redes, servidores e canais de comunicação que lhe dá
E-mail: lidiaalvarenga@eci.ufmg.br sustentação. Se a Internet surgiu como proposta de um
sistema distribuído de comunicação entre computadores
para possibilitar a troca de informações na época da
Guerra Fria, o projeto da Web, ao implantar de forma
magistral o conceito de hipertexto imaginado por Ted
Resumo
Nelson & Douglas Engelbart (1962), buscava oferecer
O presente artigo apresenta o processo de atualização por interfaces mais amigáveis e intuitivas para a organização
que passa a World Wide Web na sua transição para o que e o acesso ao crescente repositório de documentos que
tem sido chamado de “Web Semântica”. Neste sentido,
se tornava a Internet. Entretanto, o enorme crescimento
busca-se identificar as tecnologias, as organizações
associadas e o embasamento filosófico e conceitual – além das expectativas – do alcance e tamanho desta
subjacentes a esta nova web. O artigo também procura rede, além da ampliação das possibilidades de utilização,
apresentar as imbricações existentes com a ciência da fazem com que seja necessária uma nova filosofia, com
informação e as possibilidades de ampliação de escopo dos
seus objetos tradicionais de pesquisa com o aporte dos suas tecnologias subjacentes, além da ampliação da infra-
novos padrões e tecnologias que estão sendo desenvolvidos estrutura tecnológica de comunicação.
no âmbito da Web Semântica.
Para apresentar as mudanças por que está passando a
Palavras-chave
Web na transição para este novo patamar que tem sido
Web Semântica; Ciência da informação; Internet; Sistemas chamado de “Web Semântica” e avaliar alguns dos
de recuperação da informação; Hipertexto. impactos deste fenômeno, convém explorar brevemente
os conceitos inerentes aos sistemas de recuperação de
informações, sua funcionalidade, e estabelecer algumas
Web Semantics and its contributions to
categorias de análise.
information science
A Web e os sistemas de recuperação de
Abstract informações
This article explores the updating process that is taking place
in the World Wide Web in the transition to what is being
A dificuldade de conceitualização do que é um sistema
called “The Semantic Web”. In this sense, we try to identify de recuperação de informações (SRI) advém, a princípio,
the technologies, the associated organizations and da ambigüidade dos conceitos de sistema e de informação
institutions, the conceptualization and the philosophy that
underlie this new web. The article also tries to show the
em si (Araújo, 1995). Podemos adotar, entretanto, algumas
interconnections between the semantic web and the field of definições que façam sentido no escopo do assunto
information science, and how the semantic web technologies tratado e, desde já, assumimos que, ao falar de sistemas
can broaden the traditional information science research de recuperação de informações, estamos falando em
subjects.
tecnologias para a recuperação de informações registradas
Keywords em formato impresso ou digital.
Semantic Web; Information science; Internet; Systems of
information retrieval; Hypertext.
1) a ordem dos problemas psicológicos, que relaciona referência, de forma que “metadados” sejam “dados sobre
os estados fisiológicos e psíquicos dos interlocutores nos dados”. Os metadados em documentos na Web têm a
processos de comunicação de signos; função de especificar características dos dados que
descrevem, a forma com que serão utilizados, exibidos,
2) a ordem dos problemas lógicos, que estabelece as ou mesmo seu significado em um contexto.
relações dos signos com a realidade no processo de
significação; A linguagem ainda utilizada atualmente para a construção
da maioria das páginas Web é o HTML, ou HyperText
3) a ordem dos problemas lingüísticos, que estabelece a Markup Language (linguagem de marcação em
natureza e as funções dos vários sistemas de signos. hipertexto). A linguagem HTML é derivada do padrão
Guiraud confere à terceira ordem de problemas o status SGML (Standard Generalized Markup Language), que
de “semântica por excelência” (1976, p.8), mas o uso da é, na verdade, uma metalinguagem, ou seja, uma
conotação “semântica” para a Web ampliada está ancorado linguagem para descrever outras linguagens. O padrão
na segunda definição, e se justifica se observarmos as SGML é baseado na idéia de que documentos contêm
aumentadas possibilidades de associações dos documentos estrutura e outros elementos semânticos que podem ser
a seus significados por meio dos metadados descritivos. descritos sem que se faça referência à forma com que
Além disso, as ontologias construídas em consenso pelas estes elementos serão exibidos. O conjunto de todas as
comunidades de usuários e desenvolvedores de aplicações tags – marcações sintáticas que descrevem os dados e
permitem o compartilhamento de significados comuns. comandos para manipulação de um documento – passíveis
de serem utilizadas por uma linguagem derivada do SGML
Berners-Lee (2001) imagina um mundo em que é chamado de DTD, ou Document Type Definition.
programas e dispositivos especializados e personalizados,
chamados agentes, possam interagir por meio da infra- A linguagem HTML é um conjunto definido de tags, ou
estrutura de dados da Internet trocando informações um DTD específico do SGML, e foi criada tendo em
entre si, de forma a automatizar tarefas rotineiras dos mente a necessidade de construção de documentos para
usuários. O projeto da Web Semântica, em sua essência, serem exibidos em dispositivos de computador (na Web),
é a criação e implantação de padrões (standards) daí sua vocação para tratar do formato que os dados
tecnológicos para permitir este panorama, que não contidos no documento vão assumir ao serem exibidos.
somente facilite as trocas de informações entre agentes Um navegador ou browser, ao ler um documento HTML,
pessoais, mas principalmente estabeleça uma língua interpreta as tags que este documento contém para decidir
franca para o compartilhamento mais significativo de como serão exibidos os dados também contidos. Os
dados entre dispositivos e sistemas de informação de navegadores atuais interpretam o HTML porque o DTD
uma maneira geral. para definição do HTML é fixo, e é conhecido a priori
pelo interpretador do navegador. Assim mesmo, podemos
Para atingir tal propósito, é necessária uma padronização ter navegadores diferentes interpretando definições de
de tecnologias, de linguagens e de metadados descritivos, exibição de forma particular, com resultados distintos
de forma que todos os usuários da Web obedeçam a no dispositivo de saída. A estrutura do HTML é rígida,
determinadas regras comuns e compartilhadas sobre não existindo a possibilidade de adição de novos
como armazenar dados e descrever a informação comandos de marcação (tags), sem que haja uma
armazenada e que esta possa ser “consumida” por outros redefinição do DTD da linguagem e conseqüente
usuários humanos ou não, de maneira automática e não atualização dos navegadores para que interpretem estas
ambígua. Com a existência da infra-estrutura tecnológica novas tags. A última especificação do HTML lançada
comum da Internet, o primeiro passo para este objetivo pelo W3C foi a versão 4.0, e desde então a linguagem
está sendo a criação de padrões para descrição de dados não tem sofrido mais modificações.
e de uma linguagem que permita a construção e
codificação de significados compartilhados. Para melhor A partir das limitações do HTML e das necessidades de
entender estes padrões e linguagens, vamo-nos debruçar uma linguagem que pudesse descrever o conteúdo
a seguir um pouco mais sobre estes conceitos. semântico e os significados contextuais, além da estrutura
e forma de exibição de documentos, foi criado o XML
SGML, HTML e XML (eXtensible Markup Language). O XML é uma
recomendação formal do W3C e, em determinados
Um documento na Web é composto por uma mistura de aspectos, assemelha-se ao HTML. Ambas são derivadas
dados e metadados. “Meta” é um prefixo de auto- do SGML e contêm tags para descrever o conteúdo de
um documento. Mas, enquanto o HTML tem como e SGML, de forma a possibilitar a interoperabilidade
objetivo controlar a forma com que os dados serão dos sistemas internos da companhia.
exibidos, o XML se concentra na descrição dos dados
que o documento contém. Além disso, o XML é flexível Metadados e o Dublin Core
no sentido de que podem ser acrescentadas novas tags à Não basta possuir uma linguagem flexível como o XML
medida que forem necessárias, bastando para isso que para construir metadados. Para compartilhar um
estejam descritas em um DTD específico; ou seja, significado, é necessário que este seja consensual e
qualquer comunidade de desenvolvedores pode criar suas inteligível de forma não ambígua entre todos os
marcações (tags) específicas que sirvam aos propósitos participantes de uma comunidade. Para resolver o
de descrição de seus dados. Isto possibilita que os dados problema da explosão de nomenclaturas diferentes e as
sejam descritos com mais significado, abrindo caminho várias situações em que a interpretação dos dados de
para embutirmos semântica em documentos da World maneira unívoca não é possível, foram criados, no escopo
Wide Web e nas intranets. O HTML 5.0 ou XHTML é do projeto da Web Semântica, alguns padrões de
o HTML 4.0 reescrito como se fosse um DTD específico metadados, de construção de código XML e uma nova
que segue o padrão XML. significação para o termo ontologias, como vemos a seguir.
Os dados contidos nos documentos XML podem ser O padrão Dublin Core é uma iniciativa para criação de
exibidos em uma infinidade de maneiras, dependendo um vocabulário controlado, mesmo que limitado, para
do dispositivo em que serão manuseados (telas de uso na Web, baseado no pressuposto de que a busca por
computador, celulares, PDAs etc.). Os documentos XML recursos de informação deve ser independente do meio
não contêm, em si, as diretivas para exibição dos dados, em que estão armazenadas. É composto de 15 elementos
e, para cada dispositivo-destino específico, podemos de metadados (DCMI, 2003) e se baseia no padrão
realizar uma transformação do documento originalmente MARC* (2003). Seus elementos são title (o nome dado
em XML para um documento passível de ser exibido ao ao recurso, ou título), creator (a pessoa ou organização
usuário ou entendido e utilizado por outro dispositivo responsável pelo conteúdo), subject (o assunto, ou tópico
tecnológico. Esta transformação é realizada utilizando- coberto pelo documento), description (descrição do
se a linguagem XSL (eXtensible Stylesheet Language), e conteúdo), publisher (o responsável por tornar o recurso
cada arquivo XSL contém as definições de exibição ou ou documento disponível), contributors (aqueles que
leitura de um ou vários dispositivos específicos (tela do contribuíram para o conteúdo), date (data em que o
computador, tela do celular, impressora, coletores de recurso foi tornado disponível), type (uma categoria
dados, outros sistemas de informação etc.), no formato preestabelecida para o conteúdo), format (o formato no
que melhor convier (tabelas, gráficos, seqüência de qual o recurso se apresenta), identifier (identificador
caracteres etc.). O arquivo XML passa por uma numérico para o conteúdo, tal como uma URL**), source
transformação definida pelo XSL, e o resultado é um (fonte de onde foi originado o conteúdo), language (a
arquivo muito semelhante a um documento HTML linguagem em que está escrito), relation (como o conteúdo
comum. Desta forma, o trio XML, seu DTD específico e se relaciona com outros recursos, como, por exemplo,
o XSL se apresentam como um conjunto de padrões que se é um capítulo em um livro), coverage (onde o recurso
possibilitam o armazenamento, descrição significativa, está fisicamente localizado) e rights (um ponteiro ou link
intercâmbio e exibição dos dados de forma personalizada. para uma nota de copyright). O Dublin Core Metadata
O padrão XML é aceito como o padrão emergente para Initiative (DCMI) teve início em 1995, ganhando o
troca de dados na Web. Mas, apesar de possibilitar aos nome da localidade onde se deu o encontro inicial,
autores a criação de suas próprias tags, em uma Dublin, Ohio, USA. Sua aceitação foi rápida e é hoje
perspectiva computacional, há muito pouca diferença
* O MARC é um padrão para comunicação de informações
entre as tags <AUTHOR> e <CREATOR>. Para que as bibliográficas de forma que possibilite o entendimento por
marcações semânticas criadas sejam utilizadas de forma dispositivos eletrônicos. É uma iniciativa da biblioteca do Congresso
não-ambígua por comunidades maiores, são necessários dos EUA.
alguns padrões de compartilhamento mais universais. ** A URL, ou Uniform Resource Locator, é um caso particular dos
O W3C e as comunidades de usuários têm procurado URI (Uniform Resource Identifier), que são os endereços que identificam
um “ponto de conteúdo” da World Wide Web, seja este uma página
prover estes padrões, como abordamos em seguida.
de texto, vídeo, imagem, som etc. O tipo mais comum de URI é a
URL, que descreve o endereço de uma página na Web (o servidor que
Muitas empresas estão migrando seus bancos de dados e a hospeda e o nome do documento neste servidor) e o mecanismo
bases de documentos para padrões compatíveis com XML (protocolo) utilizado para o acesso (HTTP, FTP etc.).
O padrão RDF
além de considerar as informações em seus contextos namespaces da Web Semântica e, também, da lógica
de significado. formalizada do XML e do RDF.
INMON, Willian. Building the data warehouse. 2. ed. New York : WHAT is computer terminology. Disponível em: <http://
John Wiley, 1996. 401 p. www.whatis.com>. Acesso em: jun. 2003.
LAMPING, J; RAO, R.; PIROLLI, P. A Focus+context technique based WOOLDRIDGE, M.; JENNINGS, N. Intelligent agents: theory and
on hyperbolic geometry for visualizing large hierarchies. Disponível em: practice. Knowledge Engineering Review, v. 10, n. 2, p. 115-152, 1995.
<http://www.acm.org/sigchi/chi95/proceedings/papers/ WOOLDRIDGE, M; JENNINGS, N. (Ed.). Agent technology:
jl_bdy.htm>. Acesso em: jul. 2003. foundations, applications, and markets. Berlim : Springer-Verlag,
LANCASTER, F. W.; WARNER, A. J. Information retrieval today. 1998.
Information Resources, 1993.