Professional Documents
Culture Documents
http://creativecommons.org/licenses/by-nc-sa/4.0/
Isso significa que voc pode copiar partes ou todo este livro e redistribuir o
material em qualquer suporte ou formato.
Voc pode tambm modificar o material da forma que desejar.
Voc deve, contudo, atribuir o devido crdito, informando que o livro original
pode ser obtido no site http://ceweb.br/publicacao/livro-dados-abertos/.
Voc no pode utilizar este livro para fins comerciais e obras derivadas devem
seguir esta mesma licena.
Isotani, Seiji
Dados abertos conectados / Seiji Isotani, Ig
Ibert Bittencourt. -- So Paulo : Novatec
Editora, 2015.
ISBN 978-85-7522-449-6
15-07274 CDD-004.678
ndices para catlogo sistemtico:
1. Web semntica : Acesso a dados abertos :
Cincias da computao 004.678
MP20150817
Seiji Isotani
Ig Ibert Bittencourt
Novatec
Esta uma publicao do:
Ncleo de Informao e Coordenao do Ponto Br NIC.br
Diretor Presidente: Demi Getschko
Diretor Administrativo: Ricardo Narchi
Diretor de Servios: Frederico Neves
Diretor de Projetos Especiais e de Desenvolvimento: Milton Kaoru Kashiwakura
Diretor de Assessoria s Atividades do CGI.br: Hartmut Richard Glaser
Organizao: Centro de Estudos sobre Tecnologias Web Ceweb.br
Autores: Seiji Isotani e Ig Ibert Bittencourt
Coordenao Executiva e Editorial: Caroline Burle dos Santos Guimares e Vagner Diniz
Reviso: Luisa Caliri
Designer da capa: Maricy Rabelo
Ilustraes: Ricardo Hurmus
Editora: Novatec
Sobre o NIC.br
O Ncleo de Informao e Coordenao do Ponto BR uma entidade civil,
sem fins lucrativos, que implementa as decises e projetos do CGI.br. So
atividades permanentes do NIC.br coordenar o registro de nomes de domnio
(Registro.br), estudar, responder e tratar incidentes de segurana no Brasil
(CERT.br), estudar e pesquisar tecnologias de redes e operaes (Ceptro.br),
produzir indicadores sobre as tecnologias da informao e da comunicao
(Cetic.br), fomentar e impulsionar a evoluo da Web no Brasil (Ceweb.br)
e abrigar o escritrio do W3C no Brasil (http://www.w3c.br/).
Sobre o Ceweb.br
O Centro de Estudos sobre Tecnologias Web (Ceweb.br) tem como misso
disseminar e promover o uso de tecnologias abertas na Web, fomentar e im-
pulsionar a sua evoluo no Brasil por meio de estudos, pesquisas e experi-
mentaes de novas tecnologias. No escopo de atividades desenvolvidas pelo
Centro, destacam-se o estmulo s discusses sobre o ecossistema da Web e a
preparao de subsdios tcnicos elaborao de polticas pblicas que fomen-
tem esse ecossistema como meio de inovao social e prestao de servios.
7
8 Dados Abertos Conectados
10
Sobre os autores
11
Prefcio
12
Prefcio 13
1.1 Introduo
Saber trabalhar com grandes quantidades de dados procedentes
de diversas localidades e com diferentes formatos uma das habi-
lidades mais desejadas na ltima dcada (Davenport et al., 2012).
Isso ocorre devido ao crescimento exponencial dos dados gerados
pela sociedade e necessidade de minerar informaes obtidas por
meio da anlise das conexes semnticas entre conceitos e relaes
presentes nestes dados (Isotani et al., 2009; Bittencourt et al., 2008).
Para exemplificar essa problemtica, um estudo desenvolvido pela
IDC Digital Universe fez uma medio dos dados criados replicados e
consumidos em 2011 e estimou que 1,8 trilho de gigabytes de dados
foi produzido durante o ano (EMC, 2012). Contudo, grande parte
destes dados no est disponvel ao pblico. Estes dados tampouco
esto estruturados para facilitar sua compreenso mesmo por aqueles
que podem acess-los e manipul-los. Como resultado, a extrao de
informaes e a produo de conhecimentos que poderiam ser teis
para a sociedade no acontecem com a agilidade e a eficcia neces-
srias para lidar com as questes sociais e econmicas do sculo 21.
16
Captulo 1 Viso Holstica: Da Produo ao Consumo de Dados Abertos 17
1.1.1 Motivao
Antes de introduzir os conceitos tericos e tcnicos, gostaramos
de iniciar o texto com um exemplo que incentive o leitor a pensar
sobre as necessidades e potencialidades de produzir e disponibilizar
dados livremente na Web.
Propomos pensar um pouco sobre a gesto de cidades, estados
e pases. Para manter os vrios servios pblicos oferecidos pelo
governo, existem diversas informaes que precisam ser comparti-
lhadas, integradas e gerenciadas. Por exemplo, o servio de transporte
pblico urbano abrange frotas de nibus, trens ou metr, que so
concesses municipais, estaduais ou federais. Alm disso, existem
tambm as frotas intermunicipais e interestaduais que conectam
diferentes municpios e estados. Neste contexto, para utilizar este
servio e verificar se ele est sendo oferecido com qualidade e
18 Dados Abertos Conectados
Criar
Reciclar Coletar
Informao
Consumir Armazenar
Distribuir Processar
Crescimento de
50 vezes do incio
30.000
de 2010 ao
final de 2020
(Exabytes) 20.000
10.000
2009 2010 2011 2012 2013 2014 2015 2016 2017 2018 2019 2020
Dado
(Estruturado)
Primrio
Instrucional Factual
Digital Meta-operacional
Falso Verdadeiro
Binrio Derivativo
No Intencional Intencional
Conhecimento
Web
Agente
Lucy
Ontologias
Agentes
Inteligentes
Servios
Semnticos
Confiana
Regras
Prova
Assinatura Digital
Dados
Lgica
Dados
Doc. Vocabulrio Ontolgico
Alto-
desc. RDF + rdfschema
XLM + NS + xmlschema
Unicode URI
Confiana
Prova
Lgica Unificada
XML
URI Unicode
CO
N FIA
SEG N
OL A
U
S PAR RA
N
A
L PR
G OV
IC A A
APLICAES
GRAFOS URIS
REG
RA
S R IF
CONSULTA
S
IN SKO
DE TERC
MO FS
IN F M DE RD
LO L F TS
O R BIO S OW RD MA
MA R
A
O FO
Fa UT
H
PL RD
AT E EA
AF F RTL OD
OR TU N IC
CO
MA OR U
ES
N
MA L
CE
XM TTP
WE TO
IT
LU
IH
O
B S
S
SO
IR
&
RI/
AB
E
ES
U
ST
A
A
FI
ES
CI
PE
ES
Figura 1.9 Estado Atual da Web Semntica. Fonte: adaptado de Nowack (2009).
Captulo 1 Viso Holstica: Da Produo ao Consumo de Dados Abertos 31
9 A partir deste momento iremos utilizar apenas o termo em portugus, Dados Conectados.
32 Dados Abertos Conectados
Confiana
Prova
Lgica Unificada
Ontologia: OWL
Consulta:
SPARQL Cripto
Uma Web RDFS
de Dados Regras:
Conectados RIF
RDF
XML
URI/IRI
W3C*
Web
Semntica
Dados Dados
Estruturados Conectados
RDF
Outros
Microformatos Microdados RDFa formatos RDF
Dados Abertos
Conectados
Na Web
Licena Aberta
Dados legveis
por mquina
Formatos no
proprietrios
Padres RDF
RDF Conectado
Seus dados so 5 ?
Sussex St.
Reading Andrews NDL
Audio- Lists Reading Subjects
Lists
t4gm
MySpace scrobbler
(DBTune) (DBTune)
Moseley RAMEAU
Folk NTU
Resource SH lobid
GTAA Plymouth Organiza -
Reading Lists
Lists
tions
Music
The
Magna- ECS
Brainz Music
Open LCSH South-
DB tune (Data Library LIBRIS
Brainz amptom
Tropes Incubator) lobid Eprints
Ulm
(zitgist)
Man - Resources
chester
Surge Reading
biz. Radio Music The RISKS
Lists ECS
data. Brainz Open
John PSH South -
gov.uk Discogs (DBTune) Library Gem. UB
Peel amptom
FanHubz (Data In- Norm- Mann-
(DB (Talis)
cubator) datei heim RESEX
Tune) Jamendo
Pok- Deploy
Popula-
Last FM
tion (En- pdia
AKTing) Artists Last FM Linked RDF
research. EUTC (DBTune) (rdfize) VIAF Book Wiki
data. Produc -
LCCN Pisa Eurcom
P20 Mashup semantic.
NHS gov.uk tions
(EnAKTing) classical Pokedex web.org
(DB
Mortality Tune) PBAC ECS
(En- (RKB
BBC Marc Budapest
AKTing) Explorer)
Program Codes
Energy OpenEI BBC Semantic Lotico Revyu
education List OAI
(En- CO2 mes Music Crunch SW
(En- data. Chronic- Linked Base
AKTing) Dog
AKTing) gov.uk ling NSZL
Event- MDB RDF Food IRIT
America Catalog
Media ohloh
BBC DBLP ACM
Good- BibBase IBM
Ord- Wildlife (RKB
Openly Recht- win
nance Finder Explorer)
spraak. Family DBLP
legislation Survey local Tele- New VIVO
.gov.uk nl graphis York flickr UF (L3S) New -
Times wrappr VIVO castle
URI Open
UK Post - Indiana RAE2001
Burner Calais DBLP
codes statistics (FU
VIVO CiteSeer Roma
data.gov. LOIUS Taxon Berlin) IEE
iServe Cornell
uk Concept World data
Geo
Fact- OS dcs
ESD Names book dotAC
standards reference Linked Data (FUB) Freebase
data.gov. Nasa Project
for Intervals (Data Gutenberg
uk STW GESIS CORDIS
transport Incu DBpedia (FUB) Course - ePrints
data.gov bator) ware
.uk Fishes ERA UN/
of Texas Geo LOCODE
Species Uberblic
Euro-
stat dbpedia TCM SIDER Pub KISTI
The (FUB) lite STITCH Chem JISC
Gene
London Geo KEGG
LAAS
US Census Numbers
PRO- ProDom Geographic
SITE Chem2
UniRef
Bio2RDF
WordNet SGD Homolo Publications
Climbing
(W3C) Gene
Linked Affy-
Cornetto
GeoData metrix
PubMed Gene User-generated content
UniParc Ontology
GeneID
Airports
Product Government
DB UniSTS
MGI
Gen
Bank OMIN InterPro Cross-domain
Life sciences
Especificar
Explorar Modelar
Publicar Gerar
2.1 Introduo
Como descrevemos no Captulo 1, dados abertos so dados que
podem ser livremente utilizados, reutilizados e redistribudos por
qualquer pessoa sujeitos, no mximo, exigncia de citar a fonte
original e compartilhar com as mesmas licenas em que as informa-
es foram inicialmente apresentadas. Vimos tambm no captulo
anterior que a disponibilizao destes dados classificada de acordo
com o Sistema de 5 Estrelas: quanto maior o nmero de estrelas,
melhores so a visibilidade, a integrao e a usabilidade destes dados
tanto por pessoas quanto por mquinas.
Neste captulo, estamos interessados em aprofundar os conheci-
mentos sobre os dados abertos estruturados e conectados (ou Linked
Data) seguindo o Sistema de 5 Estrelas. Queremos, assim, apresen-
tar ao leitor alguns conhecimentos tcnicos para utilizar modelos
e padres que viabilizam o uso dos dados estruturados disponveis
na Web para busca e navegao de forma (semi) automtica com o
apoio de programas de computador. Esses modelos e padres para
disponibilizao dos Dados Conectados so a base para construir a
42
Captulo 2 Estruturao de Dados e Dados Abertos Conectados 43
Figura 2.1 (b) As mesmas pginas web esto conectadas a mais informaes
adicionais sobre os dados disponveis nas pginas, permitindo que as
mquinas possam compreender e processar melhor as relaes entre as
pginas e as informaes contidas nelas. Fonte: autores.
2 http://www.w3.org/2011/rdf-wg/wiki/Main_Page
Captulo 2 Estruturao de Dados e Dados Abertos Conectados 45
OL RE OF URI
Recht- win (RKB
nance Openly Finder
spraak. Family Explorer)
legislation Survey local Tele- New VIVO DBLP
.gov.uk nl graphis York flickr UF (L3S) New -
Times wrappr VIVO castle
URI Open
UK Post - Indiana RAE2001
Burner Calais DBLP
codes statistics (FU
VIVO CiteSeer Roma
data.gov. LOIUS Taxon iServe Berlin) IEE
uk Cornell
Concept World
Geo data
Fact- OS dcs
ESD Names book dotAC
standards reference Linked Data (FUB) Freebase
data.gov. Nasa Project
for Intervals (Data Gutenberg
uk STW GESIS Course - ePrints CORDIS
transport Incu DBpedia (FUB)
data.gov bator) ware
.uk Fishes ERA UN/
of Texas Geo LOCODE
Species Uberblic
Euro-
stat dbpedia TCM SIDER Pub KISTI
The (FUB) lite STITCH Chem JISC
Gene
London Geo KEGG
DIT LAAS
Gazette TWC LOGD Linked Daily OBO Drug
Eurostat Data UMBEL
lingvoj Med
(es) Disea -
YAGO Medi somi
Care ChEBI KEGG NSF
Linked Drug KEGG KEGG
Linked Cpd
GovTrack CT Bank Pathway Glycan
rdfabout Sensor Data
US SEC riese Open Reactome
(Kno.e.sis) Cyc
Uni
Lexvo Path-
way PBD
Semantic totl.net Pfam
HGNC
XBRL Media
WordNet KEGG KEGG
(VUA) Linked Taxo- CAS
Twarql UniProt Enzime Reaction
rdfabout Open nomy Geographic
EUNIS
US Census Numbers
PRO- ProDom
SITE Chem2
UniRef Publications
Bio2RDF
Climbing
WordNet SGD Homolo
(W3C) Gene
Linked Affy- User-generated content
Cornetto
GeoData metrix
PubMed Gene
UniParc Ontology
GeneID Government
Airports
Product
DB UniSTS
MGI Cross-domain
Gen
Bank OMIN InterPro
Life sciences
http://data
OL RE OF
CSV
OL RE
XLS
OL
Tabela 2.1 Exemplo para demonstrar esquema de 5 estrelas dos dados abertos
URI
http://weather.example.com/oaxaca
Ide
nt Recurso
ific
a
Representao
Oaxaca Weather Report
Metadata:
Content-type:
application/xhtml+xml ta
en
Data: p res
Re
<!DOCTYPE html PUBLIC "...
"http://www.w3.org/...
<html xmlns="http://www...
<head>
<title>5 Day Forecaste for
Oaxaca</title>
...
</html>
Descrio RDF
Propriedade
Tipo de
URI Recurso
Propriedade Valor
2.3.1.1 Triplas
Predicado
Sujeito Objeto
cr
is interesed in
BOB is
is
ab
bo
ou
rn
La Joconde
Washington
2.3.1.2 IRIs
anyType
Key
todos os tipos complexos
anySimpleType Tipos especiais
anySimpleType
anyURI Tipos primitivos
anyAtomicType
Outros construtores
dateTimeStamp de tipos atmicos
anyURI
ENTITIES Construtores de tipos de listas
base64Binary
todos os tipos complexos Tipos complexos
boolean
date
T1 T2 derivado de T1
dateTime
T2
dateTimeStamp
decimal
integer
double long
duration int
dayTimeDuration short
yearMontDuration byte
float nonNegativeInteger
gDay positiveInteger
gMonth unsignedLong
gMonthDay unsignedInt
gYear unsignedShort
gYearMonth unsignedByte
hexBinary nonPositiveInteger
NOTATION negativeInteger
qName
string
normalizedString
time token
ENTITIES language
IDREFS Name
NMTOKENS NCName
ENTITY
ID
IDREF
NMTOKEN
Leonardo Da Vinci
Alice http://dbpedia.org/resource/
http://example.org/alice#me Leonardo_da_Vinci
or
foa
t
ea
f:k
r
s:c
no
rm
ws
te
dc
foaf:topic_interest dcterms:title
Mona Lisa
BOB
dc
sc
he
te
e
rm
m
yp
a:b
s:s
f:t
rd
ub
irt
je
ct
at
http://www.wikidata.org/entity/q12418
e
Person
foaf:Person "1990-07-04" xsd:date
La Joconde Washington
http://data.europeana.eu/item/04802/243FA
8618938F4117025F17A8B813C5F9AA4D619
http://example.org/bob https://www.wikidata.org/wiki
Special:EntityData/Q12418
Alice
http://example.org/alice#me Leonardo Da Vinci
http://dbpedia.org/resource/Leonardo_da_Vinci
or
foa
at
re
f:k
s:c
no
rm
w
te
s
dc
foaf:topic_interest dcterms:title
Mona Lisa
BOB
dc
te
rm
sc
s:s
he
http://example.org/bob#me
ub
je
a:b
ct
e
yp
http://www.wikidata.org/entity/q12418
irt
f:t
hD
rd
at
e
ts CC
:r igh
ms
ter
dc http://creativecommons.org/
licenses/by/3.0
http://example.org/bob
dc
ter
ms
:pu
bli
sh
er
http://example.org
Figura 2.10 Novos grafos relacionados ao IRI que descreve Bob. Fonte:
adaptado de Schreiber et al. (2014).
r rdfs:range d
rdf:Class rdf:Property
r d
r rdfs:domain d
r d r
r
rdf:type rdfs:subClassOf rdfs:subPropertyOf
rdfs:predicate d
d rdfs:subject rdf:Statement
d
r = rdfs:range r
d = rdfs:domain rdfs:object d
rdfs:Resource
d d
rdfs:comment rdfs:label
rdfs:Literal
r r
r
o po
op
or TriG
ndid
RDF/XML
este
similar a
N-Triples N-Quads
2.3.3.1 RDFa
2.3.3.2 RDF/XML
2.3.3.3 JSON-LD
Captulo 2 Estruturao de Dados e Dados Abertos Conectados 75
2.3.3.4 N-Triples
2.3.3.5 Turtle
19 IRIs relativos definem um recurso dentro de um context. Por exemplo, o IRI relativo de
http://example.org/bob#me bob#me.
Captulo 2 Estruturao de Dados e Dados Abertos Conectados 79
2.3.3.6 TriG
2.3.3.7 N-Quads
Finalmente, o formato N-Quads utilizado para permitir o inter-
cmbio de catlogo de dados (Carothers, 2014). Como voc pode
ver no cdigo a seguir em N-Quads (adaptado de Schreiber et al.,
2014), ele uma extenso da N-Triples e apresenta em cada linha a
identificao de uma tripla.
01 <http://example.org/bob#me>
<http://www.w3.org/1999/02/22-rdf-syntax-ns#type>
<http://xmlns.com/foaf/0.1/Person> .
02 <http://example.org/bob#me>
<http://xmlns.com/foaf/0.1/knows>
<http://example.org/alice#me> .
03 <http://example.org/bob#me>
<http://schema.org/birthDate> "1990-07-04"^^
<http://www.w3.org/2001/XMLSchema#date> .
04 <http://example.org/bob#me>
<http://xmlns.com/foaf/0.1/topic_interest>
<http://www.wikidata.org/entity/Q12418> .
05 <http://www.wikidata.org/entity/Q12418>
<http:purl.org/dc/terms/title> "Mona Lisa".
06 <http://www.wikidata.org/entity/Q12418>
<http:purl.org/dc/terms/creator>
<http://dbpedia.org/resource/Leonardo_da_Vinci>.
07 <http://data.europeana.eu/item/04802/243FA8618938F4117025F17A8B813C5F9AA4D619>
<http:purl.org/dc/terms/subject> .
08 <http://example.org/bob#me>
<http:purl.org/dc/terms/publisher>
<http://example.org> .
09 <http://example.org/bob#me>
<http:purl.org/dc/terms/rights>
<http://creativecommons.org/licences/by/3.0/> .
20 Alguns consideram TriG uma linguagem.
Captulo 2 Estruturao de Dados e Dados Abertos Conectados 81
Serializao
Tipo de cdigo Quando usar
RDF
RDFa Cdigo RDF embutido em HTML SEO (Search Engine Optimization)
RDF/XML Cdigo RDF com estrutura em XML Aplicaes que usam estruturas em XML
JSON-LD Cdigo RDF com estrutura JSON Aplicaes que usam JSON
Processamento e intercmbio de Big Data
N-Triples Cdigo RDF com estrutura de triplas
em RDF
Processamento e intercmbio de Big Data
Turtle Cdigo RDF para facilitar a leitura humana
em RDF
TriG Cdigo com estrutura Turtle Representao de mltiplos grafos
Processamento e intercmbio de grandes
N-Quads Cdigo RDF com estrutura de triplas
catlogos de dados
Web
HTML RDF
SPARQL
Endpoint
Gerenciamento Aplicaes
de Dados Aplicaes
Conectados (GUI) Aplicaes
Qu lesa
Ing
Notciasis Armstrong
ais Pre
a Lou
Barack Obama?
tim mi
Notcias sobre
es er 2
relacio
est 01
a)
l)
bo
c
o 2/1
os us
te
id b
na 3?
fu
nadas
er ou
Lig
de
g t o
Su ex
as)
er a
a
os
, t nt
rec g
os m t
eit
a
m
ias pla
tci ca/T
rm e
Te ado
og Im
(no ubli
as,
e
as API API
(b API API
P
ol
de de
nt
Armazenamento em Triplas
Contedo rdfs:subClassOf
Brand
object property
Series Programme
Episode
Meio
Broadcaster Service Outlet Channel
Version Broadcast
Publicao
B
R
A
I
Motor de Busca
N
I
A
K
A
P
I
Armazenamento
em Triplas
Quantidade de
Nmero de estrelas
catlogos
- 13.965
281
1.145
2.345
-
168
OLAP OLTP
Gerenciador
ETL de Gerenciador
agncias ETL de DoITT
Listas de Mensagens
no Barramento de Listas de
Servios Empresariais Arquivos Flat
Camada de
Abstrao
Servios Servios de Servios de
de Converso Integrao de Monitoramento
Geogrficos Dados Abertos / Notificao
Intranet
Catlogos
Portal de
Dados Abertos
Ontologias e Representao de
Conhecimento
3.1 Introduo
No Captulo 2, trabalhamos o conceito de estruturao de dados
e vimos como ele utilizado para auxiliar na descrio de Dados
Conectados. Abordamos mais a fundo tambm o sistema de 5
estrelas de divulgao de dados abertos, alm de apresentarmos
alguns exemplos de sua utilizao tanto no setor pblico quanto
no privado. Contudo publicar um dado de maneira indiscriminada
torna muito difcil o seu posterior uso. Isso ocorre porque um dado
pode ser descrito, representado e interpretado de diferentes maneiras.
Para entender mais o problema de representao do conheci-
mento, vamos discutir alguns dos problemas ao lidar com a tripla
descrio-representao-interpretao de dados. Um dos problemas na
descrio de dados o vocabulrio a ser utilizado para representar
um conceito desejado. Por exemplo, para descrever uma pessoa que
est assistindo s aulas em uma universidade, poderamos utilizar o
termo aluno. Entretanto existem outros termos, como estudante,
aprendiz ou at universitrio. Alm disso, no caso de uma pessoa
que est lecionando aulas, poderamos usar os termos professor,
instrutor, mestre e assim por diante. Nesses exemplos, apenas
93
94 Dados Abertos Conectados
3.2 Ontologias
O termo ontologia tem origem em um ramo da Filosofia (Metafsica)
que estuda a natureza do ser e a existncia. Para os filsofos, a
Ontologia visa a explicar todas as coisas do mundo, estabelecendo sis-
tematicamente sua linhagem conceitual. Na Cincia da Computao,
o significado e a finalidade desse termo so (um pouco) diferentes;
uma ontologia pode ser definida como um conjunto de conceitos
fundamentais e suas relaes, que capta como as pessoas entendem
(ou interpretam) o domnio em questo e permite a representao
de tal entendimento de maneira formal, compreensvel por humanos
e computadores (Mizoguchi, 2004).
1 Disponvel em: <http://www.uml.org/>.
96 Dados Abertos Conectados
Props
ito
aplica
o
O
FUNDA
Express
refern
cia
ividade
leve
gen
rico
ncle pesa
da
o
domn Espe
io cificid
ade
que podem ser usados para descrever triplas. Isso inclui a definio
de tags e sua estrutura hierrquica (taxonomia) para restringir os
valores de uma tripla representada em RDF. Assim a RDF-S forne-
ce os elementos mnimos para a descrio de ontologias10. Embora
RDF-S possa ser usada para descrever ontologias, ela tem algumas
limitaes, especialmente para apoiar o raciocnio computacional
dos dados disponveis na Internet (Patel-Schneider, 2005). Assim,
uma linguagem mais expressiva foi desenvolvida e conhecida como
Web Ontology Language (OWL).
A OWL tambm uma linguagem desenvolvida e aprovada pelo
W3C. Ela tenta satisfazer ao formalismo exigido pela comunidade de
Web Semntica para que programas possam compreender e responder
a consultas de agentes (pessoas ou outros programas) por meio do uso
de descries ontolgicas (Horrocks et al., 2003). Atualmente, a OWL
a linguagem mais utilizada para representar ontologias formalmente,
apresenta variantes da linguagem que lidam com a escalabilidade e a
expressividade das ontologias e permite que aplicaes com diferentes
propsitos sejam construdas (Mizoguchi, 2004)11.
Existem muitas maneiras de representar graficamente uma on-
tologia, uma vez que esta composta principalmente de conceitos e
suas relaes. Algumas formas comuns para representar graficamente
ontologias so grafos, UML, estrutura de rvore, alm de outras.
Para exemplificar a diferena entre uma representao formal e uma
representao grfica, vamos definir o conceito de bicicleta (Isotani,
2009): uma bicicleta (bicycle) um tipo de veculo (vehicle) de trans-
porte, ou seja, pode-se definir a relao bicycle is-a vehicle. Alm
disso, uma bicicleta pode ser especializada em bicicletas esportivas
(sport bicycle) e bicicletas para uso na cidade (city bicycle). Finalmen-
te, possvel identificar os atributos e as propriedades da bicicleta
como cor, peso, tamanho etc. Como resultado, o trecho de cdigo
a seguir mostra parte da representao da ontologia que descreve
<owl:Class rdf:ID="sport_cycle">
<rdfs:label>sport_cycle</rdfs:label>
<rdfs:SubClassOf rdf:resource="#bicycle" />
</owl:Class>
<owl:Class rdf:ID="city_cycle">
<rdfs:label>city_cycle</rdfs:label>
<rdfs:SubClassOf rdf:resource="#bicycle" />
</owl:Class>
<owl:Class rdf:ID="bicycle">
<rdfs:label>bicycle</rdfs:label>
<rdfs:SubClassOf rdf:resource="#Vehicle" />
<rdfs:SubClassOf>
<owl:Restriction>
<owl:cardinality rdf:datatype="http://www.w3.org/
<owl:onProperty rdf:resource="#has_body_color" />
<owl:Restriction>
</rdfs:SubClassOf>
<rdfs:SubClassOf>
<owl:Restriction>
<owl:onProperty rdf:resource="#has_body_color" />
<owl:allValuesFrom rdf:resource="#Color" />
handlebar role
p/o 1
handlebar conceito de papel
front wheel role <<vehicle$wheel role
p/o 1
front wheel wheel
color
a/o 1
Color papel titular
weight
a/o 1
weight
GR
Documento
importar DD
Documento RDF/XML L
Documento
importar
comimportar
sintaxe OWL/XML
Funcional
l)
pr
(requerido)
(requerido)
ch
)
na
l
produzir
od
na
Documento
ec
checar
io
pro Documento
io
uz
al)
ar
pc
comimportar
sintaxe du
pc
on importar
ir (
Turtle
(o
(o
zir
pci
(o
Manchester (op l)
pc
op l)
r (o
ir
che na
ar
cio zi
uz
io
car o
pci
cio
na du
ec
na
od
(op l) pro (o
ch
na
cio car
pr
na che
l)
l)
importar Ontologia OWL 2
ma pe a me n t o
Camada sinttica
Estrutura da Grafo
Ontologia RDF
ma pe a me n t o
Camada semntica
teoremas de
correspondncia
(para subconjunto DL) Semntica baseada
Semntica Direta em RDF
* /imports * annotationsAnnotations
*
Ontology Annotation
/ directlyImports *
ontologyAnnotations
* axiomAnnotations
0..1 ontologyIRI
IRI Axion
0..1 *
versionIRI axioms
directlyImportsDocuments *
RDF-S
Lgica de
OWL Descrio
15 Nem todos os elementos foram especificados na Tabela 3.2, sendo importante olhar a
documentao disponvel em: <http://www.w3.org/TR/owl2-primer/>.
118 Dados Abertos Conectados
OWL 2 DL
OWL DL
RDFS
OWL 2 EL
OWL Lite
OWL 2 QL OWL 2 RL
RDFS
OWL 2 QL: esse perfil voltado para o trabalho com bancos de dados
relacionais tradicionais (isto , que fazem uso da linguagem SQL).
Como consequncia, trabalhar com OWL 2 QL permite
18 A lgica de descrio uma linguagem atributiva que, medida que aumenta os seus atributos,
aumenta a sua expressividade. Por exemplo, a linguagem OWL 2 DL da famlia ALIC.
19 De fato, tanto o perfil OWL 2 EL no tem os construtores de negao e disjuno como
todos os outros perfis.
Captulo 3 Ontologias e Representao de Conhecimento 121
rdfs : Resource
(indivduos)
Engenharia de Ontologias
4.1 Introduo
No Captulo 3, apresentamos o conceito de ontologias e sua aplica-
bilidade para descrever dados conectados. Mostramos tambm a
complexidade e dificuldade para criar uma ontologia que representa
adequadamente o domnio de um conjunto de dados para que eles
sejam acessveis e reutilizveis tanto por pessoas quanto por progra-
mas de computador. De fato, a criao de ontologias uma tarefa
importante no processo de disponibilizao de dados abertos de nvel
5 estrelas, mas que demanda conhecimentos especficos tanto sobre
a modelagem de dados quanto do prprio domnio de conhecimento
no qual os dados sero extrados e/ou utilizados.
Dessa forma, este captulo tem como objetivo apresentar um
pouco mais sobre a rea de Engenharia de Ontologias, que tem como
um dos seus objetivos auxiliar no processo de criao de ontologias
adequadas para satisfazer s necessidades de representao e uso
correto da informao.
A Engenharia de Ontologias surgiu como uma evoluo da
rea conhecida como Engenharia de Conhecimento (Knowledge
Engineering), que estuda a teoria e a tecnologia para o desenvolvimen-
to das bases de conhecimento utilizadas nos sistemas especialistas
124
Captulo 4 Engenharia de Ontologias 125
a c
b d a d
c e b e
BANK
209 218 220 220 234 239 344 632 632 798 799
highland seat acclivity be oblique edge laterality shore storage storage treasurer treasury
[verb] [verb]
tipo 1
tipo 2
palavra
tipo 3
tipo 4
Figura 4.3 Palavra Tipos Grafos Cannicos. Teoria Lgica. Fonte: adaptado
de Sowa (2006).
Interpretao (I)
Ontologia Ruim
Modelo Esperado IK(L)
Mundo Real
Conceitualizao
Modelos
Ontologia
Especificao
Manuteno Conceitualizao
Implementao Formalizao
4.3 Ferramentas
Atualmente existem dezenas de editores de ontologias desenvolvi-
dos pela comunidade. De acordo com (Alatrish, 2012), alguns dos
editores frequentemente adotados para criao e manipulao de
Captulo 4 Engenharia de Ontologias 135
Determinar
Escopo
Criar Considerar
Instncias Reuso
Metodologia
101
Definir Enumerar
Restries Termos
Definir Definir
Propriedades Classes
Figura 4.7 Ciclo de vida na metodologia 101. Fonte: adaptado de Noy et al.
(2001).
NonSweetFruit
Meal
+ +
MealCourse SweetFruit
+
Fowl
+
Thing ConsumableThing
OtherTomatoBased
Food
+
Pasta
EdibleThing
PotableLiquid +
Dessert
+
Meat
+ Juice
wine
+
Seafood
WhiteNonSweetWine
+
WhiteWine DryWhiteWine
+
WhiteBordeaux
+
wine RoseWine
+
RedBordeaux
RedWine
Port
+
DryRedwine
WineDescriptor WineColor
wine
+
WineGrap Region
+ +
Full Light
+
WineBody Medium
+
Sweet
WineTaste +
WineSugar OffDry
+
+ Dry
WineDescriptor
+
Delicate
WineColor + WineFlavor
Rose
+
Moderate
+
Red +
+ Strong
White
Desenvolvimento de Aplicaes
Semnticas
5.1 Introduo
Vimos nos captulos anteriores que a Web atual ainda composta de
grande quantidade de pginas estticas ou dinamicamente geradas, as
quais se interligam, e que as pessoas podem l-las e compreend-las.
Todavia os dados contidos nessas pginas no tm um significado
associado de modo a possibilitar sua interpretao por parte dos
computadores. Nesse cenrio, abordamos os conceitos de Web Se-
mntica, cuja ideia original estender a Web atual, descrevendo os
dados e os documentos atuais para que mquinas possam tambm
entender e processar essa vasta coleo de informaes (Cardoso et
al., 2007). Nessa perspectiva, a Web Semntica trar estrutura para
o significado do contedo presente nas pginas web, criando um
ambiente em que agentes de software percorrem pgina por pgina,
que proporciona a facilidade de realizar tarefas sofisticadas para
os usurios finais, tais como agendamento de consultas mdicas
ou compras de pacotes de turismo. Tim Berners-Lee props um
modelo de camadas que foi e ainda revisto pelo World Wide Web
Consortium (W3C), apresentado na Figura 1.8, no qual os principais
145
146 Dados Abertos Conectados
java
linguagem
Orientado a Orientado a
paradigma
Triplas RDF Objetos
OWL/
RDF
Manipulao
especifica paradigma
de Triplas RDF
Protg em
HOZO
Banco de JOINT
Plataforma
CKAN uma Dados RDF
de Dados
//alice is a person
con.add(alice.RDF.TYPE,person);
//create a Person
Person alice = new Person();
Captulo 5 Desenvolvimento de Aplicaes Semnticas 149
alice.setName("Alice");
AbstractKAO
+ createInstance() : T
+ removeInstance() : void
+ retrieveInstance(): T
+ save(): void
# executeSPARQLquery() : void
...
...
ontologyPath = "C:/bbcOntologyAtualizado.owl";
fachada.updateOntology(ontologyPath, ontologyURI);//Atualiza
...
fachada.deleteOntology(ontologyURI);//Deleta
...
...
...
// ...
// Usa o objeto da forma que desejar
// ...
//...
Concluso
166
Referncias
167
168 Dados Abertos Conectados
GANDON, F.; SCHREIBER, G. RDF 1.1 XML Syntax. Rio de Janeiro: W3C, 2014.
Disponvel em: <http://www.w3.org/TR/rdf-syntax-grammar/>.
GANGEMI, A. et al. Core Software Ontology, Core Ontology of Software
Components, Core Ontology of Services. Disponvel em: <http://km.aifb.
kit.edu/sites/cos/>.
GENESERETH, M. R.; NILSSON, N. J. Logical Foundations of Artificial
Intelligence. San Mateo: Morgan Kaufmann Publishers, 1987.
GROSOF, B. N. et al. Description Logic Programs: Combining Logic Programs
with Description Logic. In: Proceedings of the 12th international World
Wide Web Conference (WWW), p. 4857, 2003.
GROVE, M. Empire: RDF & SPARQL Meet Java & JPA. In: Semantic Tech-
nology Conference. [Online] 2010. Disponvel em: <http://semtech2010.
semanticuniverse.com/sessionPop.cfm?confid=42&proposalid=3022>.
GRUBER, T. R. A Translation Approach to Portable Ontology Specifications.
Knowledge Acquisition. 5, v. 2, p. 199-220, 1993.
GRUNINGER, M.; FOX, M. S. Methodology for the Design and Evaluation of
Ontologies. In: Proceedings of the Workshop On Basic Ontological Issues
In Knowledge Sharing, IJCAI. Local: Montreal, 1995.
GUARINO, N.; CARRARA, M.; GIARETTA, P. Formalizing Ontological
Commitments. Proceedings of Association for the Advancement of Arti-
ficial Intelligence Conference (AAAI), p. 560-567, 1994.
GUARINO, N.; GIARETTA, P. Ontologies and Knowledge Bases: Towards
a Terminological Clarification. Towards Very Large Knowledge Bases.
Amsterdam: IOS Press, 1995.
GUARINO, N. Understanding, Building, and Using Ontologies. International
Journal of Human and Computer Studies, v. 46, n. 2-3, p. 293-310, 1997.
GUARINO, N. Formal Ontology in Information Systems. Proceedings of
Formal Ontology in Information Systems, p. 3-15, 1998.
GUARINO, N. Formal Ontology and Knowledge Representation. Trento:
Laboratorio de Ontologia Applicata (LOA), 2010.
GUIZZARDI, G. On Ontology, ontologies, Conceptualizations, Modeling
Languages, and (Meta)Models. Proceedings of the conference on Databases
and Information Systems, p. 18-39, 2007.
172 Dados Abertos Conectados
HERMAN, I. et al. RDFa 1.1 Primer 3rd edition. W3C, 2015. Disponvel
em: <http://www.w3.org/TR/2015/NOTE-rdfa-primer-20150317/>.
HITZLER, P. et al. OWL 2 Web Ontology Language (Primer). [S.l.]: W3C,
11 Dec. 2012.
HORROCKS, I. Ontologies and the Semantic Web. Communication of the
ACM. 2008, v. 51, 12, p. 58-67.
HORROCKS, I.; PATEL-SCHNEIDER, P. F.; van HARMELEN, F. From SHIQ
and RDF to OWL: the Making of a Web Ontology Language. Journal of
Web Semantics, v. 1, n. 1, p. 7-26, 2003.
HOLANDA, O. et al. JOINT: Java ontology integrated toolkit. Expert Systems
with Applications, v. 40, p. 6469-6477, 2013.
HYLAND, B.; ATEMEZING, G.; VILLAZN-TERRAZAS, B. Best Practi-
ces for Publishing Linked Data. W3C Consortium. [Online] 9 Jan. 2014.
Disponvel em: <http://www.w3.org/TR/2014/NOTE-ld-bp-20140109/>.
IANNELLA, R. An Idiots Guide to the Resource Description Framework. The
New Review of Information Networking, v. 4, p.181-188, 1998.
ISOTANI. S. et al. Estado da Arte em Web Semntica e Web 2.0: Potenciali-
dades e Tendncias da Nova Gerao de Ambientes de Ensino na Internet.
Revista Brasileira de Informtica na Educao, v. 17, p. 30-42, 2009.
ISOTANI, S. An Ontological Engineering Approach to Computer-Supported
Collaborative Learning: From Theory to Pratice. PhD. Thesis in Information
Engineering. Osaka University. 2009. DOI: 10.13140/RG.2.1.4055.8249.
ISOTANI, S. et al. Engenharia de Software Baseada em Ontologias: Uma
Reviso dos Desafios e Oportunidades. Revista IEEE Amrica Latina, v.
13, n. 3, 1-7.
JACOBS, I.; WALSH, N. Architecture of the World Wide Web. W3C, 2004.
Disponvel em: <http://www.w3.org/TR/webarch/>.
KIRYAKOV, A.; OGNYANOV, D.; MANOV, D. OWLIMA Pragmatic
Semantic Repository for OWL. Lecture Notes in Computer Science, Vol.
3807, p. 182-192, 2005.
KOIVUNEN, M-R.; MILLER, E. W3C Semantic Web Activity. Finland: Se-
mantic Web Kick-off Seminar, 2001.
KMI. 2014. Apollo Ontology Editor. [Online] 2014. Disponvel em: <http://
apollo.open.ac.uk/>.
Referncias 173
KRIVOV, S.; WILLIAMS, R.; VILLA, F. GrOWL: A tool for visualization and
editing of OWL ontologies. Web Semantics: Science, Services and Agents
on the World Wide Web, v. 5, n. 2, p. 54-57, 2007.
LEHMANN, J. et al. DBpedia A Large-scale, Multilingual Knowledge Base
Extracted from Wikipedia. Semantic Web Journal. 1, v. 5, p. 1-29, 2014.
LOD PROJECT. Linking Open (LOD) Data Project Cloud Diagram. Linked
Data Connect Distributed Data across the Web. Sep. 2011. Disponvel
em: <http://lod-cloud.net/versions/2011-09-19/lod-cloud_1000px.png>.
LUTZ, C; SATTLER, U.; TENDERA, L. The complexity of finite model
reasoning in description logics. Inf. Comput. Academic Press, v. 199, p.
132-171, 2005.
McBRIDE, B. Jena: A semantic web toolkit. IEEE Internet Computing., v. 6,
p. 55-59, 2002.
McGUINNESS, D. L. Question Answering on the Semantic Web. IEEE In-
telligent Systems, v. 19, n. 1, p. 82-85, 2004.
MEDEIROS, I. Linked Data at globo.com. Web of Linked Entities (WoLE
2013). Proceedings of the World Wide Web Conference (WWW), Rio de
Janeiro, Brazil. 2013
MIKA, P. 2007. Social networks and the Semantic Web. Berlin: Springer, 2007.
MIZOGUCHI, R. Tutorial on ontological engineering: part 3: Advanced
course of ontological engineering. New Generation Computing, v. 22, n.
2, p. 198-220, 2004.
MIZOGUCHI-LAB. 2014. Hozo Ontology Editor. [Online] 2014. Disponvel
em: <http://www.hozo.jp/>.
MOTIK, B. et al. OWL 2 Web Ontology Language: Profiles 2nd edition.
W3C, 2014. Disponvel em: <http://www.w3.org/TR/owl2-profiles/>.
NOWACK, B. The Semantic Web Technology Stack (not a piece of cake...).
Linked Data Developer. [Online] 2009. Disponvel em: < http://
linkeddatadeveloper.com/Projects/Linked-Data/media/fig11.2.png>.
NOY, N. F.; McGUINNESS, D. L. Ontology Development 101: A Guide to
Creating Your First Ontology. Knowledge Systems Laboratory and Stanford
Medical Informatics. Stanford: Stanford University, 2001.
OBAMA, B. Transparency and Open Government. Washington, United States
of America:The White House, 2008.
174 Dados Abertos Conectados