Professional Documents
Culture Documents
Encadr par:
Mme. F. Nader
Table de matire:
1. Introduction ..03
2. Le concept Big data06 3. La technologie NoSQL/ NewSQL..13 4. La technologie Hadoop ..........................................22 5. Architecture du Big data.27 6. Les approches du Big Data28 7. Perspective de recherche.....34
8. Rfrences bibliographiques35
1. Introduction
La masse des donnes dans le monde augmente de jour en jour:
1800 exaoctets en 2011. (Gartner, 2011) 35 000 exaoctets en 2020 (Prvision par IBM)
1. Introduction
Facebook: 900 millions dutilisateurs. 250 millions de photos uploades/jour. 2,7 milliards de Like /jour. Twitter: Plus de 465 millions de comptes. 175 millions de tweets/jour. Youtube: 2 milliards de vues/jour. 72h de vidos dposes/ minute.
5
2000 1800 1600 1400 1200 1000 800 600 400 200 0
1. Introduction
xaoctets
Annes
2005
2006
2007
2008
2009
2010
2011
Lvolution des donnes et la capacit de stockage dans le monde (Source: IDC, 2011)
le concept Big Data fait rfrence aux ensembles de donnes dont la taille dpasse celle des ensembles de donnes que les outils de bases de donnes traditionnels peuvent collecter, grer et traiter dans un dlai acceptable .
Les technologies Big data dcrivent une nouvelle gnration de technologies et d'architectures dans la gestion de donnes, conu pour extraire de la valeur conomique partir de trs grands volumes et varits de donnes, en
Dissmination Dveloppement dun systme de solution ddies Application dans dautres secteurs
Couch Base (2011)
Dmocratisation Algorithme dapprentissage statistique et modles de prdiction tirant parti des architectures distribu
Phase
?
2015-2020
Innovation technique
1995-2000
2000-2005
2005-2010
2010-2015
Types des donnes multiples et htrognes (image, vido, texte, etc.), provenant dune varit de sources sans cesse daccroitre.
10
11
BDD
DW
12
13
Ce thorme est dmontr par Seth Gilbert et Nancy Lych en 2002., montre qu'il est impossible pour un systme de donnes distribu de garantir les trois proprits suivantes simultanment:
A
SGBDR: Oracle, MS SQL Server, MySQL, etc.
Availibility
Consistency
Cohrence: tous les clients du systme voient les mmes donnes au mme instant. Disponibilit: dsigne quun systme est dit disponible si toute requte reue par un nud retourne un rsultat. Tolrance la partition: les donnes peuvent tre partitionnes.
[M. Dimaglie, 2012]
14
Le NoSQL (Not Only SQL) est un terme utilis pour dcrire une classe de systmes de
gestion de base de donnes qui se distinguent aux SGBD relationnelles : Elle nutilise pas SQL comme moyen dinterroger les donnes.
15
Les bases de donnes NewSQL ont vu le jour en 2012 et se caractrisent par: Respecter le modle de bases de donnes relationnelles. Les bases NewSQL respectent le modle ACID et utilisent SQL. La plupart sont optimises pour effectuer de grands nombres de
16
17
Cl 1
Valeur 1 Valeur 2
Cl 2
. . .
Cl n
BDD Cl-Valeur
[M. Brard., al, 2012]
18
3.4.2. Base des donnes orient colonne: La valeur est dcompose en colonne et sapparente davantage une liste. les colonnes peuvent tre diffrentes dune ligne lautre. Exemple: Cassandra dveloppe par Facebook pour
Cl
Colonne 1: valeur Colonne 1: valeur Colonne 1: valeur
19
documentaire.
Exemple: CouchDB est une solution dveloppe par Damien Katz en 2005. Depuis 2008, ce dernier l'a
Cl 2
Titre 2
Image
20
3.4.4. Base des donnes graphe: Les bases orients graph sont conues
pour manipuler des donnes lies par des relations plus ou moins complexes. Elles
trouvent leur application en gnral dans les rseaux sociaux. Exemple: Neo4J est dveloppe par NeoTechnology. La premire version est sortie en 2010.
21
Cassandra
Colonne Apache Nuds indpendants Java Evolutivit facile
Neo4J
Graphe GPL Matre / Esclave Java Permet d'avoir des donnes avec beaucoup de relations Respect des proprits ACID Impossible de partager les donnes entre plusieurs serveurs. Rseau social CP
Cl-Valeur BSD Matre / Esclave C/C++ Base de donnes en Mmoire Taille de la mmoire
Inconvnient
Collecte de donnes CRM / CMS Exemple en temps rel dutilisation AP Repense au CAP CP
Tableau comparatif entre les quatre types de base NoSQL [L. Heinrich, 2012]
22
23
24
Data node 3
25
26
Shuffle
Reduce
Clou, 2
Clou, 1 Clou, 1
Input
Clou Canne cage Cage mare mare Clou mare cage Cage mare mare
Canne, 1
Output
Clou, 2 Canne, 1 Cage, 3 Mare, 3
Cage, 3
Mare, 3
27
NameNode
TaskTracker Reduce
Map
NoSQL
(Non Hadoop)
SGBDR
DW
Donnes structures
Outils systme
Sauvegarde et gestion
Traitement et Analyse
28
29
Chukwa
Donnes structures
Flume
Sqoop
Source de donnes
Intgration de donnes
Architecture dune solution bas sur Hadoop et NoSQL [A. Brust, 2012]
30
Donnes structures
Acclration matriel
Big data
31
NoSQL
ETL et outils dintgration SGBDR
NoSQL
Donnes structures
MapReduce
SGBDR
32
7. Perspectives de recherche
Comment
exploiter
des
donnes
externes
(semi-
structures et non-structures) prsentes dans le web notamment dans les rseaux sociaux pour enrichir les donnes internes afin daugmenter la performance de la gestion de relation client.
33
8. Rfrences (partie 1)
[E. Bellity, 2006] Emmanuel Bellity., al. Big Data, la matire premire du Data Scientist. 2006. 47page. Rapport de recherche disponible sur le site (http://www.ENSAE.fr ) consult le 14/01/2013. [J. Hamelin, 2012] JEAN-FRANOIS HAMELIN. Base de donnes distribue applique la gntique dans le cadre de lanalyse du squenage gnomique. Rapport Technique. Universit de Montral. Dpartement de gnie logiciel. 2012. 70pages. [L. Heinrich, 2012] Lionel HEINRICH. Not only SQL. Travail de Bachelor ralis en vue de lobtention du Bachelor HES en Informatique de Gestion. cole suprieure de Gestion de Genve (HEG-GE). 2012. 61p. [M. Dimaglie, 2012] Matteo DI MAGLIE. Adoption dune solution NoSQL dans lentreprise. Mmoire ralis en vue de lobtention du Bachelor HES en Informatique de Gestion. cole suprieure de Gestion de Genve (HEG-GE). 2012. 68p. [M. Brard., al, 2012] Maxime Brard., al . Big Data et NoSQL : de lexplosion des volumes de donnes lie lessor du Web lmergence de nouvelles architectures de stockage et dinterrogation de donnes. Support de cours .universit de Nice.2012. 25p. [S. Fermigier, 2012] Stefane Fermigier. Big data et open source : une convergence invitable?. Livre blanc. 2012. 21p. Disponible sur le site (http://www.fermigier.com) consult le 23/1/2013.
34
8. Rfrences (partie 2)
[J. Stuhler, 2011] Julian Stuhler. Data in Memory. Disponible sur le site (http://www.databasejournal.com) publi le 28/01/2011 consult le 02/ 03/2013.
[A. Jain, 2011] Ankit Jain. Installation of hadoop in the cluster - A complete step by step tutorial. Tutoriel disponible sur: (http://ankitasblogger.blogspot.com) publi le 04/01/2011 consult le 04/03/2013.
[M.V. Groningen, 2009] Martijn van Groningen. Introduction to Hadoop. Article disponible sur : (http://blog.jteam.nl ) publi le 04/08/2009 consult le 04/03/2013.
[D. Borthakur.,al, 2011] Dhruba Borthakur et al. Apache Hadoop Goes Realtime at Facebook. SIGMOD 11. 2011, pp. 1071-1080. ISSN: 978-1-4503-0661-4 Disponible sur le site: http://oss.csie.fju.edu.tw.
[T. White, 2012] Tom White. Hadoop the Denitive Guide. Edition O'Reilly Media, 3ime edition, 2012. 647pages. ISBN: 9781449311520.
[Gartner, 2012] Gartner. Concevoir sa plateforme Big data. (http://www.precodata.com ) Publi en 2012 consult le 11/02/2013. Article disponible sur le site
[A. Brust, 2012] Andrew Brust. MapReduce and MPP: Two sides of the Big Data coin?. Disponible sur le site (www.znet.com) publi le 02/03/2102 consult le 18/02/2012.
35
36
37
Hadoop
Analytic Databases
Storage
Search
BIG DATA
Document BigTable Key Value Graph
as-a-service
NewSQL
NoSQL
Operational Database