You are on page 1of 108

Diplme de Conservateur des Bibliothques

Mmoire de fin d'tude / dcembre 2014

Faire parler les donnes des


bibliothques : du Big Data la
visualisation de donnes

Raphalle Laptre

Sous la direction de Julien Velcin


Matre de Confrence en informatique Universit Lumire Lyon 2
Remerciements
Mes remerciements vont en premier lieu mon directeur de mmoire, Julien
Velcin pour sa patience, son dvouement et sa comprhension : ce travail est
largement redevable tant aux prcieux conseils qu'il m'a prodigus qu' la libert
d'actions qu'il m'a laisse tout au long de sa rdaction. Ils s'adressent ensuite
Bertrand Calenge, qui a bien voulu faire confiance ce projet pourtant complexe
et qui l'a accompagn de sa bienveillance tout au long de son laboration. Je
remercie galement Vronique Poirier, Jean-Pierre Berthon, Valrie Bouissou et
Denis Cordazzo pour l'enthousiasme qu'ils avaient manifest lors de mes
premires et modestes expriences avec les donnes de la Bibliothque Publique
d'Information. Enfin, un grand merci Florent Derex, Dominique et Didier
Laptre, Morgane Spinec, Louise Daguet et Marc Bruchet qui ont support
quotidiennement mes tats d'mes et mes doutes depuis le premier jour de cette
entreprise.

Laptre Raphalle | DCB | Mmoire | dcembre 2014 -3-


Droits dauteur rservs. OU
Rsum : Cette tude se penche sur les enjeux de la rutilisation des donnes des
bibliothques l're du Big Data. En ce qui concerne la production de connaissances
sur le monde des bibliothques et de l'information, les technologies d'analyse du Big
Data, contrairement ce que prtendent les discours qui peuvent parfois les
accompagner, ne rduisent pas les biais et prsupposs inhrents aux statistiques
traditionnelles. Cependant, la visualisation de donnes, telle que revue et critique
par les Humanits Numriques, pourrait permettre de prendre en compte d'une
manire beaucoup plus centrale la nature fondamentalement politique des
bibliothques. Regardant le pilotage des tablissements documentaires, certains
auteurs appellent fonder les dcisions non sur les donnes et chiffres mais sur
l'analyse de donnes. De fait, l'ouverture de la profession de bibliothcaire sur la
science des donnes pourrait tre un bon moyen de faire voluer les mthodes
d'valuation et de pilotage. La visualisation est un moyen ludique d'apprendre
l'analyse de donne et permet de communiquer efficacement sur l'activit de
l'tablissement. En dernier lieu, les discours actuels accompagnant l're du
numrique font l'apologie d'un accs individualis et fragment l'information qui
permettrait de se passer des biais inhrents toute classification universelle.
Nanmoins, ces biais sont transpos dans les algorithmes de recherche de
l'information. Ds lors, il devient ncessaire de penser un systme de navigation qui
exprime ce biais et le soumette davantage une discussion : transformer un
catalogue de bibliothque en data game pourrait tre une solution pour exprimer de
manire ludique la mtaphore sous-jacente toute organisation des connaissances.

Descripteurs : Big Data, visualisation, interface de navigation, classification,


mtaphore, valuation, communication, Patron-Driven Acquisition.

Abstract : This work is about the issues raised by the re-use of library data at the age
of Big Data. Regarding the production of knowledge about libraries and their users,
the new analysis technologies are not reducing inherent bias of traditional statistics.
Nevertheless, data visualization as considered by the Digital Humanities is a very
interesting tool, because it make the human subjectivity implied by such technologie a
central element through which we can consider the library more as a political object.
LAPOTRE Raphalle | DCB | Mmoire d'tude | dcembre 2014
4
As for library management, authors are calling for analysis-driven rather than data-driven
decisions. Thus, training librarians in data analysis could be a good solution, in the context
of open data and open research data. Data visualization is a funny way to learn data
analysis and is a very effective way of communicating about the library activities. Lastly, if
it can be read that access to information at the digital age is now more individual and can
allow to circumvent the bias of traditional classification, we claim that those bias are
transposed in the algorithms that allow this access today. Thus, it is important to consider a
way of navigating into the information that make obvious and submit for discussion those
bias. In this respect, a library catalog conceived as a data game is a metaphoric and funny
way to explore library collections while not taking too seriously such an knowledge
organisation.

Keywords : Big Data, library data, data visualization, Patron Driven Acquisition, Evaluation,
Communication, browsing interface, metaphore, classification.

Droits dauteurs

Droits dauteur rservs.

Toute reproduction sans accord exprs de lauteur des fins autres que
strictement personnelles est prohibe.

OU

Cette cration est mise disposition selon le Contrat :


Paternit-Pas d'Utilisation Commerciale-Pas de Modification 2.0 France
disponible en ligne http://creativecommons.org/licenses/by-nc-nd/2.0/fr/ ou par
courrier postal Creative Commons, 171 Second Street, Suite 300, San Francisco,
California 94105, USA.

LAPOTRE Raphalle | DCB | Mmoire d'tude | dcembre 2014 -5-


Droits dauteur rservs. OU
Sommaire
SIGLES ET ABRVIATIONS....................................................................................9
INTRODUCTION........................................................................................................11
LES DONNES, UNE RVOLUTION PISTMOLOGIQUE POUR LES
BIBLIOTHQUES ?...................................................................................................19
Les donnes parlent-elles d'elles-mmes ?..........................................................19
Des tudes de publics aux acteurs du Big Data.................................................19
La prtention l'objectivit.................................................................................21
Les algorithmes au regard critique de la sociologie.........................................24
L'exemple de l'Online Computer Library Center (OCLC)............................27
Une section consacre l'extraction et l'analyse de donnes.......................27
L'algorithme Work-Set FRBR ........................................................................28
Une des publications de l'OCLC : Livres sans frontires ...........................31
Une manire innovante de produire des connaissances sur les
bibliothques : la visualisation de donnes........................................................32
La visualisation au regard critique des humanits numriques.......................32
Un changement pistmologique.........................................................................33
L'exemple de l'Observatoire Bibliothque..........................................................34
Conclusion : De la connaissance la dcision...................................................38
LES DONNES, UN ATOUT POUR LA GESTION D'UNE
BIBLIOTHQUE ?.....................................................................................................41
S'appuyer sur l'analyse de donnes pour valuer la bibliothque.................41
De la macro- la micro-valuation....................................................................42
Quelques exemples innovants d'analyse des donnes en bibliothque............45
Penser les donnes des bibliothques non comme des indicateurs mais comme
des symboles de son activit.................................................................................47
DST4L : un exemple de formation spcialement conue pour des
bibliothcaires..........................................................................................................49
Contexte et objectifs de la formation...................................................................49
Comment dompter les donnes bibliographiques ?.....................................51
L'apport de la visualisation pour la communication........................................53
Sduire...................................................................................................................54
Illustrer..................................................................................................................55
Synthtiser.............................................................................................................56
Comparer...............................................................................................................58
De la politique documentaire la navigation dans les collections.................60
LES DONNES, UN OUTIL DE NAVIGATION DANS LES
COLLECTIONS ?.......................................................................................................63
De la classification la navigation.......................................................................64
De l'Arbre au Labyrinthe ...............................................................................65
De l'universalit de la classification l'individualit de la navigation..........67
La Classification Dcimale Universelle (CDU) la recherche d'une
mtaphore visuelle..................................................................................................69
La ncessit d'une mtaphore..............................................................................70
De l'arbre... la galaxie.......................................................................................71
Rendre visible la bibliothque sur Internet.......................................................76
Les bibliothques dans l'conomie de l'attention...............................................76

Laptre Raphalle | DCB | Mmoire | dcembre 2014 -7-


Droits dauteur rservs. OU
De la monumentalit au geste visuel...................................................................77
Un data game stellaire ?......................................................................................79
Nouveau modle de bibliothque ou renouvellement d'un modle de
bibliothque ?...........................................................................................................81
CONCLUSION : DONNES ET POLITIQUE......................................................83
BIBLIOGRAPHIE.......................................................................................................87
Articles encyclopdiques........................................................................................87
Mmoires..................................................................................................................88
Monographies..........................................................................................................88
Revues........................................................................................................................91
Sites Internet............................................................................................................92
Vidographies..........................................................................................................96
TABLE DES ANNEXES.............................................................................................97
TABLE DES ILLUSTRATIONS............................................................................112
TABLE DES MATIRES........................................................................................115

LAPOTRE Raphalle | DCB | Mmoire d'tude | dcembre 2014


8
Sigles et abrviations
ADS : Astrophysics Data System
API : Application Programming Interface
BIUSJ : Bibliothque Interuniversitaire Scientifique de Jussieu
BnF : Bibliothque Nationale de France
Bpi : Bibliothque Publique d'Information
BUPMC : Bibliothque Universitaire Pierre et Marie Curie
CSV : Comma Separated Values
DPLA : Digital Public Library of America
DST4L : Data Scientist Training For Librarians
EMEA : Europe Middle East Africa
EVR : Extension Visuelle de Requte
FRBR : Functional Requirement for Bibliographic Records
JPEG : Joint Photographic Expert Group
JSON : Javascript Object Notation
K-NN : k-Nearest Neighbors
NASA : National Aeronautics and Space Agency
OCLC : Online Computer Library Center
OPAC : Online Public Access Catalog
PDF : Portable Document Format
PEB : Prt Entre Bibliothques
SICD : Service Intertablissement de Coopration Documentaire
VIAF : Virtual International Authority File
XML : Extensible Markup Language

Laptre Raphalle | DCB | Mmoire | dcembre 2014 -9-


Droits dauteur rservs. OU
INTRODUCTION
De mars juin 2013, j'ai eu l'opportunit d'effectuer un stage d'observation
la Bibliothque Publique d'Information, l'occasion duquel Vronique Poirier,
dlgue la politique documentaire de l'tablissement, m'avait demand de
rflchir l'approfondissement des critres de dsherbage afin de pouvoir liminer
de manire plus importante certains ouvrages imprims, notamment dans les
domaines cumulatifs que sont les lettres et sciences humaines. En pleine
rorganisation, l'tablissement envisageait en effet le dmnagement de ses
collections et se posait avec acuit la question de la saturation de certaines de ses
tagres, la Bpi ne disposant pas de magasins permettant de stocker le surplus
ventuel de ses collections. Dans un premier temps, j'ai donc explor le catalogue
en ligne en esprant assez navement reprer quelques zones sensibles, des endroits
o la collection tait peut-tre trop ancienne (si tant est que ce critre puisse tre
valable en lettre et sciences humaines), peut-tre trop spcialise par rapport au
grand public de la Bpi (mais de ce point de vue, une thse d'universit peut parfois
se rvler plus accessible qu'un manuel de premier cycle universitaire), peut-tre
trop redondante dans les sujets couverts (mais certains sujets sont naturellement
plus couverts que d'autres)... Finalement dcourage par la masse des collections a
explorer, je me suis dcide recourir l'entrept de donnes de la Bpi afin
d'extraire des listes d'ouvrages par domaine et d'essayer de les synthtiser par des
estimateurs statistiques : il s'agissait de dterminer, pour chaque tranche de cote,
les dates d'dition les plus anciennes, les plus rcentes, l'ge moyen de l'ensemble,
les auteurs et les sujets les plus reprsents, en essayant de visualiser cela au
moyen de diagrammes en barres et de simples camemberts . Naturellement, je
ne pouvais pas dduire grand chose de ces analyses exploratoires sans une
connaissance approfondies des ralits documentaires vers lesquelles elles
pointaient, et j'ai donc pris la dcision d'interroger des responsables de collections
sur mon petit travail statistique. Ce fut sans doute la partie la plus intressante de
mon stage : au fil des conversations, des ractions de tous ordres sur les
spcificits que dessinaient moyennes, mdianes, maximums et minimums, se
laissaient entrevoir l'histoire des collections de la BPI, la personnalit des
personnes qui avaient contribu les faonner annes aprs annes, les vnements
qui avaient pu marquer un changement dans la manire de collecter, la proximit
marque du Centre Georges Pompidou, les visions du monde diffrentes que
pouvaient rvler les conflits dans les manires de classer les ouvrages... La
richesse culturelle et institutionnelle de la Bpi mergeait ainsi, me semble-t-il, de
ces aller-retours entre les donnes et les conversations avec les professionnels qui
acceptaient de ragir ce que je leur montrais.
Si je pourrais difficilement qualifier ma contribution au dsherbage des
collections de la BPI de dcisive, ce stage a cependant aiguis ma curiosit pour
les donnes, et notamment les donnes des bibliothques : comment en effet dfinir
ces dernires ? Pourquoi serait-il particulirement intressant d'en parler en 2014 ?
Comment faire parler les donnes des bibliothques et, surtout, dans quel but ? Ces
questions, dont les rponses ne peuvent tre dfinitives, me semblent cependant
constituer un pralable essentiel une tude qui voudrait essayer de percevoir
toutes les possibilits et les limites offertes par la rutilisation des donnes des
bibliothques. C'est ainsi que, pour tenter d'y rpondre, il me faudra passer du
je de l'exprience personnelle au nous du mmoire d'tude.

Laptre Raphalle | DCB | Mmoire | dcembre 2014 - 11 -


Droits dauteur rservs. OU
Qu'est-ce que les donnes des bibliothques ?

Pour parler des donnes des bibliothques nous pourrions peut-tre dans un
premier temps nous pencher sur la question d'une dfinition plus gnrale de la
donne . Si l'on reprend en effet les mots de Lynda Kellam et Katharin Peter,
les donnes seraient toute information structure d'une manire
reconnaissable 1, incluant donc la fois des informations qualitatives et
quantitatives dont le point commun est d'avoir t collectes, traites et organises
de faon les rendre comprhensibles. Lorsque l'on parle de donnes cependant,
notamment dans le domaine de l'administration et des bibliothques, il arrive
souvent que l'on ne dsigne sous ce terme que des chiffres, qu'ils dsignent des
quantits de quelque chose ou des agrgats de ces quantits produits par synthse
statistique, comme le sont les totaux, pourcentages, moyennes et autres mdianes...
La plupart du temps, ces chiffres se laissent entrevoir sous forme de tableaux et de
graphiques, le tableau pouvant tre considr comme une forme de visualisation
des donnes au mme titre qu'un graphique. D'une certaine manire, il est donc
difficile de parler des donnes sans se reprsenter les logiciels les plus communs
qui permettent de les traiter, savoir Excel, SPSS 2 ou les bases de donnes
relationnelles telles que MySQL. Dans ce contexte, c'est la notion de jeu de
donnes qui se profile, savoir, selon Rmi Gaillard, lagrgation, sous une
forme lisible, de donnes brutes ou drives prsentant une certaine unit ,
rassembles pour former un ensemble cohrent 3. Ds lors, les donnes brutes
dsignent des microdonnes , savoir un unique enregistrement de quelque
chose, et les donnes drives, des donnes produites partir d'un premier jeu par
nettoyage et synthse statistique.
ce stade de notre rflexion, il nous semble important de souligner le
caractre ambigu de la donne : l o en effet Rmi Gaillard affirmait qu'une
donne pouvait rarement tre isole de son contexte de production, et de ce fait ne
pouvait tre qualifie de brute qu'avec une certaine prcaution 4, nous aimerions
ajouter avec Johanna Drucker qu'il serait prfrable de parler non de donne
mais de capte 5 : la donne n'est pas un objet produit d'une manire extrieure
et indpendante de l'homme par le rel, elle est d'avantage une perception
enregistre du rel, construite selon certaines techniques et certaines contraintes,
slectionne pour rpondre des objectifs dfinis en amont de sa conception.
Comment dfinir, dans ce contexte, les donnes des bibliothques ? Celles
qui viennent immdiatement l'esprit sont les mtadonnes, savoir les donnes
dcrivant les documents de la bibliothque. Or, le caractre minemment
ontologique de ces mtadonnes doit tre soulign : c'est en effet cet aspect qui fait
la richesse des donnes des bibliothques, et par extension, des donnes des
institutions culturelles (muses, archives, arboretum, etc.). L o en effet les autres
donnes peuvent tre gnralement considres comme de simple reflets du rels,
les mtadonnes pointent directement vers lui en posant la question de la nature de
1
KELLAM, Lynda M et PETER, Katharin, 2011. Numeric data services and sources for the general reference
librarian. Oxford : Chandos Publishing. p. 7-8.
2
SPSS (Statistical Package for the Social Sciences) est un logiciel utilis pour lanalyse statistique. Cest aussi
le nom de la socit qui le revend (SPSS Inc). SPSS, 2014. Wikipdia [en ligne]. [Consult le 12 dcembre 2014].
Disponible ladresse : http://fr.wikipedia.org/w/index.php?title=SPSS&oldid=109086133. Page Version ID: 109086133
3
GAILLARD, Rmi, 2013. De lOpen data lOpen research data quelle(s) politique(s) pour les donnes de
recherche? Bibliothque Numrique de l'Enssib. Consult le 18 aot 2014. Disponible l'adresse Web :
http://www.enssib.fr/bibliotheque-numerique/documents/64131-de-l-open-data-a-l-open-research-data-quelles-politiques-
pour-les-donnees-de-recherche.pdf p. 19.
4
Ibid. p. 18.
5
DRUCKER, Johanna, 2011. Humanities Approaches to Graphical Display. [en ligne]. 2011. Vol. 5, n 1.
[Consult le 1 novembre 2014]. Disponible ladresse :
http://www.digitalhumanities.org/dhq/vol/5/1/000091/000091.html
LAPOTRE Raphalle | DCB | Mmoire d'tude | dcembre 2014
12
Introduction

quoi elles font rfrence 6. Mais en dehors de ces mtadonnes, existent pour les
bibliothques les donnes relatives leurs activits : acquisitions, dsherbages, jauge de
frquentation, circulations des documents, inventaire des collections, donnes de logs
captes au moment o les utilisateurs se connectent au site internet de la bibliothque ou
bien ses bases de donnes. Si nous devions donner un exemple prcis de ces donnes,
peut-tre pourrions-nous dcrire un tableau contenant des informations relatives aux
abonnements de la bibliothque des priodiques. Ainsi pourrait-on y lire des
informations sur le mode d'acquisition (abonnement, don, dpt lgal), le nombre de
numros rguliers recevoir, la date d'arrive prvue du premier numro, la date
d'annulation, la date de la facture, la date de parution du dernier numro gnr, le
numro d'identification unique du titre, le numro logique de la notice bibliographique,
etc. Un tel tableau contenant un ensemble de variables relatives plusieurs objets de
nature similaire est ce qu'on appelle un jeu de donne 7.

Pourquoi parler des donnes des bibliothques en 2014 ?

La rvolution du Big Data, ou mgadonnes est toujours au cur de l'actualit


en 2014, en tmoigne la sortie, le 20 fvrier dernier, de la traduction franaise du best-
seller de Kenneth Cukier et Victor Mayer-Schoenberger sur le sujet 8. Force est de
constater que la notion de Big Data recouvre malgr cela une ralit bien difficile
dfinir. Selon le Wikipdia anglais, celle-ci dsigne un ensemble de processus de
traitement de jeux de donnes dont le volume est tel qu'il n'est plus possible d'employer
les mthodes traditionnelles pour les traiter 9. Cependant, la taille des donnes du Big
Data est toute relative, comme l'expliquent Cathy O'Neil et Rachel Schutt dans leur
ouvrage de rfrence, Doing Data Science 10 : en ralit, le big de Big Data peut dsigner
un petabyte au mme titre qu'un terabyte ou un gigabyte... seul importerait vritablement
le fait que la masse de donne dpasse la capacit de stockage et de vitesse de traitement
des machines actuelles, cette capacit voluant quant elle avec son poque. Plus
concrtement, si nous devions rester dans la perspective choisie pour cette tude,
savoir la rutilisation des donnes notamment dans le but de connatre et de piloter un ou
plusieurs tablissements, il conviendrait peut-tre de retenir la dfinition fournie par
Steve Lohr dans un article du New York Time datant de 2013 11, qui prsente le Big Data
comme une nouvelle manire de prendre des dcisions en se fondant sur l'analyse de
grandes masses de donnes telles qu'elle est rendue possible par les technologies
d'aujourd'hui. Malgr cela, il est ncessaire de rappeler que le mouvement des
mgadonnes ne se rduit pas la simple prise de dcision informe par les donnes : il
se caractrise galement par une volont de prenniser les donnes et d'en extraire des
connaissances si possible nouvelles, sans toutefois que cette connaissance soit
subordonne l'aspect politique et dcisionnel sous l'angle duquel la question est
examine dans ce mmoire.

6
The Life and Death of Data, [sans date]. [en ligne]. [Consult le 2 novembre 2014]. Disponible ladresse :
http://lifeanddeathofdata.org/
7
Data set, 2014. Wikipedia, the free encyclopedia [en ligne]. [Consult le 14 dcembre 2014]. Disponible ladresse :
http://en.wikipedia.org/w/index.php?title=Data_set&oldid=625099781 . Page Version ID: 625099781
8
CUKIER, Kenneth, MAYER-SCHOENBERGER, Viktor et DHIFALLAH, Hayet, 2014. Big Data. Paris : ROBERT
LAFFONT.
9
Big data, 2014. Wikipedia, the free encyclopedia [en ligne]. [Consult le 1 novembre 2014]. Disponible ladresse :
http://en.wikipedia.org/w/index.php?title=Big_data&oldid=631791921. Page Version ID: 631791921
10
O'NEIL, Cathy, SCHUTT, Rachel. Doing Data Science, [sans date]. [en ligne]. [Consult le 1 novembre 2014].
Disponible ladresse : http://shop.oreilly.com/product/0636920028529.do. Non pagin dans sa version lectronique.
11
Sizing Up Big Data, Broadening Beyond the Internet, [sans date]. Bits Blog [en ligne]. [Consult le 1 novembre 2014].
Disponible ladresse : http://bits.blogs.nytimes.com/2013/06/19/sizing-up-big-data-broadening-beyond-the-internet/. Big Data
is a vague term, used looely, if often, these days. But put simply, the catchall phrase means three things. First it's a bundle of
technologies. Second it's a potential revolution in measurement. And third, it is a point of view, or philosophy, about how
decisions will be and perhaps should be made in the future .
LAPOTRE Raphalle | DCB | Mmoire d'tude | dcembre 2014 - 13 -
Droits dauteur rservs. OU
D'une certaine manire, nous pourrions dire que les bibliothques contribuent
y participer par la masse traditionnellement importante de leur propres donnes,
mais aussi par la volont d'ouverture qui les accompagne : le mouvement des
mgadonnes intervient en effet dans un contexte d'change et de libre partage des
donnes, sans obstacle juridique, technique ou financier, et c'est l prcisment la
dfinition de l'open data. Or, les bibliothques sont directement concernes par
l'ouverture de leurs donnes, notamment de leurs donnes bibliographiques : les
initiatives comme celle de la BnF 12, visant faire des bibliothques des acteurs du
web de donnes en exposant leurs donnes sur le web et en les reliant entre elles,
participent ce mouvement d'ouverture en favorisant la rutilisation grande
chelle de ces donnes.
A cette ouverture de certaines des donnes des bibliothques s'ajoute la
participation des bibliothques universitaires au mouvement d'ouverture des
donnes de la recherche : afin de rendre possible une transparence et une
communication plus grande des mthodes scientifiques et des donnes produites
dans le contexte de la recherche, ces dernires sont de plus en plus incites
mettre disposition de leurs usagers des dispositifs de stockage et de rutilisation
de ces donnes. Nous aimerions souligner ici que ce mouvement ne concerne pas
seulement les bibliothques de recherche, mais peut galement toucher les
bibliothques publiques. Par ailleurs, il ne concerne pas seulement les sciences
dures mais aussi les lettres et sciences sociales : le mouvement des humanits
numriques, dont les techniques ont inspir une partie de cette tude, s'appuie en
effet massivement sur les nouvelles possibilits de stockage et de traitement des
donnes offertes par les technologies en 2014.

Comment faire parler les donnes ?

En premier lieu, qu'entend-t-on par faire parler les donnes ? Une


premire rponse cette question peut se trouver dans la dfinition que donnent
Cathy O'Neil et Rachel Schutt l'infrence statistique, savoir la discipline qui
se proccupe du dveloppement de procdures, de mthodes et de thormes qui
nous permettent d'extraire du sens et de l'information de donnes qui ont t
gnres par un processus stochastique (alatoire) 13. Faire parler les donnes, ce
serait donc en premier lieu en extraire du sens et de l'information , tout en
sachant que ce sens est d'avantage construit qu'extrait. Plus prcisment,
l'infrence statistique dsigne des dductions produites sur une population partir
d'un chantillon de cette population que l'on observe. Mais en 2014, les acteurs du
Big Data se contentent-ils de statistiques infrentielles pour faire parler leurs
donnes ? De fait, ce procd s'inscrit dans la discipline plus gnrale de ce qu'on
appelle aujourd'hui la science 14 des donnes , suivant les propos d'O'Neil et
Schutt : plus prcisment, un scientifique des donnes est une personne qui sait
comment extraire du sens des donnes et les interprter, ce qui ncessite la fois
des outils et des mthodes provenant des statistiques et de l'apprentissage
automatique, et aussi d'tre humain 15.
12
FRANCE, Bibliothque nationale de, [sans date]. BnF - Les enjeux du web de donnes en bibliothque.
[en ligne]. [Consult le 2 novembre 2014]. Disponible ladresse :
http://www.bnf.fr/fr/professionnels/innov_num_web_donnees/a.web_donnees_enjeux_bibliotheques.html
13
O'NEIL, SCHUTT, 2013. More precisely, statistical inference is he discipline that concerns itself with the
development of procedures, methods, and theorems that allow us to extract meaning and information from data that has
been generaed by stochastic (random) processes . Non pagin dans sa version lectronique.
14
L'appellation de science pour cette discipline fait aujourd'hui dbat : O'Neil et Schutt y voient plutt un art.
15
Ibid. More generally, a data scientist is someone who knows how to extract meaning from and interpret data,
which requires both tools and methods from statistics and machine learning as well as being human . Non pagin dans
sa version lectronique.
LAPOTRE Raphalle | DCB | Mmoire d'tude | dcembre 2014
14
Introduction

Mais s'il semble vident que la science des donnes comprendrait l'ensemble des
mthodes visant faire parler les donnes, la dfinition de cette science n'en reste
pas moins dlicate cerner. Peut-tre pourrait-on commencer par l'exemple qui illustre
le mieux ce procd dans le monde de l'information et des bibliothques : celui d'un
systme de recommandation. La construction de ce type de systme ncessite en effet de
savoir utiliser un large ventail de mthodes relevant de la science des donnes : il faut
commencer par crer un rseau, ou graphe, entre des donnes dcrivant des utilisateurs
(par exemple, des lecteurs), et des donnes de produits (par exemple, des livres). Il faut
ensuite apprendre un ordinateur regrouper des lecteurs et des livres en fonction de
leur prfrence, en s'inspirant de prfrences dj exprimes par le pass. Ce classement
s'appuiera lui-mme sur un algorithme, c'est--dire un mode d'emploi permettant
d'accomplir une tche particulire : en l'occurrence, cela pourrait l'tre l'algorithme des
plus proches voisins (ou k-NN, pour k-Nearest Neighborgs), dont le but est de classer un
ensemble d'objets partir d'un classement qui a dj t effectu sur des objets
similaires. En dernier lieu, la particularit d'un systme de recommandation est qu'il cre
une boucle de rtroaction, au sens o son utilisation sur le web pourra influencer des
utilisateurs qui, en retour, influenceront le systme de recommandation grce aux
donnes gnres par leur comportement.
Mise en rseau, apprentissage automatique, algorithmes sont des moyens de faire
parler les donnes, mais il en existe un autre sur lequel les humanits numrique
s'appuient particulirement, savoir la visualisation des donnes. Si l'on devait dfinir
assez gnralement cette dernire, nous pourrions retenir les termes de Wikipdia
savoir une reprsentation graphique de donnes statistiques , fournissant un rsum
visuel des donnes statistiques chiffres et permettant de saisir en un seul coup d'oeil
la tendance gnrale 16. Nanmoins, la visualisation dont nous parlerons dans la suite
de cette tude prendra pour une grande partie sa rfrence dans l'usage qu'en font les
Humanits Numriques, davantage que dans la perception qu'en ont les scientifiques des
donnes. Prenons ainsi la dfinition donne par l'auteur de l'essai intitul The life and
death of metadata 17, mis en ligne dans le cadre du Metalab 18, un laboratoire d'Harvard
fond par Jeffrey Schnapp et ddi la culture en rseau :
() Je propose de penser la visualisation de donnes comme des projections ,
pour souligner la qualit spculative de telles images ainsi que leur lien avec la
pense mtaphorique. () En effet, les visualisations ne sont pas autre chose que
des mtaphores visuelles, transposant divers types de donnes quantitatives sous
forme graphique et spatiale. En tant que mtaphores, les visualisations relient des
domaines source (des jeux de donnes) des domaines cible (des structures gra -
phiques. Par exemple, dans les visualisations temporelles dcrite dans cet essai, le
temps ( partir des donnes d'accs) est reli l'espace de l'cran (en coordon -
nes) 19.
La visualisation serait donc ce qui permet de projeter spatialement les donnes afin
de mettre en vidence de manire directe les tendances et particularits que ces donnes
prises dans leur ensemble sont susceptibles de manifester. Il convient de rebondir ici sur
16
Reprsentation graphique de donnes statistiques, 2014. Wikipdia [en ligne]. [Consult le 12 dcembre 2014].
Disponible ladresse : http://fr.wikipedia.org/w/index.php?title=Repr%C3%A9sentation_graphique_de_donn
%C3%A9es_statistiques&oldid=108854835. Page Version ID: 108854835
17
The Life and Death of Data, [sans date].
18
About | metaLAB (at) Harvard, [sans date]. [en ligne]. [Consult le 7 aot 2014]. Disponible ladresse :
http://metalab.harvard.edu/about/
19
The Life and Death of Data. [sans date]. () I propose thinking of data visualizations as projections , to
emphasize the speculative quality of such images as well as their relationship to metaphorical thinking. () Indeed,
visualizations are no more than visual metaphors, translating various kinds of quantitative data into spatial and graphical form.
As metaphors, visualizations map source domains (data sets) to target domains (graphical structures). For instance, in the
timeline visualizations portrayed in this essay, time (from accession data) is mapped onto the space of the screen (in
coordinates) .
LAPOTRE Raphalle | DCB | Mmoire d'tude | dcembre 2014 - 15 -
Droits dauteur rservs. OU
le terme manifester : la raison pour laquelle nous avons choisi comme fil
directeur de cette tude la visualisation est cette qualit intrinsque qu'elle peut
avoir, lorsque elle est utilise dans le cadre des humanits numriques,
reconnatre explicitement son caractre construit et les prsupposs sur lesquels
elle s'appuie. Par opposition, les autres techniques dont nous avons parl plus haut
auraient tendance considrer que les techniques d'interprtation des donnes
prolongent l'humain. Cependant, elles ne font pas de ce dernier une caractristique
centrale du processus d'interprtation des donnes, ce qui peut tre prjudiciable
lorsqu'il s'agit de faire parler les donnes provenant de cet objet humain, social et
politique qu'est la bibliothque, et plus gnralement, l'information. On ne saurait
donc crire que les donnes manifestent une connaissance : nous faisons en sorte
qu'elles la manifeste dans toute les phases de leur laboration, depuis leur
collection jusqu' leur organisation en un ensemble structur et lisible la fois par
un ordinateur et par une personne.
Ayant conscience du caractre obscur de cette dernire proposition, cette
tude tentera d'approfondir cet aspect particulier mais central, et pour lequel il
nous semble qu'il vaille vritablement la peine de s'intresser aux donnes des
bibliothques, savoir la nature construite et artificielle du sens et du discours que
l'on peut faire merger de ces donnes sur les institutions qui les ont produites.
Nous proposons donc d'claircir cela en nous penchant sur trois domaines dans
lesquels les bibliothques ont traditionnellement utilis les donnes.
Tout d'abord, un premier domaine qui est, concdons-le, assez vague et large,
puisqu'il va de l'tude de l'volution des pratiques culturelles et notamment de la
lecture et de la frquentation des bibliothques , l'histoire des bibliothques
elles-mmes : s'il est vrai que les nouvelles techniques apportes par la science des
donnes sont susceptibles de bouleverser les mthodes traditionnelles qui nous
permettaient de produire des connaissances sur les bibliothques et leur public, il
reste que la mthode la plus honnte et la plus probante nos yeux est celle de la
visualisation, et notamment la visualisation des mtadonnes : par leur caractre
dartefact, les mtadonnes rvlent les conditions matrielles, les systmes
logiques et classificatoires, les valeurs institutionnelles et culturelles qui les ont vu
natre.
Nous nous penchons ensuite sur les enjeux soulevs par l'application de la
science des donnes au pilotage des tablissements documentaires. une poque
o la tendance consiste fonder les dcisions sur des preuves chiffres, peut-tre
serait-il bon de redonner du sens l'utilisation des donnes. Ainsi, par son
caractre mtaphorique et ludique, la visualisation peut-elle tre une bonne
approche pour apprendre manipuler les donnes tout en permettant une
communication efficace sur l'tablissement et son activit. Cet apprentissage peut
par ailleurs s'appuyer sur ce vaste mouvement qui tend ouvrir les comptences
des bibliothcaires sur la culture des donnes, notamment dans le cadre de la
recherche.
Enfin, un troisime domaine d'utilisation des donnes des bibliothques est
celui des catalogues en ligne : les OPAC, au mme titre que les systmes de
recommandation, sont l'exemple type d'un produit de donnes , savoir un
dispositif permettant un acteur d'interagir avec son public, cette l'interaction
pouvant tre utilise pour modifier ce dispositif. De manire plus concrte, les
catalogues en ligne permettent au public d'une bibliothque d'explorer
virtuellement sa collection, chaque donne d'une notice tant sa manire une
mtaphore pointant vers la ralit physique du livre qu'elle dsigne et qui se trouve
localis dans la bibliothque. La visualisation nous parat tre une mthode

LAPOTRE Raphalle | DCB | Mmoire d'tude | dcembre 2014


16
Introduction

permettant de proposer une exploration collective de la connaissance tout en soulignant


par son caractre mtaphorique la faillibilit de cette proposition. Elle demeure sans
doute un moyen intressant d'explorer virtuellement les collections et d'animer une
communaut de lecteur autour de la reprsentation virtuelle de la bibliothque et de son
contenu.

LAPOTRE Raphalle | DCB | Mmoire d'tude | dcembre 2014 - 17 -


Droits dauteur rservs. OU
LES DONNES, UNE RVOLUTION
PISTMOLOGIQUE POUR LES BIBLIOTHQUES ?
Dans leur ouvrage intitul Big Data 20, Viktor Mayer-Schoenberger et
Kenneth Cukier introduisent le sujet de leur livre par ces mots :
Le phnomne des mgadonnes dsigne tout ce qui peut tre fait une
large chelle et non une chelle plus rduite, afin d'extraire de nouvelles
connaissances ou de crer de nouvelles formes de valeur, bouleversant ainsi
les marchs, les organismes, les relations entre citoyens et gouvernements, et
bien plus 21.
Parce qu'elles peuvent tre vues comme des institutions massivement
productrices de donnes, il semble difficile d'envisager que les bibliothques ne
soient pas elles-mmes touches, d'une manire ou d'une autre, par cette
(r)volution. La question est donc de savoir quel peut tre l'apport vritable du Big
Data, notamment pour la production de connaissances portant sur les
bibliothques. L'existence de la section de fouille exploratoire de donnes (data
mining) de l'OCLC montre que le monde de la documentation commence
effectivement s'intresser ces nouvelles mthodes. Reste savoir dans quelle
mesure ces innovations seraient rellement rvolutionnaires : serait-ce parce
qu'elles confreraient davantage d'objectivit, comme le prtendent certains
auteurs, ou plutt parce qu'elles permettent, par le biais de la visualisation de
donnes, de rvler des aspects des bibliothques qui, jusqu' prsent, taient
rests ignors ?

LES DONNES PARLENT-ELLES D'ELLES-MMES 22?


Parce que les mgadonnes et leurs outils d'analyse permettraient de ne
moins avoir recours l'chantillonnage de donnes, porteur de marges d'erreur plus
ou moins grandes, ni aux questionnaires des mthodes d'enqutes, critiqus pour
leur biais plus ou moins assums, les acteurs du Big Data revendiqueraient de leur
ct une plus grande exactitude ainsi qu'une plus grande objectivit, confres
supposment par le caractre scientifique et technique des mthodes employes.
Ces mthodes reposent cependant sur des algorithmes qui traduisent en langage
mathmatique et mcanique les a priori de leur concepteurs. Les mgadonnes
portent donc en elles une subjectivit qui est d'autant plus trompeuse qu'elle est
parfois opaque et, dans certain cas, non assume.

Des tudes de publics aux acteurs du Big Data


Dsireuses d'amliorer les services qu'elles offrent leurs usagers, les
bibliothques sont parfois amenes produire des tudes statistiques sur leurs
publics. Ce fut le cas en 2005 de la BIUSJ qui, dans le cadre de changements
fondamentaux touchant son organisation comme ses espaces , cherchait
dresser un tableau fidle des besoins en matire de bibliothque au niveau de

MAYER-SCHOENBERGER, Viktor et CUKIER, Kenneth, 2014.


20

Ibid. () big data refers to things one can do at a large scale that cannot be done at a smaller one, to extract
21

new insights or create new forms of value, in ways that change markets, organizations, the relationship between citizens
and governments, and more . p. 6.
22
Ibid. Nous faisons rfrence ici un des titres de l'ouvrage de Mayer-Schoenberger et Cukier : Letting the
data speak . p. 6.
Laptre Raphalle | DCB | Mmoire | dcembre 2014 - 19 -
Droits dauteur rservs. OU
l'universit pour juger de la qualit et de l'utilit du rseau documentaire
existant 23.
La BIUSJ, et plus largement la BUPMC, a donc eu recours une enqute
quantitative par questionnaire, outil favori, voir ftiche, dans le paysage des
tudes sur les publics 24, dont l'objectif est de mieux connatre les profils
sociodmographiques des publics prsents (inscrits ou non inscrits), de connatre
les raisons de leur prsence sur les lieux, et de dterminer si leurs besoins sont
satisfaits ou non 25. Le succs de ce type d'enqute nous invite en examiner les
caractristiques principales, notamment le principe de l'chantillonnage : dans la
mesure o les enqutes quantitatives ont un cot et que leur cible peut tre vaste, il
n'est pas possible d'interroger la totalit de la population cible par l'enqute. On
choisit donc de slectionner un chantillon reprsentatif de cette population, sa
reprsentativit devant tre garantie par un tirage alatoire et par un nombre
relativement lev de personnes interroges, ou bien par la mthode des quotas
dont le principe est de s'appuyer sur des catgories sociodmographique
dtermines au pralable (grce aux donnes issues des recensement de l'INSEE,
par exemple) lorsque l'on souhaite reproduire la structure d'une population connue
dans l'chantillon.
C'est l un point fondamental sur lequel les mthodes statistiques
traditionnelles diffrent des mthodes de traitement des donnes du Big Data.
Deux lments caractrisent en effet les mgadonnes : d'une part, la facult de
traiter, stocker et d'analyser des masses de donnes mesures en traoctets, et non
plus de se cantonner des chantillons limits, et d'autre part le cot moindre de la
collecte de ces donnes, notamment parce qu'elles sont gnres automatiquement,
par exemple chaque interaction d'un usager avec un service en ligne.
Dans ce contexte, la mthode de l'chantillonnage, destine produire un
substitut la population cible, deviendrait dans une certaine mesure caduque.
quoi bon, si l'on suivait donc les enseignements de Cukier et Mayer-Schoenberger,
se contenter d'une petite partie des usagers d'une bibliothque, quand on peut les
avoir tous en fouillant les donnes produites, par exemple, par l'interaction du
public avec le site internet de la bibliothque ? Que penser galement des calculs
des marges d'erreurs intrinsquement lis cette mthode ? Considrant, par
exemple, que les pourcentages calculs sur un chantillon de 1000 personnes
peuvent comporter une marge d'erreur de 1,4 3,2 points, cette marge d'erreur
serait en consquence inexistante pour des pourcentages calculs partir de la
totalit d'une population d'utilisateurs 26.
Qui plus est, les mgadonnes apporteraient une plus grande souplesse dans
leur utilisation que les chantillons de donnes. Dans une enqute statistique
traditionnelle, en effet, on peut tre amen vouloir distinguer plus finement les
diffrences de rponse au sein de groupes particuliers. Ds lors, on pourra crer
des sous-populations sur la base de certains critres qui peuvent tre combins par

23
EVANS, Christophe (dir). Mener lenqute : guide des tudes de publics en bibliothque. 2011. Collection La
bote outils. p. 130-131.
24
Ibid. p. 62.
25
Ibid. p. 45.
26
Autant affirmer ds ce stade de notre rflexion que cette ide selon laquelle la science des donnes pourrait se
passer des statistiques infrentielles est fausse, comme l'crivent notamment O'Neil et Schutt : In the current popular
discussion of Big Data, the focus on enterprise solutions such as Hadoop to handle engineering and computational
challenges caused by too much data overlooks sampling as a legitimate solution. At Google, for example, software
engineers, data scientists, and statisticians sample all the time . Non pagin dans sa version lectronique . Par ailleurs, le
fait de disposer de toutes les donnes ne signifie pas que les biais s'en trouvent effacs : Even if we have access to all
of Facebook's or Google's or Twitter's data corpus, any inferences we make from that data should not be extended to
draw conclusions about humans beyond those sets of users, or even those users for any particular day . Non pagin dans
sa version lectronique.
LAPOTRE Raphalle | DCB | Mmoire d'tude | dcembre 2014
20
Les donnes, une rvolution pistmologique pour les bibliothques ?

les oprateurs boolens (et, ou, sauf...) 27. Cependant, procder ainsi comporte le risque
d'augmenter les marges d'erreur inhrentes aux calculs qui pourraient tre effectus sur
les sous-populations, tant donn que l'chantillon aura t divis. Lorsque les donnes
sont massives, la division en sous-catgories d'tudes ne poserait pas ce problme,
puisque les divisions seffectueraient sur la totalit des donnes.
Le fait que l'on ait pris la prcaution de publier des guides propos des tudes des
publics en bibliothque tmoigne de la longue prparation ncessaire, en amont de sa
ralisation, la mthode de l'chantillonnage. Ds lors, un chantillon peut difficilement
rpondre des questions qui n'avaient pas t envisages avant sa ralisation. Par
contraste, les techniques d'analyses propres au Big Data offriraient une plus grande
libert dans les objectifs que se fixent une enqute. Leur dimension alatoire rendrait
possible la production de connaissances sans savoir au pralable ce que l'on cherche, ni
quel genre d'chantillon il faudrait fournir. Alors que les chantillons ne permettent que
difficilement une analyse exploratoire, tre en possession de toutes (ou presque 28) les
donnes confrerait davantage de libert pour les explorer, les observer sous des angles
diffrents ou encore approfondir certains de leurs aspects.
C'est ainsi en partant du principe bancal qu' l're du Big Data, nous serions en
possession de toutes les donnes (N = tout), que Mayer-Schoenberger et Cukier
prtendent que les donnes parleraient d'elles-mmes.

La prtention l'objectivit
Un des domaines les plus significativement touch par N=tout sont les sciences
sociales , crivent Mayer-schoenberger et Cukier :
Elles ont perdu leur monopole sur l'interprtation des donnes sociales empi -
riques, tant donn que l'analyse des masses de donnes remplace les enquteurs
experts du pass. Mais lorsque les donnes sont collectes passivement chaque fois
qu'une personne fait ce qu'elle ferait naturellement de toute faon, les anciens biais
inhrents l'chantillonnage et aux questionnaires disparaissent 29.
C'est ici que nous aimerions discuter ce discours : mme si nous sondons
absolument toutes les personnes qui quittent les bureaux de vote , crivent O'Neil et
Schutt, nous ne comptons toujours pas les personnes qui ds le dpart, ont dcid de ne
pas voter. Et ces personnes pourraient bien tre les personnes que nous aurions besoin de
sonder afin de comprendre les problmes de notre pays concernant le vote 30. En effet,
les donnes, si massives qu'elles puissent tre, ne disent pas tout : celles d'un SIGB, par
exemple, n'apportent aucune information sur les personnes qui n'utilisent pas les services
d'une bibliothque et, cet gard, les enqutes sur les pratiques culturelles des franais

Ibid. p. 78.
27

O'Neil et Schutt font de ce prsuppos selon lequel nous disposons de toutes les donnes le plus gros problme l're
28

du Big Data . Pour tayer cela, elles prennent l'exemple de comptage des votes lors d'une lection : Indeed, we'd argue that the
assumption we make that N = all is one of the biggest problems we face in the age of Big Data. It is, above all, a way of
excluding the voices of people who don't have the time, energy, or access to cast their vote in all sorts of informal, possibly
unnannounced, elections. Those people, busy working two jobs and spending time waiting for buses, become invisible when we
tally up the votes without them. To you this might just mean that the recommendations you receive on Netflix don't seem very
good because most of the people who bother to rate things on Netflix are young and might have different tastes than you, which
skews the recommendation engine toward them. But there are plenty much more insidious consequences stemming from this
basic idea . O'NEIL, SCHUTT. 2013. Non pagin dans sa version lectronique.
29
MAYER-SCHOENBERGER, CUKIER. 2013. One of the areas that is being most dramatically shaken up by N=all is
the social sciences. They have lost their monopoly on making sense of empirial social data, as big-data analysis replaces the
highly skilled survey specialists of the past. The social science disciplines largely relied on sampling studies and questionnaires.
But when the data is collected passively while people do what they normally do anyway, the old biases associated with sampling
and questionnaires disappear . p. 30.
30
O'NEIL, SCHUTT. 2013. () even if we poll absolutely everyone who leaves the polling stations, we still don't
count people who decided not to vote in the first place. And those might be the very people we'd need to talk to to understand our
country's voting problems . Non pagin dans sa version lectronique.
LAPOTRE Raphalle | DCB | Mmoire d'tude | dcembre 2014 - 21 -
Droits dauteur rservs. OU
se rvlent toujours aussi prcieuses. Ds lors, il nous parat prsomptueux de la
part des auteurs d'affirmer que les mthodes propres la science des donnes
pourraient remplacer de manire avantageuse les statistiques traditionnelles.
Mais, au-del de cela, que penser de l'affirmation selon laquelle les
mgadonnes ferait disparatre les prsupposs qu'impliquaient tout chantillon et
questionnaire ? Avant toute chose, nous pourrions commencer par examiner ces
prsupposs : l'chantillon, comme on l'a vu, est construit en fonction d'une
problmatique particulire qui dtermine sa constitution en ciblant une population.
L'exemple le plus rvlateur en est la mthode des quotas, que l'on utilise lorsque
la population cible est connue. Quant au hasard, suppos garantir la
reprsentativit de l'chantillon, il est difficile obtenir de manire absolue.
D'aprs le Guide des tudes de publics en bibliothque, l'enquteur doit en effet
s'assurer que le sondage respecte bien la ralit du terrain (les jours et heures
d'ouverture, les lieux prospecter dans le cadre d'un rseau, etc.) et limiter
l'effet de proximit qui tend s'instaurer entre l'enquteur et l'interrog(e), le
premier ayant ''naturellement'' tendance choisir des personnes qui lui paratront
les plus abordables en fonction de leur ge, de leur sexe, de leur milieu social et
aussi de leur valeurs 31.
En ce qui concerne les questionnaires, les biais proviennent la fois de
l'enquteur et de l'interrog. En effet, la formulation des questions, d'une part, peut
avoir pour effet d'orienter les rponses des interrogs et c'est bien en vertu de ce
principe qu'il est recommand, par exemple, de mesurer la satisfaction au moyen
d'chelles vitant le refuge vers une position moyenne 32. Les rponses des
usagers, d'autre part, peuvent tre affectes par leur propres prjugs. Ces biais
sont bien connus des enquteurs, et sont toujours pris en compte dans l'analyse des
rsultats. Ils auraient tendance disparatre dans un environnement de type Big
Data, ce qu'affirme, par exemple, Andrew Nagy propos des donnes gnres
par Summon, sorte de Google Scholar spcifiquement destin aux bibliothques
universitaires amricaines 33 :
Toutes les requtes des usagers dans un mme index unifi, quelque soit le
degr de personnalisation de leur interface Summon locale, peuvent tre vus
comme la cl pour obtenir des donnes significatives et interprtables. Ces
donnes peuvent mettre en vidence des comportements qui illustrent les v -
ritables usages des services des bibliothques, contrairement aux usages d'un
petit nombre de participants observs dans des situations peu habituelles
telles que celles offertes par les tches non-ordinaire imposes l'occasion
des tudes d'utilisabilit 34.
Outre la prtendue disparition de ces biais, les outils du Big Data feraient
galement disparatre toute hypothse ou thorie pralable une quelconque

31
EVANS. 2011. p. 63.
32
Ibid. p. 74.
33
What is Summon? | University Libraries | Virginia Tech, [sans date]. [en ligne]. [Consult le 2 aot 2014].
Disponible ladresse : http://www.lib.vt.edu/help/summon/what-is-summon.html
34
Data Mining Big Data : A Strategy for Improving Library Discovery | Blog | Serials Solutions, [sans date].
[en ligne]. [Consult le 9 mai 2014]. Disponible ladresse : http://www.serialssolutions.com/en/words/detail/data-
mining-big-data-a-strategy-for-improving-library-discovery. For the past decade or longer, usability testing has been
the traditional process for evaluating a software application's user experience. In usability testing, users existing users
of the application or participants recruited off the street are observed while completing a series of scenarios that
mimic real life examples. () For many years this approach has provided valuable information. However, non matter
how unobtrusive the observation mechanism, users act differently when they know they are being observed. () All
users searching across the same unified index, no matter how customized their local Summon site might be, is the key to
capturing meaningful and interpretable data. This data can expose behaviors that illustrate true usage of library services,
as opposed to the usage of a small number of participants being observed in an unfamiliar situation such a usability study
defined tasks .
LAPOTRE Raphalle | DCB | Mmoire d'tude | dcembre 2014
22
Les donnes, une rvolution pistmologique pour les bibliothques ?

recherche scientifique. C'est l la teneur du propos de Chris Anderson, rdacteur en chef


du magazine Wired, prophtisant en 2008 la fin de la thorie 35. Selon lui, le dluge
de donnes rendrait la mthode scientifique obsolte, les hypothses testes sur des
donnes tant remplaces par des analyses reposant sur de simples corrlations,
dpourvues de pr-requis. Si dans un premier temps, Mayer-Schoenberger et Cukier
s'attachent nuancer cette ide, la suite de leur propos contribuent pourtant appuyer
les propos d'Anderson :
l're du Big Data, il n'est plus efficace de dcider quelle variables examiner en
s'appuyant seulement sur des hypothses. Les jeux de donnes sont beaucoup trop
larges et le domaine considr probablement bien trop complexe. Heureusement,
un grand nombre de contraintes qui nous poussait une approche conduite par hy -
pothse ne pse plus autant qu'auparavant. Nous avons dsormais tant de donnes
disponibles et tant de capacit de calcul que nous n'prouvons plus le besoin de
choisir laborieusement une ou plusieurs variable d'approximation et de les exami -
ner une par une. Des analyses computationnelles sophistiques permettent dsor -
mais d'identifier l'approximation optimale comme cela s'est pass pour Google
Flu Trends, aprs avoir examin prs d'un demi million de modles mathma -
tiques 36.
En ralit, nous dirions plutt que les prsupposs inhrents au choix des variables,
fonction des hypothses de dpart d'une recherche, se sont dplacs de ce choix des
variables au choix des principes sur lesquels reposent les algorithmes (les analyses
computationnelles complexes ) permettant ventuellement de choisir ces variables
notre place 37.
De fait, lorsque les auteurs faisant la promotion du Big Data pour son objectivit,
opposent une conception scientifique traditionnelle aux nouvelles mthodes d'analyse
du Big Data, ils opposent implicitement une conception de la science moderne et
platonicienne une conception antique et aristotlicienne : en parlant d'elles-mmes, les
donnes massives remettraient Aristote au got du jour. Mais les donnes parlent-elles
vritablement d'elles-mmes ? Rien n'est moins sr, car ce serait oublier que les
techniques d'analyse employes ont largement recours aux algorithmes, et de ce fait, aux
mathmatiques. Or, pour retrouver Aristote, crit Olivier Rey, il faudrait oublier non
telle ou telle thorie, mais le cadre mathmatique lui-mme ce qui n'est plus en notre
pouvoir lorsqu'il s'agit d'interroger scientifiquement la nature 38. Il est donc erron de
penser que les donnes puissent parler d'elles-mmes : Est-ce que vraiment N =
tout ? se demandent O'Neil et Schutt. C'est bien l le problme : ce n'est quasiment
jamais tout. Et nous passons souvent ct de ce quoi nous devrions prter le plus
attention 39 . Par la seule prtention selon laquelle une variable suffirait reprsenter un
phnomne complexe, les algorithmes continuent faire revivre le prjug galilen qui
consiste voir en l'univers un livre crit mathmatiquement. Et en ce qui concerne
35
The End of Theory: The Data Deluge Makes the Scientific Method Obsolete . WIRED. Consult le 2 aot 2014.
http://archive.wired.com/science/discoveries/magazine/16-07/pb_theory.
36
MAYER-SCHNBERGER, CUKIER. 2013. p. 55. In the big-data age, it is no longer efficient to make decisions
about what variables to examine by relying on hypotheses alone. The data sets are far too big and the area under consideration is
probably far too complex. Fortunately, many of the limitations that forced us into a hypothesis driven approach non longer exist
to the same extent. We now have so much data available and so much computing power that we don't have to laboriously pick
one proxy or a small handful of them and examine them one by one. Sophisticated computational analysis can now indentify the
optimal proxy as it did for Google Flu Trends, after plowing through almost half a billion mathematical models .
37
Cf O'Neil et Schutt propos de l'extraction de variable (feature extraction) : This process we just went through of
brainstorming a list of features for Chasing Dragons is the process of feature generation or feature extraction. This process is as
much of an art as a science. It's good to have a domain expert around for this process, but it's also good to use your
imagination . O'NEIL, SCHUTT. 2013. Non pagin dans sa version lectronique. On voit par l que la slection de variables,
mme au moyen d'algorithme, reste un processus subjectif.
38
MAYER-SCHNBERGER, CUKIER. 2013. p. 55. et p. 60.
39
O'NEIL, SCHUTT. 2013. Can N = all ? Here's the thing : it's pretty much never all. And we are very often missing
the very things we should care about most . Non pagin dans sa version lectronique.
LAPOTRE Raphalle | DCB | Mmoire d'tude | dcembre 2014 - 23 -
Droits dauteur rservs. OU
l'application des algorithmes aux donnes sociales, les prsupposs vont plus loin
encore que ceux impliqus simplement par la thorie et les mathmatiques, comme
l'crit Ronald E. Day propos des analyses bibliomtriques :
Ce que nous dcouvrons, c'est que les algorithmes d'informatique sociale,
telle que PageRank (algorithmes d'analyse des liens) et les systmes de re-
commandation, renforcent la vracit des lois bibliomtriques (telles que
la loi de Lotka), simplement parce qu'ils automatisent les thories comporte -
mentales inhrentes de telles lois puis rinfusent cela dans le comporte-
ment des utilisateurs. () Les dcouvertes empiriques ne parlent jamais d'el -
les-mmes. (...) Ds lors, les objets d'tude et leur mesures empiriques
(ainsi que les outils et algorithmes qui y participent) ne seraient rien d'autre
que des instruments de raffirmation de normes sociales, culturelles et poli-
tiques. La seule chose qu'ils affirment est la certitude de l'idologie 40.
Les algorithmes contribuent donc transposer les prsupposs idologiques
de leur concepteurs, et les r-infuser dans nos comportements lorsque ces
algorithmes sont utiliss non plus seulement pour analyser des donnes sociales
mais pour les gnrer. Ces prsupposs, quels sont-ils et comment les mettre
jour ?

Les algorithmes au regard critique de la sociologie


L'exemple de Google, dsign comme la parangon des compagnies
s'appuyant sur les mthodes du Big Data, nous parat emblmatique de ce
phnomne politique qui consiste revendiquer une objectivit dans le traitement
des donnes en arguant du fait que les procds utiliss sont technologiques et non
humains. En raction cela, Tarleton Gillespie crit dans son essai sur la
pertinence des algorithmes :
Ce dont nous avons besoin, c'est d'une interrogation des algorithmes en tant
que caractristique cl de notre cosystme informationnel, et des formes
culturelles mergeant dans leurs ombres, avec une attention particulire por -
te l'endroit et la manire avec laquelle l'introduction d'algorithmes dans
nos pratiques de connaissance humaine peuvent avoir des ramifications poli -
tiques 41.
Dans un article intitul La subjectivit algorithmique et le besoin d'tre in-
form 42, Neal Thomas semble avoir rpondu Tarleton Gillespie. Son analyse
40
DAY, Ronald E. ''The Data It is Me !'' (''Les donnes c'est Moi !'') dans CRONIN, Blaise et
SUGIMOTO, Cassidy R., 2014. Beyond Bibliometrics: Harnessing Multidimensional Indicators of Scholarly Impact .
Cambridge, Massachusetts : MIT Press. p.70-71. What we find is that social computing algorithms, such as PageRank
(link analysis algorithms) and recommender systems, strengthen the truthfulness of bibliometric laws (such as
Lotka's law), simply because they automate the group behavioral assumptions inherent in such laws and then feed
this back into user behavior. () Empirical findings never simply show themselves. Citation analytics, either explicitly
or implicitly, as a social science must indicate social explanations of various types of regular behaviors. Once again, the
epistemic problem of social science operationalization which becomes political and psychological when citation
analyses are highly valued in restricted (e.g. Academic) or general (e.g. Social) economies is what happens when these
explanations are the very basis for the metrics to begin with. Then, the objects of study and their empirical
measurements (and the tools and algorithms that aid this) may be nothing other than devices in the restaing of social,
cultural, and political norms. What they would assert is the certainty of ideology .
41
GILLESPIE, Tarleton. The relevance of algorithms , paratre dans Gillespie, Tarleton, BOCZCOWSKI,
Pablo et KIRSTEN, Foot. Media Technologies. Cambridge, MA : MIT Press. Consult le 3 aot 2014 l'adresse Web :
http://www.tarletongillespie.org/essays/Gillespie%20-%20The%20Relevance%20of%20Algorithms.pdf . What we need
is an interrogation of algorithms as a key feature of our information ecosystem (), and of the cultural forms emerging
in their shadows (), with a close attention to where an din what ways the introduction of algorithms into human
knowlegde practices may have political ramifications .
42
THOMAS, Neal. 2012. Algorithmic subjectivity and the need to be in-formed. dans LATZKO-TOTH,
Guillaume, MILLERAND, Florence. TEM 2012 : Proceedings of the Technology & Emerging Media Track Annual
LAPOTRE Raphalle | DCB | Mmoire d'tude | dcembre 2014
24
Les donnes, une rvolution pistmologique pour les bibliothques ?

des algorithmes permet de mettre en vidence les prsupposs socioprofessionnels qui


ont prsid l'volution des algorithmes utiliss pour la recherche documentaire. De son
point de vue en effet, l'algorithme renvoie cette capacit humaine transposer sous la
forme logique du langage informatique ce qui relve du signe, savoir l'expression
formelle d'un objet ou d'un concept. Google, par exemple, transpose en langage
informatique et logique la reprsentation qu'il se fait du besoin dans le processus de
recherche d'information. C'est en ce sens que l'on peut dire que Google est un mdium
algorithmique 43 : l'algorithme est le moyen par lequel la pense est littralement faite
mcanique 44.
Ces reprsentations thorises du processus de recherche d'information ne
deviennent videntes que lorsqu'on retrace l'volution des algorithmes qui les ont
modliss, ce qu'a fait Neal Thomas. Si donc l'on en croit son propos, l'informatique
traditionnelle a d'abord dfini le besoin d'information comme la simple correspondance
entre le besoin d'un document spcifique et le document lui mme : Pour le dire en
quelques mots, le besoin tait essentiellement exprim travers la forme de la requte
smantiquement prcise : ''j'ai besoin de trouver le document spcifique dont je prsume
qu'il est appel x'' 45.
Cette premire thorisation du processus de recherche a ensuite volu vers une
autre thorie, celle du besoin cognitif, influence cette fois non par l'informatique mais
par le milieu des bibliothques et des sciences de l'information : l'algorithme devait cette
fois modliser linteraction vcue entre un bibliothcaire de rfrence et une personne
venue demander des renseignements 46. Cette modlisation devait prendre en compte le
processus par lequel la recherche passait par des phases d'adaptation communicative
entre les acteurs, savoir le bibliothcaire cherchant dcouvrir le document qui
pourrait rpondre la question-connaissance de la personne en recherche de
renseignement 47.
L dessus, la thorie du besoin de l'information volue encore, cette fois sous
l'influence d'une conception conomique de l'individu, savoir une correspondance
utilitarienne-conomique entre le sujet et l'objet. Plus concrtement, elle est base sur la
thorie du choix rationnel 48. Google conoit dsormais le besoin d'information comme
la formulation et la satisfaction de ''situations problmes'' en cours et socialement
contextualise 49. Ds lors, le besoin d'information serait dtermin en grande partie par
ses propres traces et par les comportements passs de prcdents utilisateurs. Dans ce
contexte, l'algorithme k-NN tait celui qui transposait le mieux la thorie du besoin
d'information propre Google, puisqu'il rorganise perptuellement un ''voisinage'' de
traces pour les utilisateurs prsents en fonction des chemins tracs par les prcdents 50.
Conference of the Canadian Communication Association (Waterloo, May 30 D June 1, 2012). Consult le 3 aot 2014.
http://www.tem.fl.ulaval.ca/www/wpcontent/PDF/Waterloo_2012/THOMASFTEM2012.pdf
43
Ibid. p. 2.
44
Ibid. The efficiency for human beings can be found where thinking can literally be made mechanical . p. 3.
45
Ibid. A focus on an instrumental need for a specific document, that follows a simple 'best-match' engineering
principle. () search was simply a matter of correct encoding and deconding. To put it in a phrase, need was essentially
expressed through the form of the semantically precise query : ''I need to find the specific document I believe is called x'' . p. 4-
5.
46
Ibid. Taylor was concerned to model the lived interactions between a reference librarian and an inquirer . p. 6.
47
Ibid. He especially sought to account for how the inquiring process went through communicative phase of adaptation
between the actors, the librarian seeking to discover the document that answered the knowledge-question of the inquirer .
48
Ibid. the theoretical framework is a utilitarian-economic correspondence between subject and object. More simply, it
is based in rational choice theory . p. 4
49
Ibid. Contemporary network interfaces like Google rely on the collective posing and satisfaction of ongoing, socially
contextualized 'problem situations' .
50
Ibid. perpetually reorganizing a 'neighborhood' of records for present users according to paths laid down by prior
ones . p. 9. Sur les prsupposs inhrents des algorithmes comme k-NN, on peut consulter O'Neil et Schutt : The k-NN
algorithm is an example of a nonparametric approach. You had non modeling assumptions about the underlying data-generating
distributions, and you weren't attempting to estimate any parameters. But you still made some assumptions, which were :
Data is in some feature space where a notion of distance makes sense.
Training data has been labeled or classified into two or more classes.
LAPOTRE Raphalle | DCB | Mmoire d'tude | dcembre 2014 - 25 -
Droits dauteur rservs. OU
En voquant cette dmonstration faite par Neal Thomas de la subjectivit des
algorithmes, il apparat que ces derniers sont amens voluer non pas tant en
fonction d'une recherche constante d'amlioration et d'efficacit, qu'en fonction des
alas d'une concurrence entre des visions radicalement diffrentes de la socit et
de ses besoins. La conception conomique du besoin d'information, peut-tre du
fait de la prdominance que lui confre la pense contemporaine, l'a emport sur
les autres thories provenant de l'informatique et des bibliothques. cet gard,
l'efficacit de Google ne se mesurerait pas tant sa capacit apporter des
rponses pertinentes nos questions qu' sa capacit transposer de manire
adquate dans ses algorithmes un cadre conceptuel dominant.
Ces algorithmes qui peuvent servir faire parler les donnes sont donc eux-
mmes des mdia, dont les volutions transcrivent des luttes politiques entre des
visions sociales diffrentes. Mais malgr son caractre mythologique, la
revendication de l'objectivit des algorithmes, travers celle de leur impartialit,
continue tre rgulirement mis en avant par les acteurs du Big Data :
Par dessus toute autre chose, les fournisseurs d'algorithmes informationnels
doivent affirmer que leurs algorithmes sont impartiaux. L'effectivit de l'ob -
jectivit algorithmique est devenue fondamentale au maintien de ces outils
comme courtiers de la connaissance pertinente. Aucun fournisseur n'a plus
insist sur la neutralit de ses algorithmes que Google, qui rpond rgulire -
ment aux demandes qui lui sont adresses de modifier les rsultats de ses re -
cherches par l'affirmation que l'algorithme ne doit pas tre manipul 51.
Les mthodes analytiques du Big Data offrent bien des avantages par
rapport aux statistiques traditionnelles, notamment au regard de leur faible cot et
de la souplesse qu'elles offrent. Mais l o les enqutes de publics assumaient et
prenaient en compte dans leurs rsultats la subjectivit inhrente leur laboration,
les outils du Big Data et leurs algorithmes, au contraire, peuvent parfois
revendiquer leur objectivit tout en modlisant, de manire implicite, des
prsupposs thoriques. Ds lors, il devient ncessaire, avant toute utilisation d'un
algorithme dans un projet d'analyse des donnes, de prendre en compte les aspects
politiques 52 qui peuvent lui tre attachs. Mais au-del du simple enjeu
pistmologique et de la volont d'honntet intellectuelle, la prise en compte et la
reconnaissance des idologies qui faonnent notre recherche de l'information sur
internet et dans les bibliothques est aussi, on l'aura compris, un enjeu
dmocratique.

You pick the number of neighors to use, k.


You're assuming that the observed features and the labels are somehow associated. They may not be, but
ultimately your evaluation will help you determine how good the algorithm is at labeling. You might want to
add more features and check how that alters the evaluation metric. You'd then be tuning both which features
you were using and k. But as always, you're in danger of overfitting . O'NEIL, SCHUTT. 2013. Non pagin
dans sa version lectronique.
51
GILLEPSIE, paratre. Above all else, the providers of information algorithms must assert that their
algorithm is impartial. The performance of algorithmic objectivity has become fundamental to the maintenace of these
tools as legitimate brokers of relevant knowledge. No provider has been more adamant about the neutrality of its
algorithm than Google, which regularly responds to requests to alter their search results with the assertion that the
algorithm must not be tampered with .
52
L'aspect politique des algorithmes est prcisment ce qui doit tre mis en avant, davantage que les aspects
techniques qui les concernent : Ibid. In attempting to say something of substance about the way algorithms are shifting
our public discourse, we must firmly resist putting the technology in the explanatory driver's seat. While recent
sociological study of the Internet has labored to undo the simplistic technological determinism that plagued earlier work,
that determinism remains an alluring analytical stance. A sociological analysis must not conceive of algorithms as
abstract, technical achievements, but must unpack the warm human and institutional choices that lie behind these cold
mechanisms .
LAPOTRE Raphalle | DCB | Mmoire d'tude | dcembre 2014
26
Les donnes, une rvolution pistmologique pour les bibliothques ?

Il convient maintenant de se demander dans quelle mesure l'analyse des donnes


des bibliothques peut prendre en compte, ou non, la subjectivit inhrente la science
des donnes.

L'EXEMPLE DE L'ONLINE COMPUTER LIBRARY CENTER (OCLC)


L'OCLC dispose d'une section entirement consacre la science des donnes.
Cette dernire s'attache produire des rapports sur l'volution des collections physiques
des bibliothques amricaines dans le contexte de la numrisation de masse.

Une section consacre l'extraction et l'analyse de donnes


Organisation mondiale but non lucratif ddie aux bibliothques, mais aussi
organisme de recherche, l'OCLC se prtait tout particulirement la rutilisation des
donnes bibliographiques. C'est elle qui, en effet, est derrire le pilotage de WorldCat,
considr comme le plus grand catalogue OPAC du monde. De fait, l'OCLC s'est
engage depuis 2012 dans un processus d'ouverture de ses donnes bibliographiques en
envisageant la cration d'une rserve mondiale de donnes partages qui pourrait tre
utilise et rutilise pour la description des ressources, rduisant ainsi le travail
redondant, inhrent aux processus actuels de catalogage 53. Mais la mutualisation du
catalogage n'est pas la seule rutilisation envisage par l'OCLC. L'organisme de
recherche s'est en effet dot d'une section entirement consacre l'extraction et
l'analyse de donnes (Data Mining Research Area) , les objectifs assigns cette section
tant les suivants :
En savoir plus sur les caractristiques propres aux collections des bibliothques.
Gnrer des prsentations intressantes et innovantes des donnes.
Fournir des informations pour rpondre un certain nombre de besoins en matire
de prises de dcision dans les bibliothque, tels que :
le dveloppement des collections,
la numrisation,
la conservation 54.
Ces objectifs ont t dclins l'chelle de la section de recherche de l'OCLC en
plusieurs projets, notamment l'analyse de la taille et des caractristiques des
collections des fonds agrgs d'imprims, avec une emphase sur leurs implications pour
les dcisions prendre en matire de numrisation et de conservation , la dduction par
infrence des publics cibles, ou des niveaux d'audience des ouvrages partir des
informations provenant des fonds ou encore l'valuation comparative de collections :
l'tude du dveloppement, de l'valuation et du partage des ressources pour les
collections imprimes et lectroniques 55, entre autres choses. On le voit, ces projets ont
pour beaucoup voir avec ce que nous considrons comme relevant de la politique
documentaire, savoir l'ensemble des dcisions ayant trait l'acquisition, la gestion et la
mise en valeur des collections des bibliothques.
Certains d'entre eux, comme celui qui concerne les niveaux d'audience, ont permis
le dveloppement de services devant tre intgrs l'interface de recherche de
WorldCat. Ils ont t prsents en 2013 Strasbourg lors du meeting du conseil rgional
de l'EMEA, par Roy Tenant, gestionnaire principal de projet de l'OCLC 56. Roy Tenant
insiste particulirement sur l'laboration des identits WorldCat qu'il dcrit comme
53
CARTIER, Aurore, 2012. Bibliothque et Open data. Et si on ouvrait les bibliothques sur lavenir? Consult le 15
dcembre 2014. Disponible l'adresse Web : http://www.enssib.fr/bibliotheque-numerique/documents/60401-bibliotheque-et-
open-data-et-si-on-ouvrait-les-bibliotheques-sur-l-avenir.pdf. p. 61.
54
ADMIN, 2012. Data Mining Research Area. [en ligne]. 4 aot 2012. [Consult le 29 janvier 2014]. Disponible
ladresse : http://oclc.org/research/activities/mining.html
55
Ibid.
LAPOTRE Raphalle | DCB | Mmoire d'tude | dcembre 2014 - 27 -
Droits dauteur rservs. OU
algorithmiquement construite partir de la base de donnes de WorldCat 57. Le
principe des identits est en effet de rassembler sur une mme page l'ensemble des
donnes concernant un auteur ou crateur, en les extrayant de la base de donnes
l'aide d'algorithmes et de programmes.
En somme, l'ide est de rassembler toutes les informations possibles sur un
auteur partir de donnes disperses. Ces informations sont de plusieurs types.
Citons dans l'ordre : la priode de publication de l'auteur, ainsi que de l'ensemble
des uvres qui ont t publies sur lui, l'ensemble des formes sous lesquelles le
nom de cet auteur se rencontre, l'ensemble des langues dans lesquelles il a t
publi, les uvres de cet auteur les plus possdes par les bibliothques, le niveau
du public vis par ses uvres (jeunesse, gnral ou spcialis), des liens vers le
fichier VIAF de cet auteur, mais aussi vers l'article Wikipdia qui le concerne
(inversement, des liens ont t inclus dans les articles de Wikipdia pointant vers
le fichier VIAF) et, enfin, le nuage de sujets couverts par cet auteur, permettant de
voir quel thmes principaux sont associs son uvre. Toutes ces informations
doivent permettre d'enrichir la navigation de l'utilisateur sur l'interface de
WorldCat, ces enrichissements pouvant tre vus comme la valeur ajoute apporte
par l'application de la science des donnes aux donnes bibliographiques.
Si donc la section de data mining de l'OCLC a recours des outils
relevant de la science des donnes, quels peuvent tre les prsupposs qui leur sont
inhrents ?

L'algorithme Work-Set FRBR


En ce qui concerne l'laboration des identits WorldCat, il ne nous a gure
t possible de trouver des informations sur les algorithmes qui ont t utiliss
pour les effectuer. En revanche, nous avons pu trouver sur le site de l'OCLC de la
documentation concernant un algorithme Work-set FRBR (traduisons par
groupe-uvre FRBR , FRBR dsignant les Functional Requirement for
Bibliographic Records) qui consiste pour sa part rassembler toutes les
informations concernant non pas un auteur ou un crateur mais une uvre. Il s'agit
donc du mme principe que les identits WorldCat, mais appliqu aux uvres,
telles qu'elles sont dfinies par les FRBR.
Pour comprendre le fonctionnement de l'algorithme, peut-tre est-il bon de
rappeler comment fonctionne les FRBR : les Spcifications Fonctionnelles des
Notices Bibliographiques sont un modle conceptuel de notices bibliographiques
dont l'objectif est de fournir un cadre commun la rdaction de ces notices.
D'aprs Wikipdia, elles sont conues comme un outil pour l'tablissement de
futures normes bibliographiques .58 Plus concrtement, les FRBR distinguent
quatre mentions essentielles devant tre identifiables dans toutes les notices :
tout d'abord l' uvre , produit intellectuel d'un auteur ou d'un crateur, puis son
expression , qui peut tre toute ralisation cre partir de cette uvre, telle
qu'une traduction. La manifestation doit ensuite reprsenter la matrialisation
de cette expression, telle que l'dition particulire d'une traduction. Enfin, le
document reprsente l'exemplaire, tel que celui de l'dition de la traduction
d'une uvre.
56
Leveraging WorldCat: Data Mining the largest library database in the World, 2013. [en ligne].
[Consult le 14 juillet 2014]. Disponible ladresse : http://www.youtube.com/watch?
v=atA2QadzTdY&feature=youtube_gdata_player
57
Ibid.
58
Spcifications fonctionnelles des notices bibliographiques, 2014. Wikipdia [en ligne].
[Consult le 4 aot 2014]. Disponible ladresse : http://fr.wikipedia.org/w/index.php?title=Sp
%C3%A9cifications_fonctionnelles_des_notices_bibliographiques&oldid=103576162 .
LAPOTRE Raphalle | DCB | Mmoire d'tude | dcembre 2014
28
Les donnes, une rvolution pistmologique pour les bibliothques ?

C'est prcisment ce cadre conceptuel qui va tre repris dans le but de dfinir un
algorithme permettant de regrouper ensemble des notices qui ont trait la mme uvre,
et ce toujours dans le but de faciliter et d'enrichir la navigation des utilisateurs de
WorldCat : les FRBR permettent en effet de dfinir des critres selon lesquelles on
pourra classer ensemble des notices qui se ressemblent. Les ensembles de ces notices
rassembles selon ces critres sont appels groupes-uvre . Pour constituer ces
groupes, l'algorithme devra attribuer chacune des notices une cl unique, sur la base
desquelles ces notices seront regroupes ensemble, comme l'explique Thomas Hickey :
Le but est de crer une cl capable d'identifier de manire sre et unique un grou -
pe-FRBR. Le cas le plus ais est celui o nous avons un auteur et un titre, ou un
titre solitaire et uniforme. Si nous n'avons pas un auteur ou un titre uniforme, alors
nous essayons de trouver des champs correspondants au nom (les tiquettes 7XX)
pour aider identifier des documents associs. Les notices qui ne possdent que
des champs 24X (il n'y pas de champ 1XX ou 7XX dans la notice) sont combines
avec leur nombre WorldCat pour construire une cl unique. Nous ne pouvons pas
combiner ces titres qui s'associent, tant donn que nous n'avons pas assez d'infor -
mations pour grouper de manire fiable ces documents 59.
Les contournement dvelopps pour palier au fait qu'une uvre peut tre sans titre
ni auteur montrent bien que le concept duvre tel qu'il est dfini par les FRBR et qui
commande l'algorithme que nous venons de dcrire n'a rien d'vident. Pour le dmontrer,
David Weinberger prend l'exemple d'Hamlet 60 : si l'on suit en effet la description FRBR,
Hamlet constitue bien une uvre (au sens platonicien du terme, puisqu'elle n'a jamais
exist en tant que telle), de par toutes les manires diffrentes avec lesquelles elle a t
joue et publie 61. La version d'Hamlet incluse dans le Premier Folio constitue alors
une des expression de luvre, les impressions ou enregistrements qui en ont t faits,
ses manifestations. Chaque exemplaire de ses manifestation, on l'a vu, constitue alors un
document de luvre Hamlet. Tout cela semble assez clair, crit David Weinberger,
mais cela se complique rapidement .
La version d'Hamlet rcrite pour les enfants avec une fin heureuse est-elle en-
core Hamlet ? Et que penser des uvres inspires par Hamlet, telles que le Rosen-
crantz et Guildenstern sont morts de Tom Stoppard et le Sortir avec Hamlet :
L'histoire d'Ophlie de Lisa Fiedler ? Les FRBR disent que lorsque la modification
d'une uvre ''implique un degr signifiant de travail artistique ou intellectuel ind -
pendant'', elle devient une nouvelle uvre 62.
L'algorithme des ensembles-FRBR pose donc la question fondamentale de
l'identit de luvre. Dans sa nouvelle intitule Pierre Mnard, auteur du
Quichotte 63, Borges exposait les termes du problme : Mnard n'essaye pas d'crire
un nouveau Quichotte, mais le Quichotte. Son texte est identique celui de Cervants,
59
HICKEY, Thomas B., TOVES, Jenny. 2009. FRBR Work-Set Algorithm, v. 2.0 . OH: OCLC Online Computer
Library Center, Inc. (Research division) . Consult le 4 aot 2014 l'adresse Web :
http://www.oclc.org/research/activities/past/orprojects/frbralgorithm/2009-08.pdf. The goal is to create a key that can uniquely
and confidently identify a work-set. The best cases occur when we have an author with a title or a solitary uniform title. If we
don't have an author or a uniform title then we try to find name fields (7XX tags) to help identify related items. Records that only
have a 24X field (no 1XX or 7XX fields exist in the record) get combined with their Worldcat number to force unique keys. We
cannot combine those matching titles since we don't have enough information to reliably group the items .
60
WEINBERGER, David. 2008. Everything Is Miscellaneous: The Power of the New Digital Disorder . Henry Holt and
Company.
61
Ibid. The most abstract concept of [FRBR] describes is a work, such as Hamlet in all the different ways it is
performed and published . p.251.
62
Ibid. All this sound quite neat, but it gets messy quickly. Is the version of Hamlet rewritten for children with a happy
ending still Hamlet ? How about works inspired by Hamlet, such as Tom Stoppard's Rosencrantz et Guildenstern Are Dead and
Lisa Fiedler's Dating Hamlet : Ophelia's Story ? The FRBR says that when the modification of a work ''involves a significant
degree of independent intellectual or artistic effort,'' it becomes a new work .
63
BORGES, Jorge Luis. 1944. Pierre Mnard, auteur du Quichotte dans Fictions. ditions Gallimard.
LAPOTRE Raphalle | DCB | Mmoire d'tude | dcembre 2014 - 29 -
Droits dauteur rservs. OU
mais il ne le plagie pas et Borges soutient qu'il s'agit d'une autre uvre puisque
produite trois sicle d'intervalle et, par l, crite dans une autre perspective, selon
d'autres valeurs que celles qui avaient prsid l'criture du Quichotte de
Cervants. Les termes du dbat sont donc les suivants 64 : doit-on identifier luvre
du point de vue de sa conception, de son autorit, comme le fait l'algorithme de
l'OCLC, ou bien de sa rception et de son interprtation, comme le ferait
l'algorithme d'Amazon qui effectue ses regroupements en fonction des gots pass
des usagers, exprims par leurs activits de tlchargement, lecture, commentaires,
notations, ou par le fait de mettre le document dans ses favoris, par exemple 65 ? Si
l'algorithme FRBR de l'OCLC choue regrouper l'intgralit des uvres en
fonction de leur autorit, puisque nous avons vu que cela tait loin d'tre une
vidence, l'algorithme d'Amazon y russit-il davantage en cherchant dterminer
la rception de luvre ? Pour Tarleton Gillespie, la rponse est ngative :
Dans ces cycles d'anticipation, ce sont les bits d'information qui sont les
plus lisibles pour l'algorithme et qui, ainsi, ont tendance reprsenter les uti -
lisateurs. Facebook sait beaucoup de ses utilisateurs, mais cependant, il ne
sait que ce qu'il est capable de savoir. L'information la plus connaissable (la
go-localisation, la plate-forme informatique, les informations du profile, les
amis, les mises jour de statut, les liens suivis sur un site, le temps pass sur
un site, l'activit sur un autre site comportant des boutons ''j'aime'' ou des co -
okies) est un rendu de l'usager, un ''dossier numrique'' () ou une ''identit
algorithmique'' () qui est imparfaite mais suffisante 66. Ce qui est moins li-
sible ou ne peut pas tre connu des utilisateurs est tomb dans l'oubli ou est
grossirement approch. Comme Balka (2011) l'crivait, les systmes d'infor -
mation produisent des ''corps-ombres'' en mettant l'accent sur certains aspects
de leurs sujets et en passant sur d'autres 67.
L o nous aurions tendance nous offusquer de l'immixtion de Google dans
nos vies prives, c'est au contraire sa volont tenace de nous classer en dpit de
son insuffisance nous cerner qu'il faudrait dnoncer. C'est d'ailleurs la raison
pour laquelle nous n'avons pas souhait nous appesantir dans cette tude sur les
enjeux de vie prive propres au Big Data.
Mais si l'on peut dire qu'un algorithme utilis par l'OCLC pour naviguer dans
WorldCat est d'une certaine manire biais, que penser alors des recherches plus
globales sur les bibliothques amricaines dans lesquels il a t utilis ?

64
On retrouve le mme dbat, certes formul autrement, dans O'Neil et Schutt : We could do a Google search
for ''data science'' and perform a text-mining model. But that would depend on us being a usagist rather than a
prescriptionist with respect to language. A usagist would let the masses define data science (where ''the masses'' refers to
whatever Google's search engine finds). Would it be better to be a prescriptionist and refer to an authority such as the
Oxford English Dictionary ? Unfortunately, the OED probably doesn't have an entry yet, and we don't have time to wait
for it. Let's agree, that there's a spectrum, that one authority doesn't feel right and that ''the masses'' doesn't either .
O'NEIL, SCHUTT. 2013. Non pagin dans sa version lectronique.
65
THOMAS. 2012.
66
Il nous semble que cette volont de ce contenter de profils numriques et algorithmiques pour prendre des
dcisions concernant notre individualit est prcisment le problme que soulignent galement Antoinette Rouvroy et
Thomas Bern. ROUVROY, Antoinette et BERNS, Thomas, 2013. Gouvernementalit algorithmique et perspectives
dmancipation. Rseaux. 1 avril 2013. Vol. 177, n 1, pp. 163-196. Sans considrer ceci comme vain, nous voulons
signaler ici avec force lindiffrence de ce gouvernement algorithmique pour les individus, ds lors quil se contente
de sintresser et de contrler notre double statistique , cest--dire des croisements de corrlations, produits de
manire automatise, et sur la base de quantits massives de donnes, elles-mmes constitues ou rcoltes par dfaut
. Bref, ce que nous sommes en gros , pour reprendre la citation dric Schmidt, ce nest justement plus aucunement
nous-mmes (tres singuliers). Et cest justement cela le problme, problme qui, comme nous le verrons, relverait
plutt dune rarfaction des processus et occasions de subjectivation, dune difficult devenir des sujets, que dun
phnomne de dsubjectivation ou de mise en danger de lindividu . p. 180.
67
GILLESPIE, paratre.
LAPOTRE Raphalle | DCB | Mmoire d'tude | dcembre 2014
30
Les donnes, une rvolution pistmologique pour les bibliothques ?

Une des publications de l'OCLC : Livres sans frontires


Un exemple de l'utilisation de l'algorithme que nous venons de dcrire peut-tre
observ dans la publication de Brian Lavoie et Roger Schonfeld intitule Livres sans
frontires, un bref horizon de la collection d'imprims l'chelle du systme 68. Partant
du principe que de nos jours, les dcisions ayant trait un nombre important de
domaine tirerait bnfice de considration provenant du contexte plus large du
systme 69, les auteurs se posent la question de savoir de quelle manire la collection
globale dcrite par les donnes de WorldCat se rpartit l'chelle des diffrentes
institutions qui y participent et en quoi ces informations pourraient, dans un futur
proche, influencer les politiques de numrisation, de conservation et de mdiation des
collections.
Les conclusions des analyses des auteurs effectues sur les quelques 32 millions de
donnes provenant des notices des livres imprims contenues dans WorldCat sont les
suivantes. Un premier constat est qu'il existe en moyenne 1,2 manifestation par uvre 70.
S'interrogeant ensuite sur le degr de redondances des diffrentes collections entre elles,
les auteurs font part de leur admiration devant la relativement faible part de redondance
observe. Vient alors la rpartition des collections par dates de publication : Lavoie et
Schonfeld observent que la moiti des documents ont t publis aprs 1977, ce qui
tmoigne donc d'une forte acclration de l'activit ditoriale dans le dernier tiers du
XXe sicle. Quant aux langues des publications : un peu plus de la moiti des livres
dont les notices sont contenues dans WorldCat sont publis en anglais, les autres langues
majoritaires tant l'allemand et le franais. Enfin, une estimation trs grossire permet
d'affirmer que depuis 1940, prs de 48% de la littrature globale, toutes disciplines
confondues, est couverte par les fonds dont les notices sont enregistres dans WorldCat.
Que penser de ces observations ? Certes, l'utilisation de l'algorithme FRBR n'a-t-
elle peut-tre pas tant d'influence sur les rsultats finaux des analyses, il est en tout cas
difficile de le savoir. Le problme, s'il doit y en avoir un, rside peut-tre d'avantage
dans le fait que l'analyse des donnes un niveau aussi large permet effectivement de se
faire une ide des caractristiques fondamentales des collections globales et
institutionnelles, mais gure sur le pourquoi ni sur le comment de ces chiffres. En ralit
ces analyses ne nous parlent pas car elles ne font pas intervenir la subjectivit des
professionnels qui ont uvr pour la constitution de cette collection globale : il manque
peut-tre aux rapports de l'OCLC un aller-retour entre les donnes et les discours des
bibliothcaires qui les ont conus, tel qu'on pourrait l'observer notamment dans l'essai
The life and death of metadata 71.
Il est peut-tre ncessaire, dans ce contexte, de se mettre la recherche d'autres
approches qui permettraient de complter ces premires analyses. C'est dans cette
perspective que nous nous proposons maintenant d'interroger l'apport de la visualisation
de donnes dans le cadre des humanits numriques.

68
LAVOIE, Brian F., SCHONFELD, Roger C. Books without Boundaries : A Brief Tour of the System-wide Print Book
Collection dans DEMPSEY, Lorcan, LAVOIE, Brian F., MALPAS, Constance, CONNAWAY, Lynn S., SCHONFELD, Roger
C., SHIPENGROVER J.D. et WAIBEL, Gnter. 2013. Understanding the Collective Collection : Towards a System-wide
Perspective on Library Print Collections. Dublin, Ohio : OCLC Research. Consult le 5 aot 2014. Disponible l'adresse Web :
http://oclc.org/research/publications/library/2013/2013-09.pdf.
69
Ibid. p. 9.
70
On voit ici une application de l'algorithme des groupes-uvre FRBR .
71
The Life and Death of Data, [sans date]. op. cit.
LAPOTRE Raphalle | DCB | Mmoire d'tude | dcembre 2014 - 31 -
Droits dauteur rservs. OU
UNE MANIRE INNOVANTE DE PRODUIRE DES CONNAISSANCES SUR LES
BIBLIOTHQUES : LA VISUALISATION DE DONNES.

Les humanits numriques apportent un cadre critique aux nouvelles


possibilits introduites par les outils du Big Data, et permettent de renouveler la
manire de produire des connaissances, notamment par le biais d'une visualisation
des donnes prenant en compte la subjectivit de l'observateur. L'exemple de
l'Observatoire de la Bibliothque, dvelopp par le Metalab d'Harvard, illustre ce
propos.

La visualisation au regard critique des humanits numriques


Ds le dbut du XIX e sicle, l'administration franaise a rendu familire la
visualisation de donnes, ou plus exactement certaines de ses composantes que
sont les graphiques et les cartes. Sous Napolon, l'administration est en effet
grande consommatrice de statistiques : l'instrumentalisation de ces dernires au
service de desseins politiques ont loign pendant longtemps la possibilit d'un
regard auto-critique et scientifique sur cette discipline, comme l'crit Johanna
Drucker dans son essai intitul Graphesis : la production et la reprsentation
visuelle de connaissances 72 . L'hritage positiviste et politique qui sous-tend donc
l'emploi de la visualisation donnes conduit ses premiers thoriciens en
revendiquer l'objectivit et l'auto-vidence : l'instar des donnes qu'elle est
cense reprsenter, la visualisation parlerait d'elle-mme. C'est notamment ce
qu'explique Edward Tufte, considr comme l'un des premiers penseurs de la
visualisation de donnes, lorsqu'il recommande l'infographe de montrer les
donnes et d'viter de transformer ce que les donnes ont dire 73.
Dans ce contexte, le rle des humanits numriques consiste non seulement
laborer un cadre critique en replaant chacune des composantes de la visualisation
de donnes dans le contexte thorique qui l'a vu natre 74, mais galement
promouvoir un enrichissement thorique de la visualisation au moyen des textes de
praticiens-thoristes du XX e sicle qui ont fond l'enseignement du graphisme et
du design : Wassily Kandinsky, Laszlo Moholy-Nagy et Paul Klee, pour ne citer
qu'eux. L'histoire culturelle des infographies, des diagrammes, des cartes, des
graphiques et des autres images schmatiques, crit Johanna Drucker, est un champ
riche explorer pour trouver des modles productifs l'horizon des outils
thoriques fournis par les humanits 75.
Ainsi considre au regard des humanits Numriques, la visualisation de
donne peut tre vue comme plus informative du point de vue de ses mthodes que
les autres techniques incluses dans le champ de la science des donnes.

72
DRUCKER, Johanna, 2010. Graphesis: Visual knowledge production and representation. Poetess Archive
Journal. 2010. Vol. 2, n 1, pp. 150. Consult le 6 aot 2014. Disponible l'adresse Web :
http://www.johannadrucker.com/pdf/graphesis_2011.pdf. The instrumental use towards specific ends and tasks that
characterizes bureaucratic adoption of statistical methods and their graphic representation shifts the management of
information from an intellectual to a political sphere. We can discern the ideological aspect of any scientific inquiry, but
the applied use of information management makes use of the cultural authority in statistical graphics in a way that
exceeds the qualified reservations of scientific method . p. 15-16.
73
TUFTE, Edward. 2001. The Visual Display of Quantitative Information, "Graphical Excellence." Cheshire,
Connecticut: Graphics Press. p. 13.
74
Les diagrammes en barre, par exemple, proviennent du champ des analyses et fonctions statistiques, tandis que
les structures arborescentes sont le fait de la biologie volutionnaire et de la gnalogie.
75
DRUCKER, 2010. But the cultural history of information graphics, diagrams, maps, charts and other
schematic images, is a rich field to mine for productive models within the horizon of the theoretical tools provided by the
humanities . p. 25.
LAPOTRE Raphalle | DCB | Mmoire d'tude | dcembre 2014
32
Les donnes, une rvolution pistmologique pour les bibliothques ?

Un changement pistmologique
Par le simple fait qu'elle permet d'embrasser du regard l'ensemble du phnomne
qu'elle dcrit, la visualisation de donnes peut-tre considre comme productrice de
connaissances. Johanna Drucker dcrit ainsi trois manires fondamentales par lesquelles
l'image est amene devenir informative : () 1) en offrant une analogie visuelle ou
une ressemblance morphologique, 2) en fournissant une image visuelle d'un phnomne
non-visible, ou 3) en fournissant des conventions visuelles pour structurer des oprations
ou des procdures 76.
Mais paralllement l'nonciation de ces diffrentes mthodes, ce qui caractrise
la visualisation de donnes dans le cadres des humanits numriques, c'est un
changement pistmologique fondamental. L o Edward Tufte prsupposait
implicitement l'ide que non seulement les donnes pr-existent leur prsentation
graphique, mais aussi que les donnes ont une identit absolue en dehors de leur
reprsentation 77, Johanna Drucker considre au contraire que l'epistmologie visuelle
est base sur une thorie plus radicale de la connaissance .
Le concept radical de la subjectivit, et la nature co-dpendante de la connais -
sance et de l'interprtation, ont t essentielles la physique quantique depuis prs
d'un sicle, mais aussi aux tudes cognitives depuis 50 ans. La ''graphesis'' 78 consi-
dre ces concepts comme fondamentaux et les utilise pour construire une thorie
de la connaissance travers l'attention porte aux formes graphiques et ses nom -
breuses expressions .
La visualisation des donnes n'existe donc pas pour reprsenter une information
qui lui pr-existe, mais bien pour faire merger une connaissance partir de
l'interprtation de l'observateur : pour le dmontrer, Johanna Drucker se rfre en
premier lieu la physique quantique qui suggre qu'un phnomne apparat lorsqu'un
observateur intervient dans un champs de potentialits 79 . La visualisation incarne ainsi
ce champ de potentialits dans lequel intervient un spectateur appel crer une
connaissance par le biais d'un processus dynamique. L'auteur fait galement rfrences
aux tudes cognitives, dont le psychologue gestaltiste Ernest von Glaserfeld peut tre vu
comme le prcurseur, suggrant que la cognition humaine merge de manire
dynamique dans une relation d'change entre des capacits physiologiques et des
stimulation circonstancielles dans un systme continuellement changeant 80.
Ds lors, la connaissance n'est plus transmise et rvle un observateur passif,
mais bien labore de manire dynamique par une interaction entre deux subjectivits,
celle du crateur de la visualisation et celle de son spectateur : tout cela n'est gure
loign, en un sens, de l'ide duvre ouverte chre Umberto Eco, selon laquelle en
ragissant la constellation des stimuli, en essayant d'apercevoir et de comprendre leurs
relations, chaque consommateur exerce une sensibilit personnelle, une culture

76
Ibid. Images embody information through three different models, each of which has a different structural relation to
the referent. They can work 1) through offering a visual analogy or morphological resemblance, 2) through providing a visual
image of non-visible phenomena, or 3) by providing visual conventions to structure operations or procedures . p. 4.
77
Ibid. The assumption is not only that the data pre-exists the graphical presentation, but that the data have an absolute
identity outside of their representation . p. 24.
78
Terme forg en 1975 par Marie-Rose Logan, et dsignant l'ensemble des rflexions produites l'poque sur l'criture
et l'inscription.
79
Ibid. Rather than imagine discrete phenomena available for observation, or the subject-object relationship as a
dialogue between two independent entities, the quantum theorist suggests that phenomena arise when an observer intervenes in a
field of potentialities . p. 28.
80
Ibid. Ernst von Glaserfeld's work in radical constructivism suggests that human cognition emerges dynamically in a
relationship of exchange between physiological capabilities and circumstantial stimulation in a continually mutating system . p.
27-28.
LAPOTRE Raphalle | DCB | Mmoire d'tude | dcembre 2014 - 33 -
Droits dauteur rservs. OU
dtermine, des gots, des tendances, des prjugs qui orientent sa jouissance dans
une perspective qui lui est propre 81.
Il reste voir comment ces thories s'appliquent la visualisation des
donnes des bibliothques.

L'exemple de l'Observatoire Bibliothque

Le contexte de cration de l'Observatoire

Le projet de l'Observatoire Bibliothque (Library Observatory) 82 est n de


l'effort commun de deux institutions : MetaLAB, le centre des humanits
numriques de l'Universit d'Harvard, d'une part, et la Digital Public Library of
America (DPLA), d'autre part. Le MetaLAB se dfinit lui-mme comme une
unit de recherche et d'enseignement () ddie l'exploration et l'expansion
des frontires de la culture en rseau dans les arts et les humanits 83. Un des
projets les plus intressants du MetaLAB demeure sans doute l'Artefact de donnes
ou Data Artifact, en raison notamment de sa rflexion approfondie sur la nature des
donnes culturelles et leurs origines :
L'Internet inspire les bibliothques, les archives, les muses et arboretums
dans leur mouvement pour rendre leurs collections ouvertes , participa-
tives et dmocratiques . Cet ensemble de valeurs, mergentes dans les
cultures en rseau, se saisit d'institutions qui charrient depuis longtemps avec
elles les legs de normes prcdentes : la conservation, l'expertise, l'exhausti-
vit, l'excellence, et la commmoration. Dans certains cas, ces valeurs mer -
gentes apportent des lments aux plus anciennes ; dans d'autres cas, elles
semblent en conflit. () Grce une attention critique porte au catalogage
et aux schmas de classifications au travers de contextes institutionnels va -
ris, l'Artefact de Donnes aura pour objectif d'historiciser les cultures de
collecte et de comprendre les cultures matrielles et les valeurs intellectuelles
qu'ils incarnent 84.
Pour mettre au jour les valeurs, institutionnelles et politiques qui ont prsid
la cration des donnes des collections et les ventuels conflits suscits par leur
agrgation, il ne faudrait donc plus alors considrer les donnes comme brutes ,
mais comme des mdias, au mme titre que les algorithmes qui permettent de les
analyser.
Quel meilleur exemple pouvait-on choisir, dans ce contexte, que la DPLA,
bibliothque numrique amricaine ? Dans un article intitul La chandelle de
Jefferson 85, Robert Darnton, minent historien, directeur de la bibliothque
d'Harvard et co-fondateur de la DPLA, expliquait en effet les motivations qui
81
ECO, Umberto. 1965. L'uvre ouverte. Collection Points , ditions du Seuil, Paris. p. 17.
82
Library Observatory, [sans date]. [en ligne]. [Consult le 29 janvier 2014]. Disponible ladresse :
http://www.libraryobservatory.org/
83
About | metaLAB (at) Harvard, [sans date]. [en ligne]. [Consult le 7 aot 2014]. Disponible ladresse :
http://metalab.harvard.edu/about/ Metalab is a research and teaching unit at Harvard University dedicated to exploring
and expanding the frontiers of networked cultures in the arts and humanities .
84
LOUKISSAS, Yanni, [sans date]. Data Artifacts Rising: Cultures of Collecting from Preservation to
Participation | metaLAB (at) Harvard. [en ligne]. [Consult le 19 mai 2014]. Disponible ladresse :
http://metalab.harvard.edu/2012/12/data-artifacts-rising-cultures-of-collecting-from-preservation-to-participation/ The
Internet inspires libraries, archives, museums and arboreta to make their collection open , participatory , and
democratic . This cluster of values emergent in networked cultures, is taking hold at institutions that carry long
legacies of prior norms : preservation, expertise, comprehensiveness, excellence, and commemoration. In some cases, the
emerging values adduce to older ones ; in other cases they seem to clash. () Through critical attention to cataloging
and classification schemes across varied institutional contexts, Data Artifacts will historicize cultures of collecing and
the understandings of material culture and intellectual value they embody .
LAPOTRE Raphalle | DCB | Mmoire d'tude | dcembre 2014
34
Les donnes, une rvolution pistmologique pour les bibliothques ?

avaient prsid sa fondation. Au gigantesque projet de numrisation port par Google


Book et ce qu'il tait devenu, savoir une opration de recherche transforme en
spculation commerciale fonde sur la valeur de la base de donnes des livres 86,
Darnton oppose en effet le principe de bien commun de la connaissance, incarn par
l'idal Jeffersonien : Qui reoit une ide de moi, reoit lui-mme une instruction sans
amoindrir la mienne ; de mme que celui qui claire sa chandelle la mienne reoit de la
lumire sans me plonger dans l'obscurit 87.
Il s'agirait donc bien d'un conflit entre deux visions diffrentes de l'conomie de
l'information : d'une part celle, librale, de Google, et d'autre par celle des biens
communs de la connaissance , porte en France par le collectif SavoirCom1, pour ne
citer que cet exemple 88. Ces deux conceptions donnent naissance des donnes et des
technologies de traitement diffrentes, savoir Google Book et la DPLA, mais la
dernire relve bien de cette inspiration vers l'ouverture, la participation et la dmocratie
dcrite plus haut par MtaLAB, qui peut prcisment amener des conflits avec d'autres
valeurs ayant prsid la cration des donnes de la DPLA. En effet, contrairement
Google Book, explique Robert Darton, la DPLA ne puisera pas dans une seule et
gigantesque base de donnes. Il s'agira d'un systme dit ''distribu'', qui agrgera les
collections de multiples bibliothques de recherche, muses et autres institutions . Les
diverses institutions qui ont fourni leur donnes de numrisation la DPLA sont elles-
mmes en possession de ces hritages de normes et de valeur passes qui pourraient
entrer en conflit avec les valeurs mergentes, propres Internet, de la bibliothque
numrique amricaine.
Or, ces conflits permettent de nous apporter des connaissances sur le contexte
institutionnel des bibliothques qui ont particip au projet port par la DPLA. Or, tout
l'enjeu est de pouvoir les mettre au jour.

Comment fonctionne l'Observatoire ?

En langage technique, un artefact de donne est un objet produit par inadvertance


au cours de processus humains d'organisation et de gestion. D'un point de vue
culturel, un artefact est une fabrication situe dans un contexte culturel. Enfin, d'un
point de vue historique, un artefact est une trace vidente d'une rencontre carac -
tre mdico-lgale avec le pass. Jamais brute, toute donne transporte les traces
du travail humain, de ses interprtation et de ses valeurs 89.
Matthew Battles et l'quipe de chercheurs l'origine de l'Observatoire
Bibliothque ont la conviction que l'analyse et la visualisation de donnes rendent
possible le reprage d'artefacts, ces erreurs de catalogage qui tmoignent d'un conflit
de classification entre deux institutions diffrentes l'origine des donnes de la DPLA.
Plus concrtement, lObservatoire est une application conue partir de l'API (pour
Application Programming Interface) fournie par la bibliothque numrique amricaine.
85
Le dbat. La chandelle de Jefferson, [sans date]. [en ligne]. [Consult le 7 aot 2014]. Disponible ladresse :
http://le-debat.gallimard.fr/articles/2012-3-la-chandelle-de-jefferson/
86
Ibid.
87
Ibid.
88
Nous renvoyons au mmoire de Clment Tisserand sur le sujet : TISSERANT, Clment, 2013. Domaine public et biens
communs de la connaisance. Sous la direction de Cristina Ion. Disponible l'adresse Web : http://www.enssib.fr/bibliotheque-
numerique/documents/64245-domaine-public-et-biens-communs-de-la-connaissance.pdf
89
BATTLES, Matthew. 2013. Data artefacts : tracking knowledge-ordering conflicts through visualization. dans
INTERNATIONAL UDC SEMINAR, Slavic, Aida et UDC CONSORTIUM (THE HAGUE) (d.), 2013. Classification &
visualization: interfaces to knowledge: proceedings of the International UDC Seminar 24-25 October 2013, The Hague, the
Netherlands; organized by UDC Consortium, The Hague . Wurzburg : Ergon. This paper introduces the expression data
artefact with the understanding that artefact has at least three meanings. In technical language, an artefact in data is an
inadvertent product of human processes of organization and management. From a cultural perspective, an artefact is a designed
object situated in a cultural context. Finally, from a historical perspective, an artefact is an evidentiary trace in a forensic
encounter with the past. Never raw, all data carry traces of human labor, interpretations and values . p. 244.
LAPOTRE Raphalle | DCB | Mmoire d'tude | dcembre 2014 - 35 -
Droits dauteur rservs. OU
Elle permet de naviguer dans les collections partir d'une visualisation
reprsentant les collections sous forme d'une carte arborescente (en anglais
tree maps ). un premier niveau, la carte arborescente permet de se faire une
ide de la taille relative des contributions de chacune des institutions ayant
particip la bibliothque numrique amricaine, mais permet permet galement
de naviguer dans les collections de la DPLA (figure ci-dessous 90).

Figure 1 : Interface de l'Observatoire, montrant la taille relative des


institutions ayant particip la DPLA.

En effet, lorsque l'on clique sur l'un des carrs correspondant un dpt, une
autre carte arborescente s'affiche et reprsente les diffrentes collections proposes
par l'institution choisie puis, une fois choisie la collection, une troisime
visualisation permet de choisir l'intrieur de la collection un format souhait, et
ainsi de suite jusqu'au document proprement parler 91 , chaque niveau indiquant
une taille relative des objets visualiss. Ajoutons qu'une autre navigation, est
propose sous forme d'arbre, mais que le principe reste le mme 92.
partir de cette visualisation, l'Observatoire propose un tumblr, plate-forme
de microblogage sur laquelle les utilisateurs de l'application sont invits poster
toutes les anomalies remarques dans les cartes arborescentes ou les arbres
simples, ainsi que les commentaires que leur inspire ces anomalies 93. Un utilisateur
a par exemple post une capture d'cran montrant la carte arborescente des
collections de la Smithsonian Institution au niveau de ses collections (figure ci-
dessous). Cette visualisation montre une collection intitule type registre
( type register ) qui, lorsqu'on cliquait dessus, ne menait rien.

90
mbattles_udcseminar2013.pdf, [sans date]. [en ligne]. [Consult le 1 septembre 2014]. Disponible ladresse :
http://www.udcds.com/seminar/2013/media/slides/mbattles_udcseminar2013.pdf
91
Cf annexe, p. 100, figure 14.
92
Cf annexe, p. 100, figure 15.
93
Ce tumblr est actuellement disponible l'adresse Web : http://libobserve.tumblr.com/.
LAPOTRE Raphalle | DCB | Mmoire d'tude | dcembre 2014
36
Les donnes, une rvolution pistmologique pour les bibliothques ?

Figure 2 : Visualisation gnre par un usager de l'Observatoire de la


bibliothque : anomalie du type register dans la classification arborescente
de la Smithsonian Institution.

Aprs avoir fait remarquer que la carte arborescente rvlait une tendance
institutionnelle de la part de la Smithsonian Institution privilgier l'anthropologie,
Matthew Battles commente ainsi :
L'impasse o mne le type registre peut reflter une erreur dans l'ingestion de
donnes ou des dsaccords entre les modles de donnes de la Smithsonian Institu -
tion et la DPLA. Les tailles varies des collections refltent peut-tre la significa -
tion relative de certains objets dans le programme de dveloppement des collec -
tions mais nous ferions bien de nous rappeler que la DPLA est une ''mga-mta-
collection'' d'objets numriques, elle rvle non seulement les habitudes de collecte
de ses institutions partenaires, mais aussi la concentration et la vitesse relative des
efforts de numrisation de toutes ces institutions, tendances influences non seule -
ment par des prdilections de conservation ou d'universit, mais aussi par les
sources de financement, les proccupation de prservation, et la susceptibilit la
numrisation prsente par de nombreux types d'objets 94.
BATTLES, 2013. The dead-end at type register may reflect an error in the ingestion of data, or disagreemnets
94

between th data models of the Smithsonian and the DPLA. The varied sizes of collections might reflect the relative significance
of certain materials in the collections-development program but we do well to remember that the DPLA is a mega-meta
collection of digital objects ; it reflects not only the collecting habits of its partner institutions, but the focus and relative pace
of digitization efforts across those institutions, patterns influenced not only by curatorial or scholarly predilections, but funding
LAPOTRE Raphalle | DCB | Mmoire d'tude | dcembre 2014 - 37 -
Droits dauteur rservs. OU
L'Observatoire s'intresse donc, au mme titre que l'OCLC, des questions
relatives la politique documentaire des tablissements, et ce dans le cadre des
bouleversements amens par la numrisation massive. Si les mthodes sont
radicalement diffrentes, elles sont nos yeux complmentaires : les rapports de
l'OCLC, d'une part, produisent des connaissances une chelle globale. Ses
observations sont de portes trs gnrales mais permettent de se faire une
premire ide de ce que peut tre une collection collective. Elle ne prend pas en
compte, ou n'assume pas, la subjectivit de l'analyse et ne fait pas non plus appel
la subjectivit d'un observateur : les problmes de normalisation des donnes
qu'elle rencontre sont vus comme des obstacles devant tre surmonts pour
clarifier son propos. Au contraire, les observations faites au sein de l'Observatoire
portent sur une chelle beaucoup plus restreinte et reposent sur la raction
subjective d'un utilisateur vis--vis de la visualisation des donnes de la DPLA :
non seulement elle assume la subjectivit, mais elle en fait le point de dpart de
toute connaissance possible sur le contexte institutionnel des bibliothques qui ont
particip au projet. On voit donc l l'application des principes noncs plus haut
par Johanna Drucker : les conflits de classification impliqus par les formats
d'origine trs diverses des donnes sont perus comme un outil indispensable de
connaissance.

CONCLUSION : DE LA CONNAISSANCE LA DCISION


Nous avons tent, dans ce premier moment de notre rflexion, de faire le tour
des diffrentes techniques employes ce jour pour faire parler les donnes, depuis
les statistiques infrentielles utilises l'occasion des enqutes de publics, jusqu'
la visualisation interactives des mtadonnes d'une gigantesque bibliothque
numrique telle que la DPLA, en passant par la confrontation de systmes de
recommandation et d'algorithmes de classement au sein de WorldCat et
d'Amazon 95. Mais, pourrait-on objecter, quel rapport peut-il y avoir entre la
connaissance sur les usages des bibliothques que pourraient prodiguer les
enqutes de publics et la connaissance institutionnelle que pourrait effectivement
apporter la visualisation des mtadonnes ? Peut-on vritablement mesurer les
apports du Big Data et de la sciences des donnes en comparant des pratiques aux
mthodes et aux objectifs fort diffrents ? Quel est, dans ce contexte, le rel apport
des nouveaux outils par rapport aux pratiques dj existantes permettant de
connatre les bibliothques ?
De fait, les bibliothques n'ont pas attendu les nouvelles techniques apportes
par les mgadonnes pour faire parler leur donnes. On trouve en effet dans le
Guide des tudes de publics en bibliothque un chapitre entier consacr la
connaissance des publics via les donnes de la bibliothque qui dveloppe
l'ide selon laquelle, avant mme d'envisager la ralisation d'une enqute, les
bibliothques disposent elles-mmes d'une multitude d'informations dont
l'exploitation permet de fournir une connaissance riche et parfois unique des
usagers et des usages dont elles font l'objet 96 . Si donc les bibliothques font dj
usage des donnes d'inscriptions pour apprhender la capacit de l'tablissement
susciter l'intrt de la population qu'il dessert 97 , des donnes de portiques pour
mesurer la frquentation de la bibliothque, du volume de non-inscription pour se

sources, preservation concerns, and the susceptibility of various kind of objects to digitzation . p. 252.
95
Cf annexe p. 98, figure 12, p. 99, figure 13.
96
POISSENOT, Claude. La connaissance des publics via les donnes internes de la bibliothque dans
EVANS. 2011. p. 47.
97
Ibid. p. 48.
LAPOTRE Raphalle | DCB | Mmoire d'tude | dcembre 2014
38
Les donnes, une rvolution pistmologique pour les bibliothques ?

faire une ide de la capacit de l'quipement fidliser et donc satisfaire ses


usagers 98 , des donnes d'emprunts pour mesurer le taux de rotation de ses collections,
etc., quels changements peuvent bien apporter le fait que ces donnes soient plus
massives, que les techniques qui permettent de les apprhender soient plus performantes
et que les rsultats de ces analyses soient mobilises dans le processus de prise de
dcision pour un tablissement 99 ?
La rponse cette question pourrait se trouver prcisment dans les discours qui
accompagnent aujourd'hui la science des donnes et le mouvement du Big Data dont elle
est la traduction : jamais en effet le discours de l'innovation et de la rvolution n'a
davantage pos la question du statut ontologique des donnes. En clair, plus les Google
et Amazon affirment avec force que les donnes gnres par nos comportement passs
permettent d'infrer sur nos comportement futurs, plus nous sommes amens nous
poser la question de ce que sont les donnes et de ce que peut tre un indicateur pour
nous, chercheur ou dcideur. En somme, plus nous rflchissons sur les rapports entre
les variables que nous produisons et ce qu'elles sont amenes reprsenter nos yeux,
plus une prise de dcision informe par ces variables requiert une recherche davantage
approfondie sur la bibliothque et son environnement.

98
Ibid. p. 54.
99
C'est dj le cas, comme on pourra le constater dans la seconde partie de cette tude.
LAPOTRE Raphalle | DCB | Mmoire d'tude | dcembre 2014 - 39 -
Droits dauteur rservs. OU
LES DONNES, UN ATOUT POUR LA GESTION D'UNE
BIBLIOTHQUE ?
La production de connaissances sur un tablissement est un atout pour son
directeur, qui pourrait alors, par exemple, tre en mesure d'amliorer son
fonctionnement. Cette question de connaissances sur la bibliothques entrane donc
naturellement une autre interrogation, qui pourrait tre formule de cette manire :
dans quelle mesure les donnes peuvent-elles informer les dcisions relatives la
gestion d'une bibliothque ? Et si l'on inclut, dans ce que l'on entend par gestion
d'une bibliothque, la communication autour de son activit, quel peut-tre cet
gard l'apport de la science des donnes, et notamment de la visualisation ?
Les rponses que nous tenterons de donner ces questions pourront
s'appliquer indiffremment, nous semble-t-il, aux bibliothques universitaires et
aux bibliothques publiques : nous considrons en effet que la tche d'valuer un
service, si elle sera dans un premier temps dcrite en prenant le cadre universitaire,
peut trs bien se transposer l'chelle d'une bibliothque municipale. De mme, le
second chapitre de cette partie, qui se penchera sur un exemple de formation mis
en place dans une bibliothque de recherche aux tats-Unis, peut s'envisager
galement dans le contexte publique : si la ncessit de mettre disposition des
usagers de la bibliothque des personnes comptentes pour grer les donnes issues
de la recherche a motiv la cration de la formation que nous allons dcrire, il n'est
pas vident que seul un public d'tudiants et de chercheurs, aujourd'hui, prouve le
besoin d'obtenir des donnes ainsi que les renseignements pouvant les
accompagner. Enfin, si le dernier temps de ce chapitre porte spcifiquement sur la
communication du bibliothcaire avec son lu, il nous semble que l'lu peut tout
aussi bien tre inter-chang dans notre propos avec le prsident d'universit, dont
le pouvoir de dcision sur ses services de documentation a t renforc par la loi
sur l'autonomie des universits.

S'APPUYER SUR L'ANALYSE DE DONNES POUR VALUER LA


BIBLIOTHQUE...

Les bibliothques franaises s'appuient sur une longue tradition d'valuation.


Il n'est qu' prendre l'exemple de la cration de l'Inspection gnrale des
bibliothques, en 1822, pour s'en convaincre : cette dernire tait en effet charge
de mener des enqutes ponctuelles sur le fonctionnement des bibliothques afin de
complter les renseignements souvent lacunaires que les tablissements de lecture
devaient transmettre au ministre de l'Instruction Publique par le biais des rapports
annuels adresss par les prfets et recteurs 100.
Dans ce contexte, il serait erron d'affirmer que l'utilisation des donnes des
bibliothques franaises dans le but de piloter ces dernires serait un fait
totalement nouveau : tout nous montre au contraire que cela a t pratiqu ds
leurs origines, si l'on fait remonter ces origines aux confiscations rvolutionnaires.
Ds lors, l'analyse des donnes des bibliothques, effectue dans le contexte
nouveau de la science des donnes , n'aurait-elle rien de neuf apporter ?

100
ALONZO, Valrie, RENARD, Pierre-Yves (dir.). 2012. valuer la bibliothque. Bibliothques (Paris. 1978),
0184-0886. p. 38.
Laptre Raphalle | DCB | Mmoire | dcembre 2014 - 41 -
Droits dauteur rservs. OU
De la macro- la micro-valuation.
Mis en place depuis 2006, le systme d'valuation du SCD2 de Grenoble est
remarquable par bien des aspects, notamment par la mobilisation de toute l'quipe
du SCD autour de la mission dcrite dans une lettre de cadrage , consistant
doter la bibliothque d'un outil d'aide la dcision centr sur la mesure de
l'activit et des performances du service 101, comme l'crit Nadine Delcarmine :
Trs rapidement, la rflexion sur le panel des indicateurs suivre et sur la
ncessit d'une large mobilisation des personnels dans des circuits de collecte
et d'analyse efficaces a conduit le SICD s'engager dans une dmarche pro -
fessionnelle hardie qui s'est traduite par la mise en place de plusieurs outils
techniques produits en interne ou issus du monde de l'informatique dcision -
nelle (business intelligence) et, aussi souvent que possible, de la simplifica -
tion et de l'automatisation des circuits 102.
L'utilisation d'outils informatiques adapts caractrise donc galement le
systme d'valuation mise en place Grenoble. En premier lieu, il s'agit du
rfrentiel des indicateurs, permettant de standardiser la collecte des donnes afin
de permettre une utilisation long terme de ces dernires ainsi que des
comparaisons avec d'autres jeux de donnes. cela s'ajoutent deux bases de
donnes, une premire destine la collecte des donnes qui ne sont pas issues du
SIGB mais releves manuellement par les agents du SCD et une seconde,
rplique du SIGB mise jour continuellement et qui fournit les lments
statistiques sur les lecteurs, leur activit, le volume, la nature et les usages des
collections imprimes 103. Pour couronner le tout, un outil de calcul, sous la forme
d'une suite informatique appele Cognos, doit permettre d'laborer des rapports
et tableaux de bord prprogramms par l'quipe du SICD 104.
Il s'agit d'un outil technique en effet plutt complexe, mais permettant
cependant de simplifier la collecte et l'analyse mutualises des donnes du SICD,
les indicateurs ainsi construits devant permettre d'informer les dcisions prises sur
l'ensemble de l'tablissement. Or, ces indicateurs, quels sont-ils ? Il s'agit de
donnes pour l'essentiel quantitatives, comme on l'observe dans les diffrents
tableaux de bords publis en annexe du chapitre de Nadine Delcarmine 105 ainsi que
dans la figure ci-dessous 106, permettant d'informer le bibliothcaire sur un certain
nombre de points. La rpartition des effectifs de la bibliothque entre
dpartements, par exemple, est un indicateur permettant de mesurer l'impact du
service public et de sa composante, la formation des lecteurs, sur l'activit globale
de la bibliothque 107. De mme, l'observation de l'volution du nombre
d'articles consults par base, le calcul du cot d'une consultation, d'une recherche
ou d'une session rapport une population d'utilisateurs donne permettent de
vrifier l'adaptation de l'offre documentaire ou du dispositif de formation la
recherche documentaire 108.

101
DELCARMINE, Nadine. Tableaux de bord en bibliothque dans ALONZO et RENARD, 2012. p. 101.
102
Ibid. p. 100-101.
103
Ibid. p. 102.
104
Ibid.
105
Ibid. p. 104.
106
DENNI, Galle, 2010. Quatre catgories doutils pour lauto-valuation au SICD2 de Grenoble. [en ligne]. 1
janvier 2010. [Consult le 26 juillet 2014]. Disponible ladresse : http://bbf.enssib.fr/consulter/bbf-2010-04-0023-005
107
DELCARMINE dans ALONZO et RENARD. 2012. p. 104.
108
Ibid.
LAPOTRE Raphalle | DCB | Mmoire d'tude | dcembre 2014
42
Les donnes, un atout pour la gestion d'une bibliothque ?

Figure 3 : Rapports statistiques de l'outil Cognos au SC2 de Grenoble

Mais ces donnes quantitatives constituant des indicateurs qui, comme le souligne
Nadine Delcarmine, ne sont certes que des points de repres qui doivent
imprativement tre resitus dans le contexte au moment de l'analyse 109, suffisent-elles
informer sur l'tat de la bibliothque et sur son fonctionnement ? C'est la question que
se pose Jamene Brooks-Kieffer, auteur d'un article sur la prilleuse artificialit des
donnes des bibliothques :
Les manires traditionnelles avec lesquelles les bibliothcaires rassemblent et
traitent les donnes vont rarement jusqu' l'emploi des techniques d'analyse, de
traitement, ou d'exploration qui serait considres comme une ncessit dans toute
autre profession aussi riches en donnes que la ntre. De telles techniques ne sont
pas aises employer mais elles produisent des rsultats remarquablement infor -
matifs, si ce n'est parfois inconfortables. Mais la place, nous prfrons n'avoir af -
faire qu' la signification superficielle et rassurante de nos donnes, nous reposant
sur une prdominance des variables quantitatives et les conclusions simples et
arithmtiques que nous pouvons en retirer. Ces conclusions sont rassurantes car
elle ne mnent que rarement des rsultats inattendus 110.
Ibid. p. 103.
109

BROOKS-KIEFFER, Jamene. Yielding to persuasion : Library Data's Hazardous Surfaces dans ORCUTT, Darby,
110

2010. Library Data: Empowering Practice and Persuasion . ABC-CLIO. The traditional ways in which librarians gather and
process data often stop short of the analysis, processing, or mining techniques that could be considered a necessity in any other
profession as data-rich as ours. Such techniques are not easy to employ but they produce remarkably informative, if at times
uncomfortable results. Instead, we prefer to deal with the surface, safe meaning of our data, relying on a predominance of
quantitative variables and the simple, arithmetic conclusions we can draw from them. Those conclusions are safe because they
seldom yield to unexpected results . p. 3.
LAPOTRE Raphalle | DCB | Mmoire d'tude | dcembre 2014 - 43 -
Droits dauteur rservs. OU
Jamene Brooks-Kieffer fait donc un constat assez dur, celui que les
bibliothcaires et professionnels de la documentations, pourtant si dsireux de
piloter leur action par l'usage des donnes, ne savent cependant pas les analyser de
manire approfondie et se contentent souvent de chiffres et de simples oprations
arithmtiques (pourcentages, minimum, maximum, moyennes, etc...) pour informer
leur dcision. Mais comment pourrait-on s'attendre ce qu'il en soit autrement,
continue-t-elle, alors que les agences nationales amricaines elles-mmes
dsignent sous le terme de statistiques une collection de donnes
quantitatives portant sur un sujet particulier :
Lorsque les agences nationales elles-mmes envoient ce message aux bi-
bliothques amricaines que les seules statistiques significatives sont des col -
lections de donnes numriques et de simple calculs effectus sur ces don -
nes, devrait-on s'attendre ce que les bibliothques elles-mmes pensent ou
agissent de manire diffrente 111 ?
Il nous semble d'ailleurs que ce constat portant sur l'environnement
institutionnel des bibliothques amricaines s'applique aussi bien celui des
bibliothques franaises, l'observatoire de la lecture publique tant dcrit par
Valrie Alonzo comme un rservoir statistiques () d'une grande richesse (dans
la limite de la compltude et de l'exactitude des rponses apportes aux enqutes)
permettant d'exploiter les statistiques de faon synthtiques (calcul de ratios, de
valeurs moyenne ou mdiane) () 112.
Cependant, quelle mthode d'analyse Jamene Brooks-Kieffer propose-t-elle
la place des traditionnelles donnes quantitatives et des indicateurs qui tiennent
lieu pour nous de statistiques ? Pour rpondre cette question, l'auteur
commence par opposer la macro-valuation, dont l'objet est de s'intresser ce
qu'un ensemble de variables peut dire d'un organisme, la micro-valuation qui se
concentre elle sur la manire dont ce jeu de variables est affect par d'autres
ensemble de variables 113. Pour illustrer ce propos, Brooks-Kieffer prend
l'exemple d'une situation particulire, celle o un directeur d'une bibliothque
universitaire cherche savoir dans quelle mesure les services de prt rpondent
aux besoins en documentation des usagers distants de la bibliothque. Pour
rpondre cette question, une macro-valuation se pencherait sur un indicateur
possible de performance, savoir le nombre total de documents emprunts,
distribu en fonction des codes postaux des usagers. Nous ne sommes donc gure
loin des indicateurs construit dans le cadre de la LOLF, o par exemple l'addition
du nombre de prts, du nombre de documents tlchargs, du nombre de
documents communiqus sur place et du nombre de prts PEB doivent renseigner
sur l'usage des collections et imprimes et numriques de la bibliothque.
Mais l'analyse ne doit pas s'arrter l, crit Brooks-Kieffer :
Pour dterminer, par exemple, pourquoi les usagers distants empruntent des
documents un taux de 75% infrieur celui des usagers locaux, nous avons
besoin de conduire une micro-valuation. Nous pouvons rassembler d'autres
donnes quantitatives et qualitatives provenant du SIGB et des usagers dis -
tants eux-mmes afin d'tendre notre analyse de dpart. La pratique de la mi -
cro-valuation exige que nous examinions aussi d'autres enjeux qui ont un ef -
111
Ibid. When national agencies send the message to U.S. Libraries that meaningful statistics are collections of
numeric data and simple calculations performed on that data, should we expect libraries themselves to think or act any
differently ? p. 7.
112
ALONZO, RENARD. 2012. p. 107-108.
113
ORCUTT, 2010. Where macroevaluation is concerned with what a set of variables says about an
organization, microevaluation addresses how that set of variables is impacted by other sets of variables and why the
organization behaves as it does under the influence of these variables . p. 10.
LAPOTRE Raphalle | DCB | Mmoire d'tude | dcembre 2014
44
Les donnes, un atout pour la gestion d'une bibliothque ?

fet sur les interactions des usagers distants avec la bibliothque : les politiques
mises en place au sein de l'tablissement, les contraintes horaires, les contenus des
cours, etc. S'il est vrai que cela complique beaucoup l'analyse, la micro-valuation
fournit une rponse plus complte nos questions en tentant de prendre en consi -
dration des facteurs situs en dehors de la porte initiale des donnes 114.
Mesurer par le biais d'autres jeux de donnes l'impact de certains facteurs sur les
indicateurs observs, c'est donc le but de la micro-valuation. Nous pourrions nous
pencher maintenant sur quelques exemples qui illustrent peut-tre davantage les ides
dveloppes par Jamene Brooks-Kieffer.

Quelques exemples innovants d'analyse des donnes en bibliothque.


Un premier exemple qui, nos yeux, illustre une plus grande souplesse et une plus
grande profondeur d'valuation que nos traditionnels tableaux de pilotage, nous semble
tre une tude conduite en 2013 la bibliothque de la facult du New Jersey 115. Cette
tude a attir notre attention pour trois raisons qui sont intrinsquement lies ses
qualits mthodologiques.
En premier lieu, il ne s'agissait pas d'une tude visant simplement produire des
connaissances sur la bibliothque, mais bien valuer l'activit d'un tablissement dans
le but d'influer directement sa gestion : en l'occurrence, il s'agissait de mesurer la
pertinence des acquisitions les plus rcentes de la bibliothque pour ensuite influer sur la
politique documentaire de l'tablissement 116. Deuximement, les auteurs ont choisi pour
rpondre leur objectif d'interroger la corrlation de trois variables diffrentes : les
acquisitions rcentes, les circulations rcentes, et les demandes de prt entre
bibliothques galement rcentes. cela s'ajoute la volont de choisir une chelle
restreinte en divisant les variables par groupes de lecteurs 117.
Enfin, l'intrt principal de ce travail rside sans doute nos yeux dans le fait que
les auteurs on voulu rflchir, du dbut jusqu' la fin de leur tude, sur les rapports
qu'entretenaient les variables choisies pour remplir leur objectif d'valuation avec la
ralit qu'elles taient censes reprsenter :
Ce faisant, l'tude nous a conduit envisager de quelle manire les donnes pou -
vaient nous aider dfinir et rpondre aux questions fondamentales du dvelop -
pement des collections : slectionnons-nous ce dont les usagers ont besoin ? Les
donnes d'usages peuvent-elles nous aider cerner ces besoins ? Avons-nous suffi-
samment rendu service la fois notre facult et nos tudiants ? Les demandent
de PEB reprsentent-elles des failles dans les collections ou bien des dsirs des
usagers qui iraient au-del de la porte de nos politiques documentaires actuelles ?

114
Ibid. To determine, for instance, why patrons check out items at a rate 75 percent less than that of local patrons, we
need to conduct a micro-valuation. We can gather other quantitative and qualitative data from the ILS and from distance patrons
themselve to expand our original analysis. The pratcice of micro-evaluation requires that we also examine other issues that affect
distant patron's interactions with the library : library policies, scheduling constraints, course content, and so forth. While
complicatin the analysis a great deal, micro-evaluation provides amore complete answer to our question by attempting to
consider factors outside the data's scope . p.11.
115
E.LINK, Forrest, TOSAKA, Yuji, WENG, Cathy. Mining and Analyzing Circulation and ILL Data for Informed
Collection Devlopment. Preprint paratre dans College & Research Libraries, 2015. Microsoft Word - Link-Tosaka-
Weng.docx - crl14-632.full.pdf, [sans date]. [en ligne]. [Consult le 8 dcembre 2014]. Disponible ladresse :
http://crl.acrl.org/content/early/2014/10/20/crl14-632.full.pdf
116
Ibid. By conducting similar evidence-based evaluation of library use patterns, we believe that academic libraries
should be able to create effective feedback mechanisms to monitor and inform their collection development practices to better
meet the changing needs of their user populations .
117
Ibid. () relationships among recent acquisitions, circulation, and ILL borrowings data need to be examined more
carefully to determine subject strengths and weaknesses in relation to the total user demand for library materials. Moreover ,
because academic libraries serve different user populations (e.g., undergraduate, graduate students, faculty), it is also essential
that effort be made to disaggregate allt hese data sets and analyse them on a smaller scale to examine the effectiveness of
collection development activities for different user categories .
LAPOTRE Raphalle | DCB | Mmoire d'tude | dcembre 2014 - 45 -
Droits dauteur rservs. OU
En contribuant fournir des aperus nouveaux sur ces questions, l'objectif fi-
nal de cette tude tait de renouveler le dialogue entre les acqureurs et les
usagers et redonner de l'nergie la conception du dveloppement des collec -
tions de la bibliothques 118.
D'une certaine manire, les auteurs de l'tude semblent admettre que les
variables qu'ils ont choisies, savoir le trio usage = satisfaction des besoins, PEB
= insatisfaction des besoins, satisfaction des besoins = efficacit des politiques
d'acquisition, ont un caractre entirement construit et chouent sans doute pour
une grande part rendre compte du bon fonctionnement ou non de la politique
documentaire de l'tablissement. Mais ils reconnaissent en mme temps que le
grand mrite de cette rflexion mene en continu est d'avoir su rtablir un dialogue
entre les acqureurs et leur public, ce qui, d'une certaine manire, constitue peut-
tre un rsultat plus intressant que l'valuation des collections en elle-mme.
L'exemple de la bibliothque de la facult du New Jersey est cependant un
exemple d'valuation ponctuelle des activits de l'tablissement. Si l'on voulait
examiner un dispositif d'valuation systmatique, l'exemple le plus accompli est
sans doute celui de la ferme de donnes de la bibliothque universitaire de
Pennsylvanie 119. Ce projet de ferme est en effet n de la frustration prouve
par les bibliothcaires chaque fois qu'ils tentaient de dceler de manire
significative les comportements des usagers de leur bibliothque partir du flot de
donnes d'usage des ressources lectroniques dont ils disposaient. Ne contenant
initialement que des donnes de log, la ferme a finit par s'tendre toute sorte
d'autres donnes provenant de sources multiples, l'aspect le plus intressant de ce
gigantesque entrept rsidant sans doute dans un outil sur mesure de publication de
rapports permettant d'aller au-del des simples rapports sommaires que l'on peut
observer, par exemple sur l'outil Cognos.
Prenons ainsi l'exemple d'une enqute annuelle mene dans la bibliothque
universitaire, intitule Qui pose des questions et o 120 ? :
Durant quatre cycles par an, d'une dure d'une semaine chacun, la biblio -
thque collecte des donnes sur diverses sortes de questions poses des
points de services ou des bureaux de bibliothcaire. En mme temps que les
questions, nous comptons galement le nombre de documents emprunts et
rangs, de mme que le nombre de sorties de nos diffrents sites sur le cam -
pus. Nous avons remarqu que ces donnes sont corrles de manire trs si -
gnificative, et le renouvellement annuel des comptes permet d'observer rgu -
lirement les relations qui existent entre elles. Ces donnes sont utilises
pour donner des estimations, comme par exemple la frquence des usages sur
place des collections. Mieux, les comptes nous permettent d'valuer la distri -
bution, la variation et les changements dans les services de rfrence disper -
ses dans les communauts que nous desservons et leur bibliothque 121.
118
Ibid. In so doing, the study has led us to consider how usage data could help define and answer the
fundamental questions of collection development : are we collecting what our user need ? Can usage data help us
pinpoint these needs ? Have we sufficiently served both our faculty and students ? Do ILL requests represent collections
failures or user wants beyond the scope of current collection policies ? By helping to provide fresh insights into these
questions, the ultimate goal of this study was to refresh the dialogue between selectors and users and to re-energize
library colection development thinking .
119
Penn Library Data Farm, [sans date]. [en ligne]. [Consult le 13 mai 2014]. Disponible ladresse :
http://datafarm.library.upenn.edu/
120
Penn Library - Graduate Student Workshops, [sans date]. [en ligne]. [Consult le 16 aot 2014]. Disponible
ladresse : http://datafarm.library.upenn.edu/desksurvey/index.html
121
Ibid. In four, week-long cycles each year, the Library collects data on various kinds of questions asked at
service points and librarian offices. Along with questions, we count the number of items circulated and reshelved, as well
as the number of exits from our campus locations. We have found that these data are highly correlated, and the annual
renewal of counts helps to monitor the relationships between them. These data are used to estimate outputs, such as the
LAPOTRE Raphalle | DCB | Mmoire d'tude | dcembre 2014
46
Les donnes, un atout pour la gestion d'une bibliothque ?

Voil donc, ce qu'il nous semble, un exemple approfondi d'valuation : par un


dispositif de collecte systmatique de jeux de donnes htrognes, la ferme des donnes
permet de corrler plus facilement des variables de natures assez diffrentes, et peut-tre
un niveau de prcision plus fin que ce qui est actuellement permis par les outils utiliss
aujourd'hui en bibliothque.

Penser les donnes des bibliothques non comme des indicateurs mais
comme des symboles de son activit
Dans son article sur la dangereuse superficialit des donnes des
bibliothques 122, Jamene Brooks-Kieffer tire une conclusion qu'il nous a paru
intressant de souligner :
() L'expression la mode de prise de dcision fonde sur les donnes fait
faussement croire de nombreux bibliothcaire qu'ils agissent correctement en
fondant leur dcisions sur la quantit d'une chose ou le pourcentage de telle autre
chose. () La prise de dcision fonde sur les donnes est une approche simpliste
d'un problme complexe. Elle contourne toutes les formes les plus basiques d'ana -
lyse des donnes et ignore la possibilit que les dcisions devraient prendre en
considration des facteurs autres que des donnes quantitatives 123.

Il nous semble que ce que l'auteur critique principalement n'est pas tant l'utilisation
de variables quantitatives pour informer les dcisions concernant la bibliothque que la
trop grande confiance accorde ces variables, du fait de la volont de certitude qui
sous-tend le pilotage d'un tablissement. Or, peut-tre serait-il ncessaire que toute
personne amene travailler avec les donnes des bibliothques prenne conscience de ce
que sont par nature les donnes : non des reflets du rel mais davantage des fragments de
ce dernier dont le sens, jamais fixe ni certain, est sans cesse construire.
Peut-tre serait-il opportun, pour saisir ce caractre instable et faussement
miroitant des donnes, de rapprocher ces dernires du statut des archives aux yeux de
l'historien, notamment tel que l'expose Arlette Farge. Celle-ci dcrit en effet la
surveillance policire du Paris du XVIII e sicle : par un dispositif pyramidal de
mouches , le pouvoir monarchique a cherch se tenir inform au plus prs de
l'opinion parisienne, notamment dans le but de prvenir d'ventuels soulvements...
Mais lire ces paroles captes, comme la NSA capte aujourd'hui les donnes des
tlcommunications, on ne peut s'empcher de sentir toute la vanit de cet effort de
surveillance. Jamais en effet la rue n'a pu tre entirement saisie par le pouvoir royal,
pour la simple raison que le systme de surveillance masquait, par son dispositif mme,
la ralit des comportements quotidiens des administrs : les formes mmes de
l'organisation policire sont construites autour de cette ncessit quotidienne de tout
savoir et tout entendre, et le classement des archives du lieutenant gnral traduit cette
proccupation forcene pour le dtail et le got de chaparder sans vergogne les paroles
prononces au hasard des conversation publiques 124.

frequency of in-house collection use. More important, the counts allow us to assess the distribution, variation, and change in
reference services across the communities we serve and their libraries .
122
ORCUTT. 2010.
123
Ibid. First, the faddish phrase ''data-driven decision-making'' misleads many librarians into believing that they are
acting correctly by basing their decisions on how many of something or what percentage it is of some other thing. Yes, these are
decisions based on data analysis, but I hope that I have shown that relying solely on such a minimal form of data analysis ofr
organizational assessment is like trying to decode the human genome with a pocket calculator. Data-driven decision-making is a
simplistic approach to a complex problem. It often bypasses all but the most basic forms of data analysis and ignores the
possibility that decisions should consider factors other than quantitative data. In Lancaster's usage, this is decisions-making
based solely on macroevaluation . p. 12.
124
FARGE, Arlette., 1997. Le Gout de larchive. [Paris] : Seuil. p. 126.
LAPOTRE Raphalle | DCB | Mmoire d'tude | dcembre 2014 - 47 -
Droits dauteur rservs. OU
Ainsi ne nous a-t-il pas paru primordial de traiter la question de l'enjeu
d'atteinte la vie prive que comporterait le Big Data. Les donnes, au mme titre
que les archives, ne permettent pas rellement de saisir la ralit des individus, et
encore moins la ralit d'une bibliothque :
L'archive ptrifie ces moments au hasard et dans le dsordre ; chaque fois,
celui qui la lit, la touche ou la dcouvre est d'abord provoqu par un effet de
certitude. La parole dite, l'objet trouv, la trace laisse deviennent figures du
rel. Comme si la preuve de ce que fut le pass tait enfin l, dfinitive et
proche. Comme si, en dpliant l'archive, on avait obtenu le privilge de 'tou -
cher le rel'. Ds lors, pourquoi discourir, fournir de nouveaux mots pour ex -
pliquer ce qui tout simplement gt dj sur les feuilles ou entre elles 125.
Dans une certaine mesure, les donnes se comportent de la mme manire
que les archives, donnant une premire impression de rel qui tendrait
disqualifier le travail de l'historien : si les donnes parlent d'elles-mmes, quoi
bon les faire parler ? De fait, s'il est une chose que la lecture attentive des archives,
notamment judiciaires, nous apprend, c'est que le discours capt des justiciables est
un discours construit pour la circonstance, et fonction des stratgies individuelles
de chacune des parties, qu'il s'agisse de plaignants, de dfendeurs ou des juges. Or,
il ne nous semble pas que les donnes soient d'une nature fondamentalement
diffrente puisque galement dpendantes des circonstances et du contexte qui les
ont vu natre : les donnes de circulation, d'acquisition, de frquentation, etc., ne
sont-elles pas construites elles aussi dans le contexte bien particulier de l'activit
d'un tablissement et non dans le but de rendre compte de cette dernire ? De ce
fait, l'ide de faire parler les donnes ne serait pas autre chose que d'essayer de
penser l'invention d'un langage qui s'adapte elles, et qui, si l'on voulait reprendre
les mots d'Alain Corbin, autorise une qute en profondeur sans que le chercheur
prtende [en] puiser le sens 126 . Pour l'heure, la visualisation est sans doute le
langage qui le mieux, cherche apprhender le caractre social et construit des
donnes. Mais il n'est pas dit qu'il soit impossible l'avenir d'intgrer cet aspect
dans d'autres langages, tels que les algorithmes et l'apprentissage automatique.
Par ailleurs, cette rflexion autour du langage des donnes impliquerait
ncessairement cette autre ide sous-jacente selon laquelle faire parler les donnes
pose la question du rel et de ses reprsentations. Par l, il devient pertinent
d'interroger la notion d'indicateur, notamment dans le contexte de la gestion d'une
bibliothque. En effet, si, comme l'affirme wikipdia, l'utilit d'un indicateur
dpend d'abord de sa capacit reflter la ralit 127, peut-tre serait-il plus
honnte de lui prfrer la notion de symbole, telle que dcrite par Paul Tillich 128 :
la fois reprsentations conventionnelles d'une ralit et lments participatifs de la
ralit qu'elles dsignent, le travail sur les donnes permet d'ouvrir des niveau de
connaissance et de ralit qui autrement resteraient inaccessibles. Plus
concrtement, travailler sur des variables qui seraient dsignes comme
symboliques plutt qu'indicatives de la bibliothque et de son activit permet de ne
pas verrouiller leur signification qui resterait ainsi construire de manire
collective par les professionnels de l'tablissement qui les a produit.

125
Ibid. p. 18.
126
ALAIN, Corbin, 1991. Arlette Farge, Le got de larchive . Annales. conomies, Socits, Civilisations.
1991. Vol. 46, n 3, p. 595-597.
127
Indicateur, 2014. Wikipdia [en ligne]. [Consult le 9 novembre 2014]. Disponible ladresse :
http://fr.wikipedia.org/w/index.php?title=Indicateur&oldid=106207898 . Page Version ID: 106207898
128
TILLICH, Paul et GOUNELLE, Andr, 2012. Dynamique de la foi. Geneve; Qubec; [Paris] : Ed. Labor et
fides; les Presses de lUniversit Laval; [diff. les Ed. du Cerf]. p. 47.
LAPOTRE Raphalle | DCB | Mmoire d'tude | dcembre 2014
48
Les donnes, un atout pour la gestion d'une bibliothque ?

Par leur nature ontologique, les mtadonnes participent pleinement de ce


caractre symbolique : l'essai intitul The life and death of data 129 cherche prcisment
mettre en lumire l'instabilit essentielle des mtadonnes. Ainsi, de mme que les
symboles vivent et meurent avec les communauts qui les ont crs, de mme les
mtadonnes vivent et meurent avec les contextes sociaux et culturels qui les ont vu
natre. De ce fait, il nous semble que c'est bien reconnatre le caractre symbolique des
donnes que de proposer de privilgier la visualisation comme moyen d'accder aux
connaissances : l'apprentissage d'un tel langage reste aujourd'hui inventer et mettre
en place pour les professionnels des bibliothques.

DST4L : UN EXEMPLE DE FORMATION SPCIALEMENT CONUE POUR DES


BIBLIOTHCAIRES.

La DST4L (Data Scientist Training for Librarian) est une formation l'analyse des
donnes spcifiquement destine aux bibliothcaires. Elle a t mise en place au sein du
Harvard-Smithsonian Center for Astrophysics par Christopher Erdmann, directeur de la
John G. Wolbach library. Nous nous proposons ici d'en dcrire les caractristiques
principales avant d'tudier les projets mis en place en son sein, notamment ceux
impliquant la visualisation des donnes.

Contexte et objectifs de la formation


Dans la prsentation qu'il fait de sa formation 130, Christopher Erdmann insiste en
premier lieu sur l'environnement institutionnel dans lequel volue sa bibliothque
savoir, d'une part, la communaut d'astronomes que celle-ci dessert et, d'autre part, la
base bibliographique de la NASA, Astrophysics Data System (ADS). Cet environnement
institutionnel met en vidence la spcificit des bibliothcaires de la Wolbach library,
dont le rle est de faciliter la rutilisation des donnes produites par l'activit de
recherche astronomique :
Beaucoup de ce que nous, bibliothcaires, faisons, permet de faciliter la re -
cherche et la dcouverte d'objets dans l'ADS, mais ce qui est plus important, c'est
que nous gnrons un grand nombre de liens vers les donnes que les astronomes
utilisent de manire quotidienne. Cette activit de gestion permet galement de me -
surer les performances des tlescopes et instruments. Je pense que ce genre d'acti -
vit est une condition fondamentale pour centrer une bibliothque sur les don -
nes 131.
D'une certaine manire, nous pourrions dire que les bibliothques d'astronomies
disposent d'une relative avance dans la mise en place de service de gestion et d'ouverture
des donnes de la recherche, comme en tmoigne l'exemple franais du centre des
donnes de Strasbourg, cit par Rmi Gaillard dans son mmoire sur l'Open research
data 132. Or, la mise en place de ces services au sein des bibliothques de recherche
ncessite une formation adquate des bibliothcaires, afin de pouvoir se plonger dans
les donnes, manipuler le cycle de vie de la donne de recherche et se frotter au milieu

129
The Life and Death of Data, [sans date]. op. cit.
130
ERDMANN, Christopher, 2014. Teaching librarians to be data scientists. Information outlook [en ligne]. mai-juin
2014. Vol. 18, n 3. [Consult le 17 aot 2014]. DOI 10.5281/zenodo.11217. Disponible ladresse :
https://zenodo.org/record/11217/files/DataScientistTraining.pdf
131
Ibid. Much of what we librarians do helps facilitate search and discovery in the ADS, but more importantly, we
generate many of the data links that astronomers use on a daily basis. This curation activity also supports analyses of how
telescopes and instrumentation are performing. I believe this type of work forms the back-drop of the data-centric library . p.
21.
132
GAILLARD. 2013. p. 71.
LAPOTRE Raphalle | DCB | Mmoire d'tude | dcembre 2014 - 49 -
Droits dauteur rservs. OU
de la ''science des donnes'' 133. Pour pouvoir dvelopper l'Open Research Data
dans les bibliothques universitaires, il faut donc d'abord envisager des
programmes de formation innovants, tels qu'Immersive Informatics, un
programme pilote anglo-australien labor par les universit de Melbourne et de
Bath dont le but est d'apprendre des bibliothcaires grer un jeu des donnes
en vue de sa conservation et de sa diffusion future 134.
En voquant ce contexte d'ouverture des donnes de la recherche, nous
souhaitons souligner que la formation des bibliothcaires l'analyse des donnes,
dont nous avons dmontr plus haut l'intrt pour l'valuation et la gestion des
bibliothques, s'inscrit dans un mouvement plus global, allant des sciences sociales
aux sciences dures en passant par les Humanits Numriques. L'une des
consquences d'un tel mouvement pourrait tre d'ouvrir la profession sur la gestion
des donnes et les connaissances scientifiques qui l'accompagne. La formation des
professionnels la gestion et l'analyse des donnes pourrait donc bnficier du
mouvement d'ouverture des donnes de la recherche. Bien sr, on pourrait objecter
cela que ce mouvement ne concernerait que les professionnels appels travailler
dans des bibliothques de recherche. Mais en ralit, nous pourrions dire avec
Lynda Kellam et Katharyn Peter que ce mouvement touche tous les types de
publics et, avec eux, tous les types de bibliothque. Il y a en effet deux facteurs a
prendre en considration aujourd'hui : d'une part le fait qu'Internet a rendu l'accs
et la circulation de jeux de donnes plus aiss et, d'autre part, l'essor de l'utilisation
d'outils abordables tels que les tableurs Excel. Ces deux facteurs participent de fait
crer une culture du nombre de plus en plus accessible et partage que les
bibliothques, mmes publiques, pourraient tre amenes prendre en compte :
Avec ces changements dans l'accs aux donnes numriques, les biblioth -
caires ont pris une place centrale dans l'aide aux usagers. Notre activit prin -
cipale a peut-tre t le mot crit mais la monte des formats et des fichiers
numriques a fait merger un rle nouveau pour la bibliothque, un rle qui
soutient l'information sous toutes ses formes depuis le mot crit, jusqu'
l'image numrique, en passant par l'chantillon circulant en streaming et le fi -
chier de donnes quantitatives. () Il se peut que les usagers n'associent pas
immdiatement les ressources quantitatives la bibliothque mais de plus en
plus de bibliothques et de bibliothcaires sont appels acheter, communi -
quer et archiver ces ressources 135.
La donne est donc susceptible d'intresser tout type de public et c'est bien
ce titre que Kellam et Peter en appellent la formation de donnethcaires
(data librarians) dont le rle serait de slectionner, rendre disponible et promouvoir
des jeux de donnes 136. Ds lors, la difficult rside dans le fait qu' quelques
expressions prs, les bibliothcaires sont traditionnellement peu forms dans le
domaine des statistiques et de la gestion informatise des donnes.
L'objectif de la DST4L, nanmoins, consiste essentiellement permettre aux
bibliothcaires de nettoyer et rendre visible les jeux de donnes afin d'en faciliter
la dcouverte, et non spcifiquement de former l'analyse des donnes : en ralit,
133
ERDMANN. 2014. p. 21.
134
GAILLARD, 2013. p. 72.
135
KELLAM, PETER, 2011. With these changes in the access to numeric data, librarians have become central
participants in assisting users. Our traditional focus may have been on the written word, but the rise in digital formats
and files has carved out a new rle for the library, one that supports information in all its forms from the written word,
to the digital image, the streaming media sample, and the numeric data file. Moreover, our promotion of information
literacy and emphasis on information-literate users means we need to pay attention to all types of information sources,
even the non-textual. Users may not immediately associate numeric data sources with the library, but inreasingly
libraries and librarians are being called upon to purchase, support and archive these sources . p. 2.
136
Pour la dfinition d'un jeu de donnes, Cf introduction de cette tude, p. 13, note n7.
LAPOTRE Raphalle | DCB | Mmoire d'tude | dcembre 2014
50
Les donnes, un atout pour la gestion d'une bibliothque ?

il s'agit essentiellement d'allger le travail des data scientists en effectuant toutes les
tches qui se situent en amont de l'analyse et qui occupent cependant 80% de leur temps.
Pour autant, l'analyse et la visualisation des donnes constituent une grande partie du
programme de la formation 137, puisqu'on peut y observer que pas moins de sept sances
sur quinze sont consacres aux statistiques, la programmation et la visualisation des
donnes. Et nous aimerions souligner qu'en dfinitive, Christopher Erdmann insiste
moins sur l'apport des bibliothcaires ainsi forms la communaut qu'ils desservent
que sur ce que cette formation leur a permis de faire afin d'amliorer les services de leur
tablissement :
Un autre objectif de la DST4L tait de renouveler les comptences des biblioth -
caires, et beaucoup de participants utilisent dsormais leurs nouvelles capacits.
Par exemple, Veronica Downey a automatis certaines tches de la bibliothque en
utilisant Python, Alex Holachek aide l'ADS amliorer ses outils de visualisation
et Katie Frey cherche introduire les technologies smantiques en astronomie 138.
Mais s'il est vrai que ce type de formation s'avre ncessaire, est-il raliste et
faisable de former des bibliothcaires la programmation et de leur faire acqurir une
expertise en analyse des donnes ?

Comment dompter les donnes bibliographiques 139 ?


Au sein de la formation mise en place par Christopher Erdmann, certains
participants ont t associs un projet dont l'objectif tait d'amliorer le
fonctionnement de certaines tches de l'ADS. Il s'agissait en effet de reprer dans
l'immense bibliothque numrique de l'Internet Archive (IA) les documents dj
possds par l'ADS et ceux qui ne l'taient pas, ce afin de complter les collections
numrique de l'ADS en pointant vers les ressources de l'Internet Archive l o celles-ci
faisaient dfaut 140. Le projet a d'abord subi quelques modifications quant ses objectifs,
du fait de l'incompatibilit des formats de donnes entre l'ADS, qui dcrit les documents
l'chelle d'un article, et l'IA, qui les dcrit l'chelle d'un titre de revue. Les
responsables du projet ont donc dcid de se contenter dans un premier temps de
retrouver des correspondances entre les donnes bibliographiques de l'IA et celle de
l'ADS seulement pour les monographies, o les formats de donnes taient peu prs
similaires.
Les membres du projet ont ensuite commenc par extraire de l'ADS les donnes
correspondant aux monographies d'astronomie dont les notices se trouvent dans la base
bibliographique de la NASA, en se contentant des donnes de titre, auteur et date de
publication. De l, ces donnes n'tant pas propres du fait du caractre composite de
l'ADS qui regroupe plusieurs institutions diffrentes, un outil gratuit en ligne,
OpenRefine, a t utilis pour reprer et corriger automatiquement les erreurs de frappe
ou de catalogage dans les donnes frachement rcupre. OpenRefine a ensuite t de
nouveau utilis pour construire des requtes sur mesure afin de fouiller les donnes de
l'Internet Archive et de retrouver celles qui correspondaient aux donnes de l'ADS, ainsi
137
DST4L Class Notes - Google Docs, [sans date]. [en ligne]. [Consult le 26 juillet 2014]. Disponible ladresse :
https://docs.google.com/document/d/1WUz4UwwRv5szcsODIwcEV7qAGNc0gjL-oDErFQ2MoBY/edit?pli=1
138
ERDMANN. 2014. p.24. Another goal of DST4L was to upgrade the skills of librarians, and many of the
participants are now using their new-found skills. For instance, Veronica Downey has automated library processes using Python,
Alex Holachek is helping the NASA ADS improve its visualization tools, and Katie Frey is implementing technologies in
astronomy .
139
Nous traduisons ici le titre des deux posts du blog de la DST4L qui nous serviront d'exemple ici : How to Beat
Bibliographic Data into Submission, pt. 1 | Data Scientist Training for Librarians, [sans date]. [en ligne].
[Consult le 7 juillet 2014]. Disponible ladresse : http://altbibl.io/dst4l/how-to-beat-bibliographic-data-into-submission-pt-1/
et How to Beat Bibliographic Data into Submission, pt. 2 | Data Scientist Training for Librarians, [sans date]. [en ligne].
[Consult le 7 juillet 2014]. Disponible ladresse : http://altbibl.io/dst4l/how-to-beat-bibliographic-data-into-submission-pt-2/
140
Ibid., pt. 1.
LAPOTRE Raphalle | DCB | Mmoire d'tude | dcembre 2014 - 51 -
Droits dauteur rservs. OU
que celles qui n'y correspondaient pas, rvlant ainsi les manques qui peuvent
exister dans les collections numriques de la NASA. Grce ce procd, les
participants ont pu construire un tableur 141 dans lequel figurent, d'une part, les
donnes rcupres de l'ADS et d'autre part celles rcupres de l'Internet Archive,
chaque ligne du tableau faisant correspondre (ou non) les donnes de l'ADS et de
l'IA. De simples tris croiss permettent ensuite de reprer les doublons et les
manques d'une collection l'autre.
Les participants au projet ont ensuite cherch visualiser la totalit des
donnes rcupres de l'Internet Archive dans le domaine de l'astronomie 142 et ont
gnr ces visualisations en fonction des questions qu'ils avaient poser leurs
donnes. Une premire visualisation sous forme de pastilles colores devait nous
renseigner, par exemple, sur les ouvrages anciens les plus tlchargs en
astronomie ; un diagramme en barre nous indiquant ensuite quelle bibliothque
d'astronomie ayant particip la collection numrique de l'Internet Archive
possde la collection la plus prcieuse. Au moyen d'une carte, les participants ont
galement choisi de reprsenter les lieux de publications les plus actifs dans le
monde, toujours dans le domaine de l'astronomie. De mme, une carte arborescente
est charge de reprsenter les ouvrages dont la numrisation a t la plus coteuse.
Enfin, un nuage de tags permet de visualiser les langues les plus courantes dans
lesquelles sont publis ces ouvrages d'astronomie, l'anglais et le franais tant les
deux langues les plus courantes.
Contrairement ce que l'on pourrait penser au vu de ces ralisations, les
techniques utilises sont accessibles des personnes qui n'ont pas ncessairement
de bagage en informatique ou en design. En effet, si l'on observe pour commencer
la manire dont les donnes ont t collectes, il faut avoir l'esprit que l'Internet
Archive a ouvert ses donnes et mis la disposition de tous un formulaire de
recherche qui permet de les rcuprer aisment 143, et il en va de mme pour
l'ADS 144, puisque la NASA, du fait de son statut d'agence gouvernementale, a t
dans l'obligation d'ouvrir ses donnes. Quant aux formats des donnes fournies par
ces sources, il s'agit de XML pour l'ADS d'une part, et de JSON pour l'IA d'autre
part, deux formats donc trs lisibles pour des ordinateurs et permettant facilement
la rutilisation des donnes, contrairement des fichiers PDF, Word et JPEG qui
peuvent tre affichs mais non lus par un ordinateur. L'absence de droit de
proprit intellectuelle sur les donnes de l'ADS et de l'IA permettent par ailleurs
de les rutiliser librement. En ce qui concerne la structuration des donnes, le
logiciel OpenRefine a galement permis de se passer de l'criture d'un code
notamment pour faire passer les donnes d'un format un autre. Par ailleurs,
OpenRefine s'avre tre un outil facile d'utilisation et utile l'apprentissage de la
programmation 145 .
De mme, l'outil de visualisation utilis, Tableau Public, est un outil prt
l'emploi plutt qu'une visualisation faite sur mesure 146 grce au code : Tableau
141
PRENTICE, Jennfer, ALSTINE, Colin Van, BENSON, Amy et FORD, Jacqueline, 2013. ADS Monograph
Matches in the Internet Archive (Excel) [en ligne]. juin 2013. [Consult le 19 aot 2014]. Disponible ladresse :
http://figshare.com/articles/ADS_Monograph_Matches_in_the_Internet_Archive/710921
142
How to Beat Bibliographic Data into Submission, pt. 2.
143
Internet Archive Search Engine. [Sans date]. Consult le 19 aot 2014. Disponible l'adresse Web :
http://archive.org/advancedsearch.php#raw.
144
SAO/NASA ADS Custom Query Form, [sans date]. [en ligne]. [Consult le 19 aot 2014]. Disponible
ladresse : http://adsabs.harvard.edu/abstract_service.html
145
ERDMANN, 2014. OpenRefine is a helpful stepping stone to the more advanced training in Python. The
OpenRefine interface allows you to run simple funcions and regular expressions while hiding some of the complexities
of programming. It also allows you to perform some data analysis . p. 23.
146
Cette distinction que nous faisons entre visualisation prte l'emploi et sur mesure provient de
l'ouvrage de Nathan Yau : Certains logiciels, de type glisser-dplacer, sont prts l'emploi. D'autres ncessitent un peu
de programmation. Cependant, il existe aussi des outils qui n'ont pas t conus spcifiquement pour les graphiques de
LAPOTRE Raphalle | DCB | Mmoire d'tude | dcembre 2014
52
Les donnes, un atout pour la gestion d'une bibliothque ?

permet en effet de charger les donnes sur son serveur puis de crer un affichage
interactif des donnes et de publier ce dernier sur un site web ou un blog, comme l'ont
fait les apprentis donnethcaires de la DST4L. Le fait que ce logiciel ne require
pas de connaissances en programmation est mentionn parmi les raisons invoques pour
justifier son emploi 147.
On peut donc constater que ce travail effectu partir des donnes, s'il n'est pas
sans difficult, reste la porte des comptences d'un bibliothcaire. Par ailleurs,
l'emploi de ces outils permet galement l'apprentissage de langages de programmation
qui peuvent permettre de ne pas se contenter d'une simple comparaison entre deux
collections : on aura not en effet que le travail prsent sur ce blog ne tmoigne pas
d'analyses statistiques trs pousses, mais constitue une premire tape vers ces
dernires. Les visualisations prsentes sont nanmoins dj fort utiles pour leur qualits
communicationnelles.

L'APPORT DE LA VISUALISATION POUR LA COMMUNICATION.


Dans son mmoire sur les relations entre le directeur de la bibliothque et ses
tutelles administratives et politiques 148, Marie Baudire explique notamment que les
donnes des bibliothques sont au cur de la communication du bibliothcaire en
direction de son lu :
Les directeurs de bibliothque cherchent donc comment prsenter leurs lus
l'activit de la bibliothque. Tous attribuent au bilan annuel cette fonction : les
donnes statistiques qui y figurent, les analyses sur la politique documentaire, la
programmation culturelle, l'avance des projets leur semblent mme de donner
l'lu une image relle du fonctionnement de la mdiathque. () Un autre [conser -
vateur] le conoit comme un outil de dcouverte de la bibliothque pour l'lu : ''Il
faut arriver faire dcouvrir des choses aux lus. Les dcideurs ne connaissent pas
les mtiers prcis, ils ont une ide sur la bibliothque mais il faut arriver leur
faire comprendre l'activit avec des donnes chiffres. Attention, il faut choisir les
informations les plus frappantes, les bons chiffres.'' Pourtant, la plupart des direc -
teurs reconnat que le bilan annuel est gnralement un document trop complet,
trop complexe que l'lu ne lit pas 149.
Un double constat semble donc merger de cette tude : d'une part, celui de
l'efficacit des donnes pour expliquer l'lu l'activit du service de lecture publique de
sa collectivit et, d'autre part, celui de la trop grande complexit des bilans annuels o
sont habituellement prsentes les donnes statistiques qui concernent la bibliothque.
Or, la visualisation des donnes possde un certain nombre de qualits intrinsques qui
permettent de prsenter de manire plus efficace l'information. Les bibliothcaires
amricains l'ont bien compris, eux qui ont multipli les posts de blogs s'appuyant sur la
visualisation. Citons le blog de l'OCLC, hanging together, sur la question des PEB par
exemple 150, ou encore celui entirement consacr la visualisation des donnes des
bibliothques publiques, intitul Visualisation des donnes des bibliothques : utiliser
donnes, mais qui se rvlent nanmoins utiles. Le prsent chapitre traite de ces diffrentes options . YAU, Nathan, 2013. Data
visualisation: De lextraction des donnes leur reprsentation graphique. Editions Eyrolles. p. 65.
147
How to Beat Bibliographic Data into Submission, pt. 2. Our group chose to work with Tableau for four main
reasons :
1) Stellar visualizations ! So pretty !
2) You can work with multiple data sources simultaneously
3) It has a large visualization toolset and suit of graphics to choose from.
4) Doesn't require a background in coding .
148
BAUDIRE, Marie, 2013. Le bibliothcaire, son lu, son directeur Marie Baudire. Bibliothque numrique de
l'Enssib. Consult le 20 aot 2014. Disponible l'adresse Web : http://www.enssib.fr/bibliotheque-numerique/documents/64142-
le-bibliothecaire-son-elu-son-directeur.pdf.
149
Ibid. p. 61.
LAPOTRE Raphalle | DCB | Mmoire d'tude | dcembre 2014 - 53 -
Droits dauteur rservs. OU
les statistiques des bibliothques publiques amricaines 151. Plus proche de nous,
le blog franais Bibliothque [reloaded] a consacr quelques pages, sous la
plume dtienne Cavali, une exprience de visualisation de donnes grce
l'outil Gephi 152 : l'auteur s'est en effet propos de cartographier le rseau
documentaire de son SCD (figure ci-dessous 153).

Figure 4 : Visualisation d'un rseau de SICD par tienne Cavalier

La visualisation des donnes connat donc un succs grandissant, notamment


dans le milieu des bibliothques. Nous nous proposons ds lors de tenter de donner
quelques lments d'explication ce succs.

Sduire...
Comme l'crit Marie Baudire dans son mmoire, pour le directeur de la
bibliothque, le principal objectif de ses contacts avec son lu est le convaincre :
Les stratgies de communication qu'il dploie pour cela sont multiples car
l'asymtrie de son rapport hirarchique avec l'lu lui impose une plus grande
crativit. () la question des stratgies de conviction, de la prise en compte
de l'interlocuteur dans la construction de l'argumentaire au management de
l'lu, se rapproche parfois de celle de la sduction ou de la manipulation. 154

150
Visualizing Network Flows: Library Inter-lending | hangingtogether.org, [sans date]. [en ligne].
[Consult le 3 juin 2014]. Disponible ladresse : http://hangingtogether.org/?p=3053
151
Library Data Visualization, [sans date]. [en ligne]. [Consult le 20 mai 2014]. Disponible ladresse :
http://librarydatavisual.blogspot.fr/
152
CAVALI, Etienne, [sans date]. Mais que fait Gephi? Bibliothques [reloaded] [en ligne].
[Consult le 17 juillet 2014]. Disponible ladresse : http://bibliotheques.wordpress.com/2014/07/03/mais-que-fait-
gephi/
153
grapheprc3aats.png (Image PNG, 1024 1024 pixels) [sans date]. [en ligne]. [Consult le 20 aot 2014].
Disponible ladresse : https://bibliotheques.files.wordpress.com/2014/07/grapheprc3aats.png.
154
BAUDIERE. 2014. p. 53-54.
LAPOTRE Raphalle | DCB | Mmoire d'tude | dcembre 2014
54
Les donnes, un atout pour la gestion d'une bibliothque ?

On voit ici que la communication du bibliothcaire en direction de son lu


ncessite une certaine crativit de sa part afin d'en appeler aux sentiments de son
interlocuteur. Or, selon Nathan Yau, la visualisation rpond tout fait ces critres 155 :
en effet, bien loin de prsenter un simple rsum de donnes quantitatives, la
visualisation fait appel au design. Les qualits esthtiques qu'elle met en uvre doivent
permettre de susciter une raction, positive ou ngative, de la part de l'observateur. Pour
illustrer cette ide, Nathan Yau prend l'exemple de la visualisation intitule We Feel
Fine, de Jonathan Harris, qui doit permettre d'explorer les motions humaines l'chelle
mondiale 156. Plus proche des bibliothque, l'exemple du navigateur de thse de
Stanford, qui permet d'embrasser du regard l'volution temporelle de sujets des thses
soutenues dans cette universit (figure ci-dessous 157).

Figure 5 : Dissertation browser : l'Histoire en 1993 Stanford.

Il nous semble en effet que la disposition circulaire, arienne et colore de chaque


discipline est agrable voir. D'un clic sur l'un des points, il est possible de voir se
rapprocher ou s'loigner les autres disciplines qui lui sont attenantes, ce qui permet de se
faire assez rapidement une opinion sur l'volution d'une discipline en particulier.
L'histoire par exemple fait se rapprocher et s'loigner d'elle successivement les sciences
de l'ducation ou encore la sociologie : la taille du point tant fonction du nombre de
thses publies dans la discipline, marquant ainsi l'volution de l'intrt des tudiants
pour cette dernire 158. Voil qui permettrait, ce qu'il nous semble, d'informer
efficacement un prsident d'universit sur l'activit scientifique de son institution.

Illustrer...
La visualisation permet galement de rsumer et de donner plus de clart un
argumentaire : il s'agit clairement pour le bibliothcaire de donner son interlocuteur
une vision de son tablissement. Nous pourrions ainsi prendre l'exemple d'une tude de
cas dveloppe dans l'article d'Anne C. Elguindi et de Bill Mayer intitul Raconter
l'histoire de votre bibliothque : comment tirer le meilleur parti de vos donnes dans une

YAU, Nathan, 2013. Op.cit.


155

HARRIS, Jonathan, KAMVAR, Sep. [sans date]. We Feel Fine. [en ligne]. [Consult le 20 aot 2014]. Disponible
156

ladresse : http://wefeelfine.org/. Cf annexe p. 103, figure 19.


157
Dissertation Browser | Information, [sans date]. [en ligne]. [Consult le 23 mai 2014]. Disponible ladresse :
http://www-nlp.stanford.edu/projects/dissertations/
158
Cf annexe p. 104, figure 20 et 21.
LAPOTRE Raphalle | DCB | Mmoire d'tude | dcembre 2014 - 55 -
Droits dauteur rservs. OU
prsentation 159, pour illustrer ce propos. En effet, des trois cas mentionns de
bibliothques universitaires amricaines, c'est le premier qui nous intresse le plus,
car la visualisation y est vritablement considre selon sa dimension de
reprsentation d'un objet.
En l'occurrence, il s'agissait d'illustrer un problme d'espace dans la
bibliothque, problme qui, d'ailleurs, est plutt partag par un grand nombre de
bibliothques universitaires. Afin de pouvoir offrir davantage d'espaces de travail
aux tudiants, la direction de cette bibliothque a pris la dcision de dmnager les
revues imprimes dans un magasin distant. Il restait cependant faire accepter
cette dcision la tutelle de la bibliothque en question, ce qui passait
ncessairement par une prise de conscience de sa part de la situation de contrainte
spatiale. tant donn que la dcision de dmnager les journaux imprims taient
venue de l'analyse de quelques sources de donnes trs divergentes (), crivent
Elguindi et Mayer, il a paru prfrable d'utiliser les donnes pour en dresser un
tableau complet la communaut universitaire 160.
Afin de dresser un tableau de la situation, une premire ide peut tre de
montrer son interlocuteur des photographies des rayonnages surchargs de la
bibliothque. D'ailleurs, certains directeurs de bibliothques, d'aprs Marie
Baudire, n'hsitent pas organiser des visites de la bibliothque en direction de
leurs lus afin qu'ils puissent se faire une image de leur tablissement 161. C'est l
un moyen effectif mais qui ne prend pas en compte le fait qu'lus et directeurs
n'ont pas toujours beaucoup de temps consacrer ces visites. Il peut donc
s'avrer plus efficace de prsenter les donnes de la bibliothque visuellement. De
simples diagrammes, pour commencer, peuvent faire l'affaire : deux courbes sur un
mme graphique, tel que celui prsent par Elguindi et Mayer 162, peuvent
reprsenter le volume rel des rayons de la bibliothque d'une part et le nombre de
livres possds par l'institution d'autre part : alors que la premire variable reste
stable et n'augmente plus, la seconde augmente constamment, ce qui met bien en
vidence linluctabilit de la saturation des espaces. Un second graphique 163 met
en scne, sous la forme d'un diagramme en barres, le nombre d'tagres pleines
d'une part et le nombre total d'tagres d'autre part , la barre correspondant la
premire variable tant place l'intrieur de la seconde, ce qui, par superposition,
permet d'observer le mince cart quantitatif des deux variables : c'est l une autre
manire de reprsenter la saturation. Enfin, une dernire figure reprsente sous la
forme d'une balance l'ide que les espaces de la bibliothques consacrs
l'apprentissage empitent ncessairement sur les espaces consacrs aux
collections 164.
Ces figures sont bien sr trs simples et n'apprennent pas grand chose sur
l'objet qu'elles doivent reprsenter, mais elles constituent une premire image de
l'activit de l'tablissement et permettent d'ouvrir un dialogue entre la bibliothque
et sa tutelle.

159
ELGUINDI, Anne C., MAYER, Bill. Telling your library's story : how to make the most of your data in a
presentation dans ORCUTT, 2010. p. 26-28.
160
Ibid. As the decision to move out the bound journals had come from the analysis of some highly divergent
sources of data (shelving statistics ; usage statistics of print and online journals and monographs ; computer use
statistics ; physical plant statistics ; and an examination of what makes a library), it seemed best to use data to paint a
full picture to the university community . p. 26.
161
BAUDIERE, 2014. p. 62.
162
ELGUINDI, MAYER. 2010. Figure 3.2 p. 27.
163
Ibid. Figure 3.3. p. 27.
164
Ibid. Figure 3.4. p. 28.
LAPOTRE Raphalle | DCB | Mmoire d'tude | dcembre 2014
56
Les donnes, un atout pour la gestion d'une bibliothque ?

Synthtiser...
Dans son mmoire, Marie Baudire met l'accent sur une des proccupation des
directeurs de bibliothque en ce qui concerne leur communication en direction des lus,
savoir le fait d'aller au plus court et au plus parlant 165. Du fait de son caractre
d'immdiatet, la reprsentation visuelle rpond bien cette contrainte temporelle
inhrente la communication en direction des tutelles de la bibliothque. Qui plus est, la
visualisation des donnes a vocation, par dfinition, tre synthtique, comme l'crit
Lev Manovich, auteur d'un article intitul Qu'est-ce que la visualisation ? 166 :
L'infovis utilise des lments graphiques tels que des points, des lignes droites,
des courbes et des formes gomtriques simples afin de reprsenter les objets et
leur relations entre eux, sans tenir compte de savoir s'il s'agit de personnes, de
leurs relations sociales, des prix en bourse, des revenus nationaux, des chiffres du
chmage, ou quoi que ce soit d'autre. () Cependant, le prix payer de cette capa -
cit est une extrme schmatisation : nous rejetons 99% de la spcificit de chaque
objet pour n'en reprsenter qu'1%, dans l'espoir que ces 1% nous rvlent des ten -
dances parmi les caractristiques de ces objets 167.

Figure 6 : Essai de reprsentation gographique de


l'offre documentaire aux tats-Unis : visualisation des
bibliothques sous forme de dgrad de couleurs

L'extrme capacit de schmatisation et de simplification est donc une


caractristique propre la visualisation des donnes : une bonne visualisation en effet,
est celle qui a su liminer tout ce qui paraissait superficiel par rapport ce qu'elle
cherche montrer. En ce sens, elle est un excellent exercice de synthse. Constance
Malpas, chercheur l'OCLC, dmontre cela par les visualisations exprimentales
qu'elles labore partir des donnes de WorldCat : dans un post du blog Hanging
165
L'lment ''stratgique'' le plus rcurrent dans les rponses des directeurs de bibliothque est l'laboration de
documents synthtiques car selon sa reprsentation sociale, l'lu est toujours press, il a peu de temps disponible. Ce point fait
d'ailleurs l'objet de demandes spcifiques de la part des lus : ''Il n'y a pas vraiment de qualits requises pour les documents que
doit me remettre le directeur de bibliothque, mais lors de son entretien, il a t port attention sur le fait que les documents
doivent tre synthtiques'' . BAUDIERE, 2014. p. 54.
166
Lev Manovich What is Visualization? | Data Visualisation, [sans date]. [en ligne]. [Consult le 30 juin 2014].
Disponible ladresse : http://www.datavisualisation.org/2010/11/lev-manovich-what-is-visualization/
167
Ibid., p. 4. Ce caractre de schmatisation extrme et de rduction est bien videmment rapprocher de la rduction
opre par les algorithmes : la visualisation, au mme titre que ces derniers, est un mdia et en tant que tel, est dote des mmes
limites pistmologiques. Nanmoins, le caractre schmatique est peut-tre plus vident dans la visualisation que dans les
algorithmes, la procdure de ces derniers n'tant souvent pas connue pour des utilisateurs lambda.
LAPOTRE Raphalle | DCB | Mmoire d'tude | dcembre 2014 - 57 -
Droits dauteur rservs. OU
Together 168, elle dcrit en effet les tapes de sa recherche d'une reprsentation
visuelle adapte pour modliser l'offre et la demande l'intrieur et l'extrieur
d'un consortium de bibliothque, afin d'informer des dcisions concernant la
conservation locale et partage de collections imprimes 169.
L'information recherche n'est donc pas des plus simples. Pour autant la
visualisation cartographique permet de s'en faire une ide claire assez rapidement :
aprs avoir renonc reprsenter les bibliothques amricaines sous forme de
points 170, du fait de l'illisibilit que cela induisait, l'auteur s'est finalement rabattue
sur une carte choroplthe (figure ci-dessus 171) dans laquelle les dgrads de couleur
permettent de montrer comment la demande est distribue une chelle ''au-del
de l'institution'' , afin de comprendre le rle de la logistique dans l'optimisation
de la circulation des ressources des bibliothques 172.
Ces visualisations grande chelle, telles que celles produites par l'OCLC
partir des donnes de WorldCat sont aussi trs utiles pour comparer les
bibliothques entre elles.

Comparer...

() Tenir compte de l'image de l'lu est un des lments des stratgies d-


ployes par les directeurs de bibliothque en agissant notamment sur l'mula -
tion entre les collectivits ; un directeur de bibliothque interrog expliquait
que pour russir obtenir un budget d'investissement important pour un pro-
jet qui lui semblait prioritaire, il s'tait inform auprs du Ministre de la
Culture et de la Communication et aussi auprs de collgues pour connatre
l'avancement des autres quipements similaires sur ce type de chantier afin de
situer sa propre bibliothque. Il avait ensuite fait une note, qu'il avouait avoir
un peu pousse, sur cette question en montrant le retard de sa biblio -
thque 173.
La comparaison parat tre un lment fondamentale de la communication
des bibliothcaires en direction de leur tutelle institutionnelle. Or, la visualisation
des donnes, lorsqu'elle est faite grande chelle, permet de mettre en place ce
type de comparaison entre tablissement. Nous pourrions reprendre ainsi l'exemple
de la visualisation dveloppe au sein de la DST4L, notamment la premire 174,
destine rpondre la question de savoir quel ouvrage ancien d'astronomie avait
t le plus tlcharg partir de la bibliothque numrique de l'Internet Archive.
Cette visualisation est interactive : en cliquant dans le menu gauche de l'image
sur l'une des institutions ayant fourni des ouvrages la bibliothque, le fond de
168
MALPAS, Constance. [sans date]. Sliding scale: mapping local, group and system-wide library infrastructure |
hangingtogether.org. [en ligne]. [Consult le 21 juillet 2014]. Disponible ladresse : http://hangingtogether.org/?
p=3149
169
Ibid. My current objective is a lot more prosaic : modeling supply and demand within and outside of a given
library consortium to inform decisions about local and shared stewardship of print collections .
170
Top-250-CIC-borrowers-by-location.jpg (Image JPEG, 658 435 pixels), [sans date]. [en ligne].
[Consult le 21 aot 2014]. Disponible ladresse : http://hangingtogether.org/wp-content/uploads/2013/07/Top-250-
CIC-borrowers-by-location.jpg. Cf annexe p. 105, figure 22.
171
Choropleth_US_libs_by_county.jpg (Image JPEG, 1017 653 pixels) - Redimensionne (96%), [sans date].
[en ligne]. [Consult le 21 aot 2014]. Disponible ladresse : http://hangingtogether.org/wp-
content/uploads/2013/07/Choropleth_US_libs_by_county.jpg. Cf annexe p. 105, figure 23.
172
MALPAS. [sans date]. For this, I think the county-level choropleth is actually quite useful. It helps to show
how demand is distributed at 'above-the-institution' scale, and this is important for understanding the rle of logistics in
optimizing the flow of library ressources .
173
BAUDIERE, 2014. p. 55.
174
Astronomy Texts in the Internet Archive, [sans date]. Tableau Software [en ligne]. [Consult le 21 aot 2014].
Disponible ladresse :
http://public.tableausoftware.com/views/AstronomyTextsintheInternetArchive/Whatwasthetopdownloadedastronomywor
k?:showVizHome=no
LAPOTRE Raphalle | DCB | Mmoire d'tude | dcembre 2014
58
Les donnes, un atout pour la gestion d'une bibliothque ?

l'image se grise, tandis que les pastilles de couleur correspondants l'institution restent
colors, ce qui permet de les distinguer par rapport aux autres. De la sorte, on peut se
faire une ide assez directe de l'importance de l'institution dans la collection globale de
l'Internet Archive. Lorsque l'on clique sur la Fisher University of Toronto, par
exemple, on s'aperoit qu'elle dispose des deux documents les plus tlchargs, mais
qu'en dehors de ces documents, cette bibliothque n'a pas fourni beaucoup d'autres
ouvrages 175. Lorsque l'on clique sur l'universit d'Harvard, en revanche, on observe que
les points rouges ne sont certes pas volumineux, mais nombreux, ce qui signifie que
cette bibliothque dispose de collections vritablement importantes en astronomie
(figure ci-dessous 176). Enfin, un clic sur la Duke University Library nous contraint
chercher du regard les rares petits points bleus lui correspondant sur l'image : de fait,
l'institution n'a pas une collection ancienne trs tendue dans le domaine de
l'astronomie 177.

Figure 7 : La collection en Astronomie de la Bibliothque d'Harvard


On pourra trouver ce type de comparaison dans un autre post de blog, celui de
Dan Cohen, directeur excutif de la DPLA 178 : les collections de chaque bibliothque
ayant particip la DPLA ont t visualises sous la forme de diagramme en barres,
reprsentant le nombre d'ouvrages qu'elles possdent en commun les unes avec les
autres. Chaque diagramme permet de visualiser ce qui fait la particularit d'une
bibliothque et de sa politique d'acquisition : les diagrammes s'appuyant vers la gauche
caractrisent des bibliothques qui ont un grand nombre d'ouvrages qu'elles seules
dtiennent, comme Harvard par exemple, qui a mis l'accent sur la constitution d'une

Cf annexe p. 106, figure 24.


175

Ibid.
176

177
Cf annexe p. 106, figure 25.
178
COHEN, Dan, 2012. Visualizing the Uniqueness, and Conformity, of Libraries. Dan Cohen [en ligne]. 13 dcembre
2012. [Consult le 11 juin 2014]. Disponible ladresse : http://www.dancohen.org/2012/12/13/visualizing-the-uniqueness-and-
conformity-of-libraries/
LAPOTRE Raphalle | DCB | Mmoire d'tude | dcembre 2014 - 59 -
Droits dauteur rservs. OU
collection de livres rares 179, tandis que d'autres bibliothques universitaires, comme
la Lafayette College ont prfr constituer des collections plutt universelles et
accessibles tous 180.
Il est vrai que ces visualisations ne nous apprennent pas grand chose sur les
bibliothques qu'elles reprsentent, surtout lorsqu'on les compare des outils
comme l'Observatoire de la Bibliothque dont la prcision est sans doute plus
grande. Nanmoins, elles sont remarquables pour leur capacit situer de manire
visuellement agrable, prcise, directe et globale l'activit d'un tablissement,
notamment lorsque l'on est en situation de devoir la mettre en valeur au cours d'un
court entretien avec un lu ou un directeur d'universit.

DE LA POLITIQUE DOCUMENTAIRE LA NAVIGATION DANS LES


COLLECTIONS...

Processus de slection inform par les donnes d'usages, la Patron-Driven


Acquisition (PDA) est peut-tre l'exemple type du pilotage d'un tablissement
documentaire par les donnes et incarne d'une certaine manire un transfert de
responsabilit des acquisitions du bibliothcaire vers les utilisateurs de la
bibliothque. Or, comme le souligne Finbar Galligan, chef d'quipe marketing et
communications chez Swets 181, l o le contenu n'est plus fournit l'avance, la
recherche et la dcouverte deviennent les parties les plus importantes du flux de
travail 182 : la PDA suppose donc l'existence pralable d'un moteur de recherche
permettant de moissonner des corpus complets de documents. D'une certaine
manire, on peut dire qu'il y a bien un transfert de la politique documentaire, mais
ce transfert ne se fait pas tant vers les usagers de la bibliothque que vers les
algorithmes qui fournissent les contenus en fonction de classements qui
transposent les choix et prsupposs de dpart de leurs concepteurs 183.
Ce caractre mdiatique des algorithmes fournisseurs de contenus est
amplifi par l'ajout de fonction de recommandations bases sur les recherches
passes et les recherches similaires faites par d'autres utilisateurs. Comme le
suggre Finbar Galligan, ces volutions sont en effet envisager dans le cadre de
bibliothques de plus en plus pilotes par ses usagers (patron-driven) 184.
179
Cf annexe p. 107, figure 26.
180
Cf annexe p. 107, figure 27.
181
tablissement qui se dfinit lui-mme comme un gestionnaire de contenus lectroniques en direction des
bibliothques et de leurs lecteurs. Content Management Services for Libraries and Publishers, [sans date]. [en ligne].
[Consult le 8 dcembre 2014]. Disponible ladresse : http://www.swets.fr/
182
GULLIGAN, Finbar. Sans date. Patron-driven library - Patron-driven acquisition - Research Information.
[en ligne]. [Consult le 3 dcembre 2014]. Disponible ladresse :
http://www.researchinformation.info/features/feature.php?feature_id=485. Where content isn't provided in advance,
search and discovery becomes the most important part of the workflow. If the end-users can't find particular content
unless they already know it exists, then the system will automatically fail .
183
Outre les thories de Neal Thomas que nous avons dj cites en premire partie (p. 24-26), les explications
de Rachel Schutt et Cathy O'Neil viennent illustrer de manire pertinente ce propos : Another way in which the
assumption that N = ALL can matter is that it often gets translated into the idea that data is objective. It is wrong to
believe either that data is objective or that ''data speaks,'' and beware of people who say otherwise. We were recently
reminded of it in a terrifying way by this New York Times article on Big Data and recruiter hiring practices. At one
point, a data scientist is quoted as saying, ''Let's pu everything in and let the data speak for itself.''. If you read the whole
article, you'll learn that this algorithm tries to find ''diamond in the rough'' types of people to hire. A worthy effort, but
one that you have to think through. Say you decided to compare women and men with the exact same qualifications that
have been hired in the past, but then, looking into what happened next you learn that those women have tended to leave
more often, get promoted less often, and give more negative feedback on their environments when compared to the men.
Your model might be likely to hire the man over the woman next time the two similar candidates showed up, rather than
looking into the possibility that the company doesn't treat female employees well . O'NEIL et SCHUTT. 2013. Non
pagin dans sa version lectronique.
184
GULLIGAN, Finbar. Sans date. Where search tools act as gatekeepers for nearly all scholarly content, they
will need to be refined in not only the extent of their indexes, but also in the underlying algorithms that allow them to
harvest, index and connect the wealth of content available across the net. (). Advanced semantic techniques can aid the
LAPOTRE Raphalle | DCB | Mmoire d'tude | dcembre 2014
60
Les donnes, un atout pour la gestion d'une bibliothque ?

Cependant, d'aprs Ronald E. Day cela aurait tendance limiter, d'une certaine manire,
le champ des dcouvertes possibles de contenus :
Les indices computationnels construits de manire rcursive (de mme que le
classement algorithmique) peuvent rduire les potentialits intentionnelles des
Mois aux possibilits logiques de personnes socialement reconnues travers le
renforcement des recherches prcdentes et des recherches des autres (). Ce qui
dans l'analyse de citation commence comme des explications comportementales
dans le but de l'analyse de citation se termine en algorithmes qui contrlent la
construction de l'identit ainsi que l'intention dans la recherche et la communica -
tion d'information travers les prsupposs psychologiques et sociologiques de
groupes 185.
De fait, l'affirmation selon laquelle la PDA serait au plus prs des besoins rels
des lecteurs en matire de documentation, contrairement la traditionnelle politique
documentaire impulse par les spculations des bibliothcaires concernant ces mmes
besoins, serait ainsi relativement errone 186: la PDA ne fait que remplacer la subjectivit
des responsables de collections par celle des algorithmes et des usagers qui intriorisent
eux-mmes les prsupposs bibliomtriques de ces derniers.
Ce processus de mdiatisation de la recherche documentaire, par mdiatisation
est entendu ici la transformation d'un objet en mdia, c'est dire en interface transposant
l'opinion, juste ou non, d'un groupe social , deviendrait particulirement problmatique
partir du moment o les algorithmes et leur produits seraient utiliss pour piloter la
politique gnral d'un tablissement scientifique, comme le suggre notamment Finbar
Galligan :
[Cet] instantan haute rsolution pourrait ensuite tre utilis pour une
multitude de buts, notamment : affiner les objectifs institutionnels, laborer des
programmes d'enseignement fonds sur des sujets qui sont utiliss par la facult
d'aujourd'hui, dterminer des ressources qui sont applicables un cours en particu -
lier et prdfinies en fonction des usages actuels ou des donnes de micro-acquisi -
tions sur plusieurs units temporelles pour ce mme cours, et permettre la biblio -
thque de dvelopper des services auxiliaires autour de l'offre principale de conte -
nus, qui serait elle-mme largement automatise travers la construction d'une col -
lection par l'action collective de tous les usagers de la bibliothque 187.

discovery process, linking individual pieces of content and making suggestions and connections that are relevant to a single
researcher's profile and reading preferences. () Data at the microlevel of the simple researcher is interesting but it starts to
become really useful when you can aggregate it up over several layers of granularity. This could mean that content will not only
be recommended based on the individual preferences, but on similar researchers and what they are using, giving an automatic
recommendation engine that can be scaled all the way up to institutional level . Non pagin dans sa version lectronique.
185
DAY. 2014. Recursively constructed computational indices (as well as algorithmic ranking can narrow the
intentional potentialities of selves to the logical possibilities of socially recognized persons through the strenghtening of previous
searches and the searches of others. () What in citation analysis start as behavioral explanations for the purpose of citation
analysis end up as algorithms that control identity construction and intention in information searching and communication
through group psychological and sociological assumptions . p. 69.
186
Affirmation que l'on peut trouver notamment dans le blog the ScholarlyKitchen : RICK ANDERSON, [sans date].
What Patron-Driven Acquisition (PDA) Does and Doesnt Mean: An FAQ. The Scholarly Kitchen [en ligne].
[Consult le 6 dcembre 2014]. Disponible ladresse : http://scholarlykitchen.sspnet.org/2011/05/31/what-patron-driven-
acquisition-pda-does-and-doesnt-mean-an-faq/. Si, de fait, la sagesse des foules est un argument avanc pour justifier la
prfrence pour un modle dirig par les usages plutt que par les bibliothques, les prsupposs et reprsentations vhicules
par les nouvelles techniques accompagnant la PDA incitent se poser la question de savoir jusqu' quel point les foules peuvent
tre sages. Cf Des bouquets aux acquisitions faites par les usagers, un nouvel quilibre trouver 5/7 , [sans date]. [en ligne].
[Consult le 8 dcembre 2014]. Disponible ladresse : http://www.bibliobsession.net/2011/03/03/du-bouquet-aux-acquisitions-
faites-par-les-usagers-un-equilibre-a-trouver/
187
GULLIGAN. Sans date. The high-level snapshot could then be used for a host of purposes, including : refining
institutional objectives ; building teaching programmes based on topics that are being used by the actual faculty ; determining
preset materials that are applicable to a particular course, based on actual usage or micro-acquisition data over time for the same
course ; and allowing the library to develop ancillary services around the core content offering, which would be largely
automated based on the collective collection building of all library users .
LAPOTRE Raphalle | DCB | Mmoire d'tude | dcembre 2014 - 61 -
Droits dauteur rservs. OU
Si l'on reprend en effet la vision de Larry Page sous-tendant l'algorithme de
PageRank dont il est le concepteur, ce dernier fonctionne essentiellement sur
l'autorit des liens hypertextes qui, selon ses mots, encodent une somme
considrable de jugements humains latents (...) 188. Ainsi, prendre des dcisions
institutionnelles en se fondant sur les rsultats d'un tel algorithme reviendrait
finalement se fier des reprsentations des objets dcrits par ces algorithmes
plutt qu' une connaissance proprement parler de ces objets : tant donn les
exemples passs de classements populaires ou 'de masses', l'application
d'algorithmes enracins dans la psychologie de groupe la production de
connaissance conduit se demander quoi la dlgation de la connaissance
l'opinion en tant que telle pourrait ressembler 189.
Si donc nous en venons l'avenir faire de la navigation virtuelle dans les
collections de la bibliothque le moteur de la gestion de ces mmes collections et
de l'tablissement qui les fournit ou les contient, il est certain qu'il devient
ncessaire de rflchir un moyen de mettre en avant la subjectivit inhrente un
tel systme, subjectivit que les discours actuels autour de ces innovations tendrait
en effet occulter. C'est un tel moyen que nous nous emploieront consacrer le
troisime temps de notre rflexion.

188
Larry Page cit dans CARDON, Dominique, 2013. Dans lesprit du PageRank. Rseaux. 1 avril 2013.
Vol. 177, n 1, pp. 63-95. DOI 10.3917/res.177.0063. p. 71.
189
DAY. 2014. Within the citation rat race and citation mongering, it becomes unclear what the rle of truth is
or how one can find a position for critique that itself is not a commodity or at least seen as a commodity and self-
commodification. Instead, given past examples of popular or mass rankings, the expansion of algorithms rooted in
group psychology to the production of knowledge lead one to wonder what the delegation of knowledge to opinion as
well, may look like . p. 73.
LAPOTRE Raphalle | DCB | Mmoire d'tude | dcembre 2014
62
Les Donnes, un outil de navigation dans les collections ?

LES DONNES, UN OUTIL DE NAVIGATION DANS LES


COLLECTIONS ?
Par leur caractre ontologique, les mtadonnes ont un statut particulier par rapport
aux autres types de donnes des bibliothques : elles ont valeur de symbole par rapport
aux objets de la collection qu'elles dsignent. De ce fait, l'enjeu de faire parler les
donnes des bibliothques, lorsque ces donnes sont en ralit des mtadonnes, est
radicalement diffrent et peut-tre plus important : il est par exemple dsormais possible
de construire des moteurs de recherche et des systmes de recommandation taills la
mesure de chaque usagers qui les utiliseraient, avec toutes les limites que nous avons
dj pu souligner. Ainsi, l o le caractre unique et standardis de la classification
permettait, dans le monde physique, de se dplacer dans les collections tout en
visualisant une gographie du savoir, dans le monde numrique, une classification qui
permet une navigation efficace de l'utilisateur est une classification qui s'adapte
troitement la personnalit de l'individu : classification et navigation tendent alors se
confondre. Cette classification sur mesure aurait t impensable dans le monde
physique, du fait des contraintes spatiales que ce dernier implique. Dans le monde
numrique, c'est la multiplication des donnes, la datafication de notre
environnement y compris livresque , qui permet un tel tour de force : les algorithmes
classent la fois les donnes personnelles d'un utilisateur et les donnes produites sur un
objet pour proposer ce dernier un ensemble de produits dont on suppose qu'il y portera
intrt 190. cela s'ajoute les performances de la fouille de texte 191 (ou text mining) : il
s'agit d'un ensemble de techniques de linguistique, de statistique et d'apprentissage
automatique visant modliser et structurer l'information contenue dans des ressources
textuelles, ce, par exemple pour indexer un ensemble de documents et les classer selon
leurs thmes 192. La datafication va donc jusqu'aux mots d'un texte pris comme unit
et dans une certaine mesure transform en mtadonnes par le biais de l'analyse de
contenu.
Nanmoins, que signifie dans ce contexte, la notion d'exploration des collections,
quand la dcouverte accidentelle d'un objet reste difficile avec le systme de type
requte-rponse utilis pour les moteurs de recherche 193 ?
Les concepteurs des services grand public comme Google Books et Amazon en
sont conscients et ont mis en place plusieurs techniques alternatives, essentielle -
ment bases sur la visualisation : des lectures en cours d'autres usagers, ou de re-
commandations inspires de la navigation passe, voir de notices d'ouvrages slec -
tionnes de manire alatoire. Dans tous les cas, il faut substituer au texte descrip -
tif (notice de l'ouvrage) des indices visuels qui permettront une lecture de survol de
l'ensemble de l'cran 194.
Pour tre honnte, le passage des nouvelles classifications offertes par le
numriques la navigation dans des collections virtuelles par le moyen de la
visualisation des donnes est un domaine en voie d'exprimentation et ncessite de

190
Nous renvoyons ici au deuxime chapitre de notre premire partie, portant sur l'algorithme FRBR, compar ceux de
Google et d'Amazon. p. 30.
191
Fouille de textes, 2014. Wikipdia [en ligne]. [Consult le 14 dcembre 2014]. Disponible ladresse :
http://fr.wikipedia.org/w/index.php?title=Fouille_de_textes&oldid=107660108. Page Version ID: 107660108
192
Text mining, 2014. Wikipedia, the free encyclopedia [en ligne]. [Consult le 14 dcembre 2014]. Disponible
ladresse : http://en.wikipedia.org/w/index.php?title=Text_mining&oldid=637280039. Version ID: 637280039
193
CRAMER, Florian, CUBAUD, Pierre, DACOS, Marin, JAMES, Yannick, LANTENOIS, Annick (dir.). 2011 Lire
lcran : contribution du design aux pratiques et aux apprentissages des savoirs dans la culture numrique: [actes de la journe
dtude Lectures numriques, Valence, 11 mars 2010]. Organise par lcole suprieure dart et design Grenoble-Valence. p. 57.
194
Ibid.
LAPOTRE Raphalle | DCB | Mmoire d'tude | dcembre 2014 - 63 -
Droits dauteur rservs. OU
repenser la mise en espace de la bibliothque numrise, en dveloppant des
mtaphores de navigations spcifiques 195.
Nous nous proposons donc en dernier lieu d'observer dans quelle mesure la
visualisation des collections est effectivement un atout pour la communication de
la bibliothque, mais aussi pour la navigation dans les collections : aprs avoir
expos plusieurs exemples de visualisations exprimentales partir de la
classification UDC, nous dvelopperons des vues plus personnelles sur ce qu'il
nous parat intressant d'envisager l'avenir pour naviguer dans les collections
l'aide des donnes.

DE LA CLASSIFICATION LA NAVIGATION...
Dans son essai intitul Tout est fragment 196, David Weinberger dveloppe
l'ide que le bouleversement apport par l'volution vers le numrique ne rside
pas tant dans la mutation de l'information en elle-mme que dans l'accs
l'information proprement parler. C'est ainsi que, pour le dmontrer, il compare
Amazon Melvil Dewey :
En soi, Amazon est aussi loign que possible d'une bibliothque appli-
quant la classification Dewey. Dewey a cr une manire unique de regrouper
les livres : Amazon tche d'en trouver autant que possible. Melvil Dewey
s'est charg lui-mme de la conception du systme : Amazon, quant lui,
laisse tout le monde crer ses propres catgories, leurs donner un nom amu -
sant puis les publier. Dewey a privilgi la clart et l'ordre, se prosternant de -
vant les dieux de la mtrique en crant un systme bas sur des multiples de
10 : Amazon apprcie au contraire un dsordre chaleureux, suggrant partout
dans ses pages des manires alternatives de naviguer ainsi que des offres in -
solites particulires chacun. Lorsque l'on cherche un livre dans une biblio -
thque organise sur le modle de Dewey, on peut tre trs content de trouver
un autre livre sur le mme sujet juste ct du premier sur l'tagre. Mais
lorsque l'on cherche acheter un livre sur Amazon, la srendipit planifie
vous conduit vers un choix bien plus large de livres, dtermin par les di -
teurs d'Amazon, les algorithmes ainsi que les autres consommateurs. Le sys -
tme de Dewey privilgie la stabilit qui accompagne le monde physique
des livres sur des tagres, de l'encre blanche au dos des livres, tandis
qu'Amazon se targue de sa capacit grouper et regrouper de manire instan -
tane ses produits 197.
Le propos de David Weinberger est donc d'affirmer que la transformation
numrique, en crant des donnes partir de toutes choses, est dans la capacit de
nous faire dcouvrir une information bien plus importante quantitativement mais
aussi qualitativement grce la diversit des propositions : les possibilits de
trouver un objet inattendu seraient donc plus grandes que dans le monde physique.
Pour l'auteur, ce bouleversement se caractrise par trois proprits offertes par le
195
Ibid. p. 59.
196
WEINBERGER, 2008.
197
Ibid. Amazon itself is about as far from a Dewey-compliant library as one can get. Dewey created a single
way to cluster books ; Amazon finds as many ways as it can. Melvil Dewey took the design of the system upon himself ;
Amazon lets anyone create her own category, give it a fun name, and publish it. Dewey prized neatness and order,
bowing to the metric gods when he created a system based on multiples of ten ; Amazon likes a friendly disorder,
stuffing its pages with alternative ways of browsing and offbeat offers peculiar to each person's behavior. When you go
to find a book in a Dewey-based library, you may be delighted to find another book on the same topic next to it on the
shelf ; when you go to buy a book at Amazon, the planned serendipity shows you a far wider range of books, determined
by Amazon's editors, algorithms, and fellow shoppers. Dewey's system prizes the stability that comes with the physical
world books on bookshelves, white ink on spines ; Amazon prides itself on its ability to cluster and recluster
instantly . p. 132.
LAPOTRE Raphalle | DCB | Mmoire d'tude | dcembre 2014
64
Les Donnes, un outil de navigation dans les collections ?

numrique : d'abord, la remise en cause d'un systme unique de classification de


l'univers par le dsordre numrique, ensuite, l'affranchissement des contraintes du
monde physique grce la possibilit de crer des classification multidimensionnelles,
s'adaptant instantanment selon les points de vue et permettant de disposer un mme
objet plusieurs nuds d'une classification, enfin, le passage d'une vision universelle de
l'ordre de l'univers, perue comme pouvant poser des problmes de socit, une vision
propre chaque individu. Ainsi, le dsordre numrique doit-il tre, dans ce qu'envisage
l'auteur pour les annes venir, l'origine d'un changement radical de notre manire de
percevoir le monde.
Peut-tre serait-il bon d'exposer la fois les bouleversements effectivement
introduits par les donnes et les mythes qui, nous semble-t-il, ne manquent pas
d'accompagner cette transformation.

De l'Arbre au Labyrinthe 198


Dans son essai, David Weinberger fait remonter les origines de nos systmes de
classification actuels, qu'il s'agisse de la classification linenne des espces ou du
systme dcimal de Dewey appliqu dans les bibliothques, au premier systme labor
par Aristote et devenu au III e sicle le clbre arbre de Porphyre. Le principe de cet
arbre est de regrouper l'univers dans un tronc commun, puis de diviser celui-ci en autant
de branches qu'il y a de genres, eux-mmes divises en espces puis en sous-espces, et
ainsi de suite jusqu' l'individu : un chien est ainsi un exemplaire d'une race, appartenant
elle-mme la sous-espce des canids, relevant quant elle de l'espce mammifre,
cette dernire s'inscrivant au niveau suprieur dans le genre animal. La classification
Dewey est elle-mme organise selon ce modle puisque elle divise la connaissance en
grands domaines appels classes (regroupant philosophie, religion, sciences sociales,
sciences de la nature et mathmatiques, etc.), ces classes connaissant des divisions en
disciplines et sous-disciplines, etc., jusqu' en arriver l'exemplaire unique du livre. Les
livres, dans ce contexte, reprsentent les feuilles de l'arbre classificatoire. Or, tout le
propos de David Weinberger consiste dire que l'volution vers le numrique tend
supprimer la mtaphore unique de l'arbre pour ne garder que les feuilles, que l'on peut
alors rorganiser souhait selon ses propres catgories. Il donne l'exemple de la
musique pour illustrer son propos :
Amazon veut nous vendre des livres. L'organisation qu'il donne a son offre n'est
pas contrainte par une gographie sous-jacente. Amazon est capable de traiter son
norme collection de livres savoir les livres qu'il peut se procurer si quelqu'un
en veut un exemplaire comme un amas htrogne qui peut tre numriquement
class afin de reflter les intrts individuels de chaque visiteur. () Le problme
fondamental de Dewey ne rside pas dans le fait qu'il tait un excentrique ou que
sa premire ducation tait provinciale. Le vritable problme est que toute carte
de la connaissance implique que la connaissance ait une gographie, qu'elle ait une
vue surplombante, qu'elle ait une forme 199.
Ainsi les acheteurs ont-ils accs directement aux feuilles que sont les livres, sans
avoir passer par les nuds de l'arbre 200 que forme la classification Dewey. Ils
Nous reprenons l le dbut du titre d'un recueil d'essais publi par Umberto Eco : ECO, Umberto, 2010. De larbre au
198

labyrinthe tudes historiques sur le signe et linterprtation. Paris : Grasset.


199
WEINBERGER, 2008. Amazon wants to sell us books. Its organization of its offering is not bound by underlying
geography. Amazon is able to treat its enormous collection of books that is, the books it can get if someone wants a copy as a
miscellaneous pile that can be digitally sorted to reflect the individual interests of each visitor. () This fundamental problem
with Dewey's system is not that he was an eccentric or that his early education was provincial. The real problem is that any map
of knowlegde assumes that knowledge has a geography, that it is a top-down view, that it has a shape . p. 135.
200
Ici rappel sous la forme d'une carte, ce qui n'est pas incompatible, puisque une carte est forme sur le mme principe
qu'un arbre classificatoire
LAPOTRE Raphalle | DCB | Mmoire d'tude | dcembre 2014 - 65 -
Droits dauteur rservs. OU
remplacent ensuite cet arbre unique par autant d'arbres classificatoires diffrents
qu'il y a d'utilisateurs d'Amazon. Mais David Weinberger va plus loin encore dans
l'explosion de l'arbre en feuilles, puisqu'il explique que la numrisation massive
effectue par Google a permis de faire d'une phrase, d'une expression ou mme
d'un mot une feuille qu'il est possible de brasser l'infini avec d'autres lments
similaires afin de dcouvrir d'autres livres. Amazon produit ainsi, par le biais d'une
fouille de texte 201, une analyse statistique du contenu d'un ouvrage, dont il
rapproche les expressions les plus statistiquement significatives d'autres ouvrages
employant des expressions similaires 202. Le bouleversement numrique a donc fait
explos jusqu'au livre et sa mise en page : la bibliothque numrique va au-del
du livre.
Jusqu' prsent, il y aurait peu de chose redire aux thories dveloppes par
Weinberger : sa vision de la stratgie des Amazon et autres gants du net semble
juste. En revanche, il nous semble que la seconde partie de sa rflexion, portant sur
les limites prsupposes de la gographie sous-jacente la connaissance, appelle
une discussion. L'auteur explique en effet que la limite des systmes
classificatoires, tel que celui de Dewey, ne rside pas tant dans la vision du monde
(ce quoi l'auteur fait rfrence lorsqu'il parle de son excentricit ou de sa
premire ducation) que Dewey a fait transparatre dans la classification unique
qu'il a propos comme modle toutes les bibliothques du globe, mais bien plutt
le fait que sa classification adopte une forme unique et invariable, peu adaptable
aux dsirs et aux gots de chacun.
Tout d'abord, il convient de dire que mme dans la nouvelle configuration
numrique, la connaissance garde une gographie et une forme, celle du labyrinthe
ou rhizome 203, plus couramment appel rseau . En ralit, l'volution actuelle
de l'information n'est pas tant en voie de produire un bouleversement de notre
manire de penser le monde, comme le pense David Weinberger, que l'inverse :
c'est l'volution de la pense moderne qui, ce qu'il nous semble, a fait natre les
conditions ncessaires au bouleversement numrique actuelle et notre nouvelle
manire de rechercher et d'accder l'information. Le systme gnral des
sciences et des arts est une espce de labyrinthe, de chemin tortueux, o l'esprit
s'engage sans trop connatre la route qu'il doit tenir 204, crit en effet d'Alembert
dans le Discours prliminaire l'Encyclopdie. D'Alembert exprime par l une
ide chre aux lumires, savoir le refus de toute tentative de fonder un systme
a priori des ides et la conception d'un savoir qui s'articule comme une carte
gographique sans frontires, sur laquelle des parcours infinis sont possibles 205.
Le passage d'une classification unique un dsordre (selon le terme du titre de
l'ouvrage de Weinberger 206) que chacun parcours selon sa propre conception du
monde avait donc dj t entrin au temps des Lumires, ce que Weinberger est

201
Cf note n190.
202
WEINBERGER. 2008. For The Little House Cookbook, the list of ''Statisically Interesting Phrases'' includes
''sterilizing kettle'', ''pie paste,'' ''pastry surface,'' ''buttered pie pan,'' and ''blood-warm water''. Click on any of these
phrases and Amazon will show you other books that also use them : ''sterilizing kettle'' turns out to occur in The Fall : A
Novel, by Simon Mawer . p. 129.
203
Cette pense est dveloppe par Eco, mais est galement au cur du projet de Gilles Deleuze et Flix Guattari
intitul Capitalisme et Schizophrnie : Rhizome is a philosophical concept developed by Gilles Deleuze and Flix
Guattari in their Capitalism and Schizophrenia (19721980) project. It is what Deleuze calls an image of thought ,
based on the botanical rhizome, that apprehends multiplicities. Rhizome (philosophy), 2014. Wikipedia, the free
encyclopedia [en ligne]. [Consult le 14 dcembre 2014]. Disponible ladresse : http://en.wikipedia.org/w/index.php?
title=Rhizome_(philosophy)&oldid=637871872. Page Version ID: 637871872
204
ALEMBERT, Jean Le Rond d et CONDORCET, Jean-Antoine-Nicolas de Caritat marquis de, 1821. uvres
de dAlembert. A. Belin. Volume 1, p. 44.
205
ECO, 2010. p. 70.
206
WEINBERGER, 2008. Everything Is Miscellaneous: The Power of the New Digital Disorder. Op.cit.
LAPOTRE Raphalle | DCB | Mmoire d'tude | dcembre 2014
66
Les Donnes, un outil de navigation dans les collections ?

d'ailleurs prt concder 207. Cependant, il ne semble pas remarquer cette nouvelle
gographie du savoir hrite de leur tradition, savoir le labyrinthe en rhizome mis en
lumire par Umberto Eco : un modle en rseau prvoit la dfinition de chaque
concept (reprsent par un terme) grce l'interconnexion de tous les autres concepts
qui l'interprtent, chacun se tenant prt devenir le concept interprt par tous les
autres 208. L'encyclopdie est bien fonde sur ce systme, notamment travers le
systme de l'index, qui permet le renvoi d'une notion une autre indpendamment de
leur classement alphabtique. Or, Eco souligne que c'est prcisment cette conception du
savoir en rseau qui est l'origine des ontologies utilises dans l'Intelligence
Artificielle et, par extension, dans les nouvelles technologies numriques 209. Par l peut-
on dire que ce ne serait pas ces nouvelles technologies qui sont l'origine de notre
conception labyrinthique du savoir, mais plutt l'inverse ? l'image du Web sur le
modle duquel elles ont t conues, les bibliothques numriques ainsi que les
catalogues en ligne sont donc forms en vastes rseaux labyrinthiques dans lesquels
seules les multiples connexions entre les mtadonnes permettent de se dplacer d'une
information une autre : c'est prcisment pour pouvoir se dplacer plus facilement
dans ce rseau que la tendance est en ce moment l'ouverture des catalogues au web
smantique 210.
Enfin, l o David Weinberger tente d'expliquer que les nouvelles technologies
utilises par Amazon n'imposent dsormais plus une vision unique de l'ordre des
connaissances, mais permettent au contraire chacun de se constituer librement sa
propre classification, nous pourrions objecter que ce type de proposition ignore
dlibrment les prsupposs inhrents aux algorithmes utiliss par Google et Amazon,
auxquels nous avons dj fait allusion dans la premire partie de cette tude. En somme,
nous pourrions dire que les gants du net, dans leur volont de faire parler les
mtadonnes grces aux nouvelles technologies offertes par l're du numrique, n'ont
fait que dplacer la subjectivit et le caractre monopolistique propre la classification
traditionnelle au champ de la navigation quotidienne que nous effectuons dans leur
corpus de donnes.

De l'universalit de la classification l'individualit de la navigation


Une autre des thories dveloppes par David Weinberger consiste dire que le
numrique nous ferait passer d'une classification unidimensionnelle, par ncessit
physique, une classification multidimensionnelle, caractrise par le fait que l'on
puisse placer un mme objet plusieurs endroits diffrents de la classification. Il illustre
son ide de cette manire :
Mettons que vous vouliez un exemplaire du Livre de cuisine de la Petite Maison
dans la Prairie : la Cuisine de la Frontire d'aprs le classique de Laura Ingalls ,
de Barbara Walker. Si vous cherchez le titre la Bibliothque Publique de New
York, vous trouverez cinquante-deux exemplaires rpartis dans ses nombreuses an -
nexes. La plupart le range dans la section jeunesse.
() Si vous souhaitez voir tous les livres portant la fois sur la cuisine et sur l'his -
toire, sans spcifier que ces livres doivent tre pour enfants ou tre associs un
classique de la littrature, Amazon construira avec joie cette liste pour vous. C'est
207
Il voque effectivement mais de manire assez brve, les encyclopdistes. WEINBERGER, 2008. p. 25.
208
ECO, 2010. p. 79.
209
Ibid. p. 82-83. Dans le cadre des recherches les plus rcentes de l'Intelligence artificielle et des sciences cognitives,
le thme des rseaux smantiques a donn naissance une thorie des ontologies. En dpit de son utilisation impropre, ce
concept d'''ontologie'', dont la signification philosophique est toute autre, dsigne l'organisation catgoriale d'une portion
d'univers qui prend la forme de n'importe quel arbre classificatoire ou rseau smantique .
210
Le web smantique est lui-mme fond sur les principes de l'ontologie, et forme un rseau smantique : Ontologie
(informatique), 2014. Wikipdia [en ligne]. [Consult le 14 dcembre 2014]. Disponible ladresse :
http://fr.wikipedia.org/w/index.php?title=Ontologie_(informatique)&oldid=109058774 . Page Version ID: 109058774
LAPOTRE Raphalle | DCB | Mmoire d'tude | dcembre 2014 - 67 -
Droits dauteur rservs. OU
comme si l'on avait un systme de classification dcimal de Dewey crit sur
commande 211.
L'auteur oppose donc la flexibilit de la classification numrique
l'uniformit de la classification labore dans le monde physique, l'innovation
technologique tant tenue responsable du passage de l'un l'autre. Pourtant,
Umberto Eco dmontre que l'arbre classificatoire hrit d'Aristote possdait une
certaine souplesse, ce dernier ayant finalement renonc construire un arbre
unique pour construire plusieurs classifications correspondant des objectifs
chaque fois diffrents 212.
Ces rflexions laissent penser que ce ne serait pas tant en raison des
contraintes physique ou des nouvelles opportunits offertes par le numrique 213
qu'en raison de choix politiques, que nous aurions abandonn le systme
classificatoire unique seulement au dbut du XXI e sicle. Les Lumires, en effet,
ont remis en cause l'arbre classificatoire unique pour lui substituer une vision
labyrinthique de la connaissance, mais il ne s'agit pas que de cela : l'Encyclopdie
est devenue elle-mme une mthode d'enqute travers la bibliothque gnrale
et omnivore de la culture toute entire 214. Cette manire multidimensionnelle et
labyrinthique de rechercher la connaissance et d'y accder qui serait la ntre
aujourd'hui ne daterait donc pas des changements introduits rcemment par les
technologies numriques 215. Nous pourrions plutt envisager ces dernires comme
le produit d'une volution philosophique dj vieille de quelques sicles.
De fait, en soutenant la thse d'un bouleversement de nos modes d'accs la
connaissance introduit par le numrique, et non rsultat d'une volution antrieure
de la pense, il semble que David Weinberger cde aux sirnes de la neutralit et
de l'objectivit dont nous avons dj soulign, dans notre premier chapitre,
l'impossibilit : selon son point de vue, un tablissement public tel que la
bibliothque se devrait d'tre lac jusque dans sa classification, en ne privilgiant
pas outre mesure une philosophie ou une religion par rapport une autre 216.
211
WEINBERGER, 2008. Let's say you want a copy of the Little House Cookbook : Frontier Food from Laura
Ingalls Wilder's Classic Stories, by Barbara M. Walker. If you look up the title at the New York Public Library, you'll
find fifty two copies across the many branches. Most put it in the children's room, but the Donnell Library puts it in the
reading room. Everyone of those branches, however, has it listed under its call number : 641.59 W. That translates to :
Technology and applied sciences > Home economics and family living > food and drink. That's one logical place for it.
But just one. If you search for the same book at Amazon, you'll find a similar classification scheme. But Amazon lists
The Little House Cookbook under three categories :
_ Children's Books > Author & Illustrators, A-Z > (W) > Williams, Garth.
_ Children's Books > History & Historical Fiction > United States > 1800's.
_ Children's Books > Sports & Activities > Cooking.
() If you want to see all books about both cooking and history without specifying that the books have to be associated
with a work of literature, Amazon will happily build that list for you. It's like having a Dewey Decimal Classification
System written to order . p. 126.
212
Porphyre trace un arbre des substances unique, tandis quAristote utilise la mthode de la division avec
beaucoup de prcaution, voire de scepticisme. () En thorie, nous sommes autoris avancer l'hypothse qu'il
[Aristote] n'aurait pas su construire un arbre de Porphyre fini, et mme en pratique (), car nous le voyons dans Les
parties des animaux, renoncer de fait construire un arbre unique et rajuster des arbres complmentaires au gr de la
proprit dont il veut expliquer la cause et la nature essentielle ( . ECO, 2010. p. 20.
213
Nous avons dj vu que c'est plutt la pense qui a prcd ces dernires.
214
Ibid., p. 72.
215
Sur cette question, lire WRIGHT, Alex, 2008. Glut: Mastering Information Through the Ages. Cornell
University Press.
216
D'o peut-tre cette rflexion que l'on peut lire dans son essai : Comme l'crit Wayne A. Wiegand, le
biographe de Dewey, l'organisation de la connaissance qu'a produite Dewey a matrialise ''une vision du monde et une
structure de la connaissance enseigne sur le campus de l'universit d'Amherst entre 1870 et 1875'' une vision du
monde et une structure qui prsupposait que l'Occident tait la culture la plus avance et que le Christianisme tait au
fondement de la vrit Ibid. p. 116. Il s'agit donc l d'une tradition librale, qui prne le fait que la puissance publique
doive s'abstenir de se prononcer sur ce que peuvent tre les valeurs d'une vie bonne. L'humanisme dmocratique, au
contraire, exige de ltat qu'il se penche dmocratiquement sur cette question en l'affirmant et en la soumettant
discussion, un peu la manire des articles de Wikipdia aujourd'hui. Dans une telle perspective, il s'agirait donc de
conserver une classification unique, mais de la soumettre perptuellement discussion. Cf BRIEY, Laurent de, 2009. Le
sens du politique: essai sur lhumanisme dmocratique. Editions Mardaga.
LAPOTRE Raphalle | DCB | Mmoire d'tude | dcembre 2014
68
Les Donnes, un outil de navigation dans les collections ?

l'oppos, les algorithmes des grands acteurs du domaine de l'information sur le net,
parce que conus scientifiquement, permettraient un accs neutre au savoir et
laisseraient tout loisir ses utilisateurs de classer la connaissance et le rel selon leurs
propres schmas mentaux.
Mais si l'on soutient au contraire l'ide que la manire avec laquelle le monde
accde l'information aujourd'hui serait moins le rsultat d'une volution technologique
rcente que celui d'une volution philosophiques dj ancienne, quel peut tre l'apport
rel de la science des donnes l'exploration des connaissances aujourd'hui ?

LA CLASSIFICATION DCIMALE UNIVERSELLE (CDU) LA RECHERCHE


D'UNE MTAPHORE VISUELLE.

En 2013 s'est tenu La Haye un sminaire 217 organis par le consortium UDC,
c'est--dire l'organisme d'diteurs qui est en charge de la gestion de la Classification
Dcimale Universelle, cette classification labore par les juristes belges Paul Otlet et
Henri La Fontaine et dont le but tait l'origine de reprendre la classification dcimale
de Dewey ainsi que de la rendre plus exhaustive grce la cration d'indices plus
complexes 218. Portant sur la classification et la visualisation, ce sminaire tait le
quatrime d'une srie d'vnements destins faire avancer la recherche en matire de
classifications bibliographiques, mais aussi promouvoir un dialogue entre le domaine
de la bibliographie et les autres sciences de l'information requrant une organisation de
la connaissance. Dans l'introduction du recueil des communications qui en a t publi,
les diteurs crivent :
Rcemment, des avances remarquables ont t faites dans le champ de la visua -
lisation de la connaissance, notamment en relation avec les systmes d'organisation
du savoir dans les sciences, dans les applications de l'extraction de donnes et dans
les tentatives faites pour amliorer l'utilisation de trs grands jeux de donnes et
bases de donnes.
Le sminaire de 2013 aborde l'enjeu de la visualisation, qui est au cur du pro -
blme de la dcouverte de l'information et, par consquent, est un enjeu qui
concerne toutes les classifications bibliographiques. L'exploitation mdiocre de la
classification dans la recherche de l'information a longtemps t attribu au
manque de solutions d'interface qui rendrait la complexit de la classification de la
connaissance plus facile prsenter et utiliser pour la navigation dans ces
connaissances 219.
La visualisation des connaissances et de leur organisation, rendue possible
notamment par les nouvelles possibilits techniques d'extraction des donnes, est donc
considr comme un enjeu central pour faciliter la navigation dans l'information et,
l'chelle d'une bibliothque, dans les collections. Contrairement la fragmentation de

217
UDC Seminar 2013, [sans date]. [en ligne]. [Consult le 16 mai 2014]. Disponible ladresse :
http://seminar.udcc.org/2013/programme.php
218
Classification dcimale universelle, 2014. Wikipdia [en ligne]. [Consult le 27 aot 2014]. Disponible ladresse :
http://fr.wikipedia.org/w/index.php?title=Classification_d%C3%A9cimale_universelle&oldid=105773565.
219
INTERNATIONAL UDC SEMINAR, SLAVI, Aida et UDC CONSORTIUM (THE HAGUE) (d.), 2013.
Classification & visualization: interfaces to knowledge: proceedings of the International UDC Seminar 24-25 October 2013,
The Hague, the Netherlands; organized by UDC Consortium, The Hague. Wurzburg : Ergon. p. X. Recently, notable advances
have been made in the field of knowledge visualization, especially in relation to knowledge ordering systems in the sciences, in
data mining applications and in an attempt to improve the use of large datasets and large databases. The 2013 Seminar addresses
the issue of visualization, which is at the heart of the information discovery problem and, by extension, is an issues of concern
for all bibliographic classifications. The poor exploitation of classification in information retrieval has been long attributed to the
lack of appropriate interface solutions that would make the complexity of knowledge classification easier to present and use in
knowlegde browsing .
LAPOTRE Raphalle | DCB | Mmoire d'tude | dcembre 2014 - 69 -
Droits dauteur rservs. OU
l'information, la multi-dimensionnalit des classifications et l'individualisation de
l'exploration des connaissances, la visualisation pourrait-tre la relle innovation
apporte par le numrique et l're du Big Data, la condition que l'on admette que
les mtaphores de l'arbre et du labyrinthe ont exist depuis Aristote, mais que la
visualisation des connaissances, produite en temps relle partir des donnes
bibliographiques et sur le modle de ces mtaphores, est quant elle nouvelle.
Au vu des nombreuses communications qui ont t faites dans ce sminaire
de la CDU, il nous semble que c'est l l'occasion parfaite pour prsenter quelques
exemples de visualisations de l'organisation des connaissances extraites de ce
recueil. Mais auparavant, nous aimerions nous attarder sur les raisons pour
lesquelles la visualisation nous parat tre fondamentale pour la navigation dans les
collections.

La ncessit d'une mtaphore


Dans un des articles introduisant le sminaire de la CDU portant sur la
visualisation, on peut lire :
Nous avons considr la division des connaissances en sujets, disciplines
ou champs comme une pratique utile dj bien avant Aristote. Ces divisions
sont souvent organises en mtaphores qui, en retour, influencent notre com -
prhension de la connaissance elle-mme. Structures ou diffuses, se chevau -
chant ou se sparant, enracines ou ouvertes, en fractales ou en divisions, ces
mtaphores nous renseignent sur la manire dont nous pensons la pense, et
elles se prtent elles-mmes aux reprsentations visuelles qui construisent et
renforcent nos notions de l'ordre des connaissances 220.
Scott B. Weingart insiste sur les vertus cognitives des mtaphores qui
accompagnent depuis toujours l'organisation des connaissances produites sur
l'univers. Aristote considrait dj la mtaphore comme une figure de rhtorique
ayant la fois des vertus esthtiques et cognitives : la mtaphore doit permettre de
rapprocher des objets qui n'ont apparemment rien voir entre eux afin d'apercevoir
des ressemblances ou des affinits entre deux concepts. Umberto Eco prend
l'exemple de pirates mditerranens que l'on qualifierait de pourvoyeurs ou de
fournisseurs : le rapprochement nous incite en effet considrer les pirates non
plus sous l'angle moral, mais sous un angle conomique que l'on n'aurait pas
envisag auparavant. Quand Aristote, crit-il, disait que l'invention d'une belle
mtaphore ''met sous les yeux'' pour la premire fois un rapport indit entre deux
choses, il voulait dire que la mtaphore impose une rorganisation de notre savoir
et de nos opinions 221.
En ralit, l'arbre de Porphyre fait voluer le statut de la mtaphore de
reprsentation mentale et cognitive celui de reprsentation visuelle, dont Johanna
Drucker a dmontr l'utilit dans la diffusion et l'avancement des sciences 222: en ce
qui concerne par exemple les sciences de la terre, pour lesquelles le dessin parfait
220
WEINGART, Scott B. From trees to webs : uprooting knowledge through visualization dans
NTERNATIONAL UDC SEMINAR, SLAVI. 2013. p. 43. Still, we have found the division of knowledge into
subjects, disciplines or fields a useful practice since before Artistotle. These divisions are often organized into
metaphors, which, in turn, influence our understanding of knowledge itself. Structured or diffuse ; overlapping or
separate ; rooted or free, fractals or divisions ; these metaphors inform how we think about thinking, and they lend
themselves to visual representations which construct aznd reinforce our notions of the order of knowledge .
221
ECO, 2010, p. 88.
222
Les images visuelles servent les sciences en usant de proprits graphiques spcifiques. Les images
incarnent l'information travers trois modes diffrents, chacun d'entre eux ayant une relation structurelle diffrente avec
leur rfrent. Elles peuvent fonctionner 1) en offrant une analogie visuelle ou une ressemblance morphologique, 2) en
fournissant une image visuelle d'un phnomne invisible, ou 3) en fournissant des conventions visuelles pour structurer
des oprations ou des procdures . DRUCKER, 2010. p. 4.
LAPOTRE Raphalle | DCB | Mmoire d'tude | dcembre 2014
70
Les Donnes, un outil de navigation dans les collections ?

d'un objet devait permettre de crer une analogie entre un phnomne et sa


reprsentation, elle explique que la longue liste de distorsions, de dessins de
spcimens pour lesquels aucune classification conceptuelle n'tait encore tablie plaide
fortement en faveur des effets des images mentales et de leur influence sur la
perception 223.
La reprsentation d'un phnomne, notamment grce la visualisation des donnes
qu'il peut produire, joue un rle important dans sa comprhension. Mais o se situe donc
la Classification Dcimale Universelle par rapport cela ? Remarquons en premier lieu
que Paul Otlet avait conu sa classification de manire ce qu'elle prsente davantage
de souplesse qu'un arbre hirarchique traditionnel. Il avait en effet fait en sorte qu'elle
puisse combiner plusieurs facettes d'un mme objet, ce qui rendait sa classification
davantage multidimensionnelle que celle de Dewey. Mais au-del de cela, Otlet a
cherch prsenter visuellement cette multi-dimensionnalit et beaucoup de ses
illustrations taient caractrises par des reprsentations non-hirarchiques de la
classification, ressemblant des rseaux et prvoyant des parcours indirects sans passer
par des troncs ou des hirarchies particulires 224.
Dans ce contexte, tout l'enjeu du sminaire de la CDU tenu en 2013 tait de
parvenir reprsenter graphiquement la classification et, l'instar de Paul Otlet son
concepteur, d'aller au-del de la traditionnelle figure arborescente qui caractrisait les
classifications prcdentes pour pouvoir rendre au mieux la multi-dimensionnalit qui
caractrise la CDU et, plus gnralement, l'organisation labyrinthique des
connaissances.

De l'arbre... la galaxie.
Au sein du recueil des communications faites l'occasion du sminaire de la CDU
de 2013, nous avons choisi les exemples qui nous paraissaient la fois les plus lis au
monde des bibliothques et les plus emblmatiques des quelques techniques de
visualisation dont nous allons exposer ici les caractristiques.

Figure 8 : un exemple de structures hirarchiques prsentes sous forme


textuelle et visuelle.

Pour commencer, nous pouvons considrer, au niveau le plus lmentaire de la


visualisation des connaissances, la mtaphore de l'arbre (figure ci-dessus 225). Il s'agit
simplement de visualiser la fois des relations entre des concepts mais aussi les
223
Ibid. The long invetory of distortions, drawings of specimens for which no conceptual classifications is yet
established argues strongly for the effects of mental images and their influence on perception . p. 5.
224
WEINGART, 2013. () Many of Otlet's illustrations featured non-hierarchical network-like representations of
classification, with circuitous paths and no discernible trunk or preferred hierarchy () . p. 50.
LAPOTRE Raphalle | DCB | Mmoire d'tude | dcembre 2014 - 71 -
Droits dauteur rservs. OU
hirarchies qui existent entre eux. La mtaphore de l'arbre est bien souvent utilise
par volont la fois de simplification et de prcision : du fait de ses contraintes
hirarchiques, il n'est pas possible de dvelopper un trop grand nombre de
branches partir d'un terme, ce qui est aussi un avantage car cela permet d'viter le
dsordre inhrent une visualisation en rseau, cette dernire n'ayant ni dbut ni
fin, ni extrieur ni intrieur. C'est une visualisation qui se rvle galement peut-
tre plus facile d'approche, du fait de la familiarit naturelle et universelle que l'on
peut entretenir vis--vis de la mtaphore arborescente. La Classification
Universelle Dcimale, l'instar de toutes les classifications traditionnelles, se prte
assez bien une visualisation arborescente, tant donn qu'elle est elle-mme
conue sur le modle de l'arbre : par exemple, la maladie cliaque en 616.341-
008.6, est subordonne 616.34, qui est subordonn 614.3, etc. 226. L'arbre
apparat donc comme une reprsentation naturelle pour la classification, et, par l,
la navigation. D'ailleurs, les sites de commerce en ligne l'ont bien compris,
puisqu'ils proposent bien souvent une interface facettes pour naviguer dans leur
catalogue de produits (figure ci-dessous 227), comme l'explique le consortium de
bibliothques universitaires de l'Illinois dans sa page consacre aux questions
frquemment poses :
Les facettes permettent de diviser un ensemble de documents (comme une
liste de rsultats provenant d'un moteur de recherche) en des sous-ensembles
plus petits, partir d'un lment commun que partagent ces documents. La
recherche facette permet de fournir un moyen l'utilisateur de restreindre
rapidement un ensemble large de documents vaguement lis entre eux en des
sous-catgories plus petites. Des exemples populaire de l'utilisation de fa -
cettes sont Amazon, eBay et beaucoup d'autres sites d'achats en ligne, de
mme que quelques catalogues de bibliothques ou de bases de donnes d'ar -
ticles. Par exemple, une recherche pour le terme chaussures sur un maga-
sin en ligne vous permet d'avancer en restreignant chaussures d'homme ou
chaussures de femmes, puis de restreindre encore par couleur, prix, etc. 228.
En clair, les interfaces proposant une recherche facettes permettent
d'affiner une ide comme on pellerait un oignon, et d'avancer dans l'information en
partant du gnral pour arriver au particulier 229. Il s'agit donc bien l d'une
progression hirarchique et arborescente, le principe de l'arbre tant de cacher les
proprits gnrales d'un objet derrire des proprits particulires : la dsignation
d'une chose comme un chien sous-entend ncessairement qu'elle est aussi un
mammifre et un animal. De mme, les catalogues de bibliothques qui proposent
une navigation dans leur collection par facettes proposent en ralit ce qui peut
tre considr comme la visualisation d'un arbre : l'affichage Primo 230 des
225
xlin_udcseminar2013.pdf, [sans date]. [en ligne]. [Consult le 8 septembre 2014]. Disponible ladresse :
http://www.udcds.com/seminar/2013/media/slides/xlin_udcseminar2013.pdf
226
RAZPOTNIK, pela, AUPERL, Alenka. Enhancing browsing experience through visual presentation of
subject terms , dans INTENRATIONAL UDC SEMINAR, SLAVIC, 2013. e.g. coeliac disease 616.341-008.6, est
subordonne 616.34, qui est subordonn 614.3, etc . p. 212.
227
Cf annexe p. 109, figure 29.
228
VuFind FAQ: Frequently Asked Questions, [sans date]. [en ligne]. [Consult le 29 aot 2014]. Disponible
ladresse : http://www.library.illinois.edu/learn/find/vufind/vufind_faq.html . Facets divide a single set of items (like
results from a search engine) into smaller sub-sets based on something those items share in common. Faceted searching
provides a way for a user to quickly narrow down a very broad set of loosely related items into smaller sub-sets. Popular
examples of the use of facets can be found on Amazon, eBay, and many online shopping sites, as well as some library
catalogues and article databases. For example, a search for shoes at an online store allows you to narrow further by
men's shoes or women's shoes, and then provides further refinements to narrow by color, price, tec. (Consortium of
Academic Research Libraries in Illinois, 2011) .
229
LA BARRE, Kathryn. Sempre avanti ? Some reflections on faceted interfaces , dans INTERNATIONAL
UDC SEMINAR, SLAVIC, 2013. p. 94.
230
Cf annexe p. 109, figure 30.
LAPOTRE Raphalle | DCB | Mmoire d'tude | dcembre 2014
72
Les Donnes, un outil de navigation dans les collections ?

bibliothques de l'Universit de l'Illinois (UIUC) suggre dans son menu un certain


nombre de catgories (format, localisation, sujet, auteur, collection, date de publication,
etc.), elles-mmes divises en sous-catgories (on trouvera dans la catgorie format
les sous-catgories articles, priodiques, livres, articles de journaux, etc.). Si l'on
prend donc la visualisation dans son sens large d'affichage de l'information, les espaces
sparant les catgories et la mise en gras des titres de catgories constituent eux-
mme une visualisation de l'organisation de l'information, de mme que l'organisation
d'un livre en parties et chapitres.

Figure 9 : Amazon, exemple par excellence d'interface facettes.

Mais ce type de visualisation, s'il est fort utile, comme l'illustre le succs des sites
de ventes en ligne, possde toutefois ses limites lorsqu'il s'agit de visualiser les rseaux
complexes de l'information. Les exprimentations conduites l'Universit de l'Illinois
ont montr qu'il n'tait pas possible d'afficher toutes les sous-catgories attenantes une
recherche, et qu'il tait ds lors ncessaire de supprimer des lments pourtant
importants. Par ailleurs, comme le soulignent Xia Lin et Jae-Wook Ahn, ces structures
de connaissances taient labores la plupart du temps par des hommes experts dans
chaque domaine et existaient sous la forme de vocabulaires contrls et d'ontologies 231.
On ne voit pas trs bien l'utilit, dans ce contexte, d'une visualisation qui se contente de
reproduire une reprsentation dj dtermine au pralable : elle ne permet pas
rellement de dcouvrir de nouvelles relations entre plusieurs concepts. Kathryn La
Barre, qui avait dvelopp l'exemple de la navigation par facettes, en appelle elle-mme
dcouvrir d'autres faons de visualiser l'information 232.
Les nouvelles techniques de traitement des donnes permettent d'innover dans
l'laboration de visualisations performantes du savoir et de son organisation. Souvent,
crivent Lin et Ahn, il n'existe pas de structures de connaissances explicite et dj prte
tre visualise. Ds lors, il faut faire l'effort d'extraire la structure de connaissances de
LIN, Xia, AHN, Jae-WOOK. Challenges of knowledge structure visualization , dans INTENRATIONAL UDC
231

SEMINAR, SLAVIC, 2013. p. 79.


232
LA BARRE, 2013. p. 100-101.
LAPOTRE Raphalle | DCB | Mmoire d'tude | dcembre 2014 - 73 -
Droits dauteur rservs. OU
donnes non-structures en utilisant des techniques varies de fouille de texte 233
avant de pouvoir visualiser les structures . Les auteurs dcrivent ensuite un
processus de regroupement (clustering) 234 :
Une des mthodes les plus populaires utilises pour extraire des structures
de connaissances est l'algorithme cartographique auto-organisant () dve -
lopp par Teuvo Kohonen (). L'algorithme utilise un rseau neuronal artifi -
ciel qui peut tre appris, partir des vecteurs caractrisant l'ensemble des
donnes textuelles selon les positions de l'extraction de concepts. La carte ap-
prise inclut un nombre de cellules qui reprsente les concepts les plus re-
prsentatifs. Les concepts qui leurs sont lis sont calculs partir du proces -
sus d'apprentissage et sont placs dans les cellules avoisinantes 235.
Les algorithmes de regroupement et de calcul de distances permettent de faire
merger les relations entretenues par plusieurs concepts entre eux et, de l, font
apparatre une organisation des connaissances. Les visualisations qui sont
produites partir de ces oprations font apparatre de nouvelles hirarchies entre
les ides et permettraient ainsi de dcouvrir des associations inconnues jusqu'alors.
Ces visualisations sont donc bien souvent en forme de rseaux smantiques (de
labyrinthes en rhizomes , si l'on voulait employer l'expression d'Umberto Eco)
mais ont l'inconvnient d'tre assez dsordonnes 236. Il est donc ncessaire de les
simplifier au maximum, ce qu'ont propos Lin et Ahn avec l'Expansion Visuelle de
Requte (EVR) dont le principe est de restreindre le rseau d'un concept ses cinq
relations les plus importantes, le chiffre cinq tant choisi arbitrairement 237.
Contrairement la recherche facettes dveloppe plus haut, ces
visualisations de structures de connaissances labores partir de techniques
d'extraction de donnes, telles que dveloppes dans les exemples que nous venons
de citer, ne permettent pas vritablement de naviguer dans les collections d'une
bibliothque, l'exception peut-tre de l'Expansion Visuelle de Requte qui permet
terme de construire une requte selon des oprateurs boolens 238. Elles
permettent simplement de visualiser l'organisation des connaissances et ne sont
donc en dfinitive qu'un appui pour des chercheurs qui voudraient se reprsenter
leur domaine de recherche.
Dans ce contexte, l'exemple de l'utilisation du logiciel d'exploration Tag
Galaxy dans un catalogue de bibliothque (figure ci-dessous 239), dvelopp par
Razpotnik et auperl 240, apporte un lment nouveau : de mme que l'Expansion
Visuelle de Requte, Tag Galaxy donne la capacit de construire visuellement des
requtes complexes en ajoutant un concept un autre pour restreindre la recherche.

233
Cf note n190.
234
Cluster analysis or clustering is the task of grouping a set of objects in such a way that objects in the same
group (called a cluster) are more similar (in some sense or another) to each other than to those in other groups (clusters).
It is a main task of exploratory data mining, and a common technique for statistical data analysis, used in many fields,
including machine learning, pattern recognition, image analysis, information retrieval, and bioinformatics . Cluster
analysis, 2014. Wikipedia, the free encyclopedia [en ligne]. [Consult le 14 dcembre 2014]. Disponible ladresse :
http://en.wikipedia.org/w/index.php?title=Cluster_analysis&oldid=6357526 4. Page Version ID: 635752641
235
LIN, AHN, 2013. One of the popular methods used to extract knowledge structures is the self-organizing,
mapping alhorithm (SOM) developed by Teuvo Kohonen (Kohonen, 1990). The algorithm makes use of an artificial
neural network that can be trained from the feature vectors of the text data set at the positions of the concept extraction
(Kaski et al., 1998). The trained map includes a number of cells that represent most representative concepts. Related
concepts are calculated from the training process and they are placed in the neighbouring cells. p. 80.
236
Cf annexe p. 110, figure 31.
237
LIN, AHN, 2013. p. 83. cf annexe p. 108, figure 28.
238
Ibid. This way the user picks up terms to build the query ''semantic AND verbal learning AND cognition'' to
search in PubMed . p. 83.
239
Tag Galaxy, [sans date]. [en ligne]. [Consult le 9 septembre 2014]. Disponible ladresse :
http://taggalaxy.de/
240
RAZPOTNIK, AUPERL, 2013, p. 216-219.
LAPOTRE Raphalle | DCB | Mmoire d'tude | dcembre 2014
74
Les Donnes, un outil de navigation dans les collections ?

Cette fois-ci, cependant, nous pouvons descendre jusqu'au niveau du document dont le
visuel est lui-mme intgr la reprsentation 241, contrairement l'EVR pour lequel la
visualisation s'arrte simplement la construction de la requte. Tag Galaxy est en effet
un explorateur visuel utilis par Flickr afin de permettre ses utilisateurs de naviguer
plus facilement dans l'amas stellaires de photographies quotidiennement postes, tagues
et commentes sur le site. Il suffit de rentrer dans la barre de recherche un sujet, comme
par exemple BnF pour que l'explorateur propose un soleil central reprsentant ce tag
ainsi que plusieurs plantes gravitant autour de ce soleil et reprsentant les concepts
affins. Par un clic sur l'une des plantes, le concept qui lui est attach s'ajoute la
requte initiale. Un autre clic sur le soleil permet de voir s'afficher en mosaque sur
l'toile l'ensemble des photographies recherches, restreint par la liste des concepts qui
auront t prcdemment slectionns parmi les plantes de la galaxie 242. Razpotnik et
auperl ont dmontr que cet outil tait tout fait adaptable l'univers d'une
bibliothque 243.

Figure 10 : galaxie se formant autour du tag BnF sur Flickr.

Inutile de dire qu'il s'agit l, la fois, d'une manire de visualiser l'organisation des
connaissances, mais aussi, de naviguer jusqu' un document recherch. Par ailleurs, les
galaxies sont construites par des algorithmes qui donnent mathmatiquement une
structure aux masses de donnes qui lui sont soumises : il est donc possible de
dcouvrir, en dehors des hirarchies dj connues, des affinits jusque l non envisages
entre plusieurs concepts. Ds lors, Tag Galaxy apporte ceci de nouveau qu'il permet
d'oprer une synthse entre la navigation par des interfaces facettes, arborescentes, et
des oprations effectues mcaniquement sur des donnes afin d'en faire merger des
structures invisibles auparavant. Par ailleurs, c'est une manire ludique et agrable de
rechercher l'information, mme s'il est vrai que le design de l'outil, dj vieux de
quelques annes, pourrait tre amlior.
Les technologies affilies aux donnes permettent d'aller plus loin encore que la
simple navigation et d'explorer virtuellement les collections.
Cf annexe p. 110, figure 32.
241

242
Dmonstration en ligne : Tag Galaxy - Create Your Own Flickr Photo Universe, 2011. [en ligne].
[Consult le 29 aot 2014]. Disponible ladresse : http://www.youtube.com/watch?
v=uDMYByYOCa4&feature=youtube_gdata_player
243
RAZPOTNIK, AUPERL, 2013.
LAPOTRE Raphalle | DCB | Mmoire d'tude | dcembre 2014 - 75 -
Droits dauteur rservs. OU
RENDRE VISIBLE LA BIBLIOTHQUE SUR INTERNET.
Que peut-tre une bibliothque l'heure d'Internet et du numrique ? C'est
sans doute une banalit de le dire, mais la question de l'identit de la bibliothque
est au cur de nos 244 proccupations contemporaines, tant cette dernire est
interroge par les nouveaux usages introduits l're du numrique. Nous tenterons,
dans ce dernier chapitre, d'apporter quelques lments de rponses cette question,
en nous en posant une autre : en quoi la visualisation des donnes et avec elles,
la visualisation des collections et des publics pourrait-elle permettre de donner
une visibilit nouvelle la bibliothque dans le contexte numrique actuel ? Car la
question de la reprsentation est bien, ce qu'il nous semble, intrinsquement lie
celle de l'identit.
Nous avons jug ncessaire de rappeler, en premier lieu, les caractristiques
du nouvel environnement numrique des bibliothques, ainsi que les problmes
qu'il pose. Nous aimerions dmontrer, dans un second temps, la ncessit d'un
geste visuel fort pour rendre visible la bibliothque dont nous aimerions dessiner
les principaux traits dans un troisime moment de cette rflexion.

Les bibliothques dans l'conomie de l'attention.


Le Web a pour effet immdiat de crer une conomie de l'abondance
d'information () , crit Emmanuelle Berms :
la bibliothque n'est plus un passage oblig pour accder aux documents.
Toute dmarche oriente utilisateur dans l'environnement du Web doit donc
prendre en compte comme paramtre premier le besoin de visibilit. La lo -
gique du portail est insuffisante sur le Web : c'est dans les moteurs gnra-
listes eux-mmes, tels que Google, Yahoo !, Bing, etc. qu'il faut gagner en vi-
sibilit si l'on veut capter l'attention des internautes. 245
Capter l'attention des internautes , c'est bien l une phrase caractristique
de cette conomie dont Emmanuel Kessous a dcrit en dtail les rgles dans son
ouvrage intitul L'attention au monde : sociologie des donnes personnelle l're
numrique 246. L'attention, cette facult de l'esprit de se consacrer exclusivement
un objet , y est dcrite comme une ressource d'autant plus limite que
l'information est devenue, l'poque d'Internet, surabondante. Si au XX e sicle, la
psychologie a mis en vidence les limites cognitives de l'attention humaine, le
XXIe sicle ajoute cette raret un accs dcupl l'information :
Si le cyberespace se dveloppe pour englober les interactions entre les mil -
liards de personnes aujourd'hui sur la plante, ces types d'interaction seront
totalement diffrents de ce qui prvalait durant ces derniers sicles ou mme
avant (). Lanham rejoint sur ce point Goldhaber et parle propos d'Internet
d'conomie pure de l'attention. ''Il y a un segment de notre vie actuelle qui
constitue une conomie de l'attention l'tat pur. Que nous l'appelions cybe -
respace, virtualit, communication mdie par ordinateur, ou tout simplement
le Net, l-bas l'attention est tout. Bien sr, il y a une foule de signes de retour

244
L'emploi du nous dsigne ici la fois les professionnels de la documentation et le public (ou non) des
bibliothques.
245
BERMS, Emmanuelle, ISAAC, Antoine et POUPEAU, Gautier, 2013. Le Web smantique en bibliothque.
ditions du Cercle de La Librairie. p. 23.
246
KESSOUS, Emmanuel, 2012. Lattention au monde: Sociologie des donnes personnelles lre numrique .
Armand Colin.
LAPOTRE Raphalle | DCB | Mmoire d'tude | dcembre 2014
76
Les Donnes, un outil de navigation dans les collections ?

la ''vraie vie'', mais ils ne sont que des moyens de sortir d'une conomie de l'at -
tention pure'' 247.
Le contexte numrique actuel est donc dcrit comme une conomie de l'attention
pure selon les mots de Richard Lanham cits par Kessous. On pourrait objecter cela
que le livre d'Emmanuel Kessous est une sociologie : il se contente de dcrire et
d'expliquer un ensemble de conception dont il fait une nouvelle cit 248, venant
s'ajouter aux autres et obissant des principes suprieurs communs 249. En ce sens, il
ne dcrirait pas tant une nouvelle ralit qu'une nouvelle pense conomique.
Nanmoins, c'est bien dans ce cadre de l'conomie de l'attention qu'Emmanuelle Berms
dcrit, trs justement ce qu'il nous semble, les problmes actuels des bibliothques.
Elle dcrit en effet le monde de l'information en utilisant la mtaphore du milieu urbain :
l'instar de la bibliothque physique, implante dans son environnement urbain, la
bibliothque virtuelle implante dans l'environnement d'Internet doit se signaler, se
rendre visible.
Sur le rseau, que l'on peut percevoir comme un vaste espace d'information dans
lequel les internautes naviguent en suivant un cheminement qui correspond leur
propre pratique, le site Web de la bibliothque joue le mme rle que le btiment
dans la ville. Il doit bien sr tre fonctionnel et immdiatement identifiable. Toute -
fois, cela n'est pas suffisant car il ne se trouve pas naturellement sur le chemin de
l'internaute dans sa navigation : celui-ci va frquenter son moteur de recherche pr-
fr, la page d'accueil de son fournisseur d'accs, des sites comme Facebook, Wiki -
pdia, Twitter... et c'est partir de l que se construit sa navigation. Si la biblio -
thque ne parvient pas se rendre visible au sein de ce cheminement naturel, alors
il y a toutes les chances que l'internaute passe ct et utilise d'autres outils pour
atteindre ses objectifs, que ceux-ci soient de loisirs, d'apprentissage ou de vie pra -
tique 250.
l'instar des visualisations propres la navigation que nous avons dcrit plus
haut, c'est de nouveau sous la mtaphore de la spatialisation que se dcrit l'accs au
savoir et l'information dans l'environnement numrique. Le problme de l'attention la
bibliothque, de sa visibilit, se pose donc en terme de cheminement urbain. Or, nous
avons soulign plus haut l'importance de la mtaphore quant la comprhension de
l'organisation de l'information : c'est donc avec la mtaphore urbaine que nous nous
proposons maintenant de montrer l'intrt de la visualisation pour la visibilit de la
bibliothque en ligne.

De la monumentalit au geste visuel.


Deux solutions s'offrent au problme de la visibilit de la bibliothque dans la
ville. La premire concerne sa situation dans le tissu urbain et la seconde, sa
monumentalit, est celle qui la rendrait reprable dans la ville. Emmanuelle Berms
semble pencher pour la premire solution :
Dans la ville, pour tre frquente, la bibliothque a besoin d'tre incarne par un
btiment visible, immdiatement identifiable pour la fonction qu'il remplit. La bi -
bliothque met galement en place des moyens qui permettent aux lecteurs poten -
tiels de la trouver : des panneaux indicateurs, ou tout simplement un symbole qui
positionne son emplacement sur une carte.

247
Ibid. p. 165.
248
Ibid. p. 163.
249
Ibid. p. 155.
250
BERMS, ISAAC, POUPEAU, 2013. p. 24.
LAPOTRE Raphalle | DCB | Mmoire d'tude | dcembre 2014 - 77 -
Droits dauteur rservs. OU
Cependant, cette dmarche purement gographique si elle est indispensable,
ne peut suffire comme unique moteur pour inciter les gens venir la biblio -
thque. Les diffrentes stratgies mises en place par les bibliothques pour
gagner une audience plus large dans la cit, du bibliobus la bibliothque
hors les murs, en passant par toutes les animations qu'elles organisent (expo -
sitions, lectures, accueil des scolaires...) et les diffrents moyens qu'elles
peuvent utiliser pour faire connatre ces activits hors de la bibliothque ( la
mairie, dans d'autres tablissements culturels...) participent toutes d'une d-
marche visant guider l'utilisateur la bibliothque avec pour argument le
contenu 251.
Ainsi, de mme que la bibliothque physique doit sortir de ses murs pour
aller la rencontre de ses usagers, le catalogue en ligne doit pouvoir s'ouvrir aux
formats du Web Smantique pour que les informations qu'il contient puissent
apparatre dans les rsultats des moteurs de recherche. La prsence des
bibliothques sur les rseaux sociaux, comme Facebook et Twitter, participe
galement de cette ide de rendre visible la bibliothque par sa prsence dans le
tissu virtuel. Cependant, dans son mmoire consacr au choix de l'implantation de
la bibliothque dans la ville 252, Grgor Blot-Julienne indique que le positionnement
urbain de la bibliothque ne fait pas tout. Pour lui, la monumentalit demeure
comme un signe :
Outre qu'elle signale la bibliothque plus efficacement que tous les pan -
neaux, elle seule permet d'intgrer la volont politique autant que la finalit
mme de la bibliothque (). Et comme la bibliothque est difficile dfinir
comme objet d'architecture, elle constitue la monumentalit comme une n -
cessaire distinction par laquelle elle dfinit sa place autant que son rle 253.
En distinguant la bibliothque du reste du bti, le geste architectural
contribue confrer cette dernire une identit en tant que btiment qui, sans
cela, resterait difficile dfinir. C'est bien l une confirmation du lien intrinsque
qui unit le problme de l'identification du lieu bibliothque et le problme de sa
visibilit. Mais pour poursuivre l'analogie avec la visibilit de la bibliothque dans
l'espace global d'information du web, quel lment numrique pourrait
correspondre la porte du geste architectural, si ce n'est la visualisation de
donnes ? Il nous semble en effet significatif que Johanna Drucker, dans sa
tentative pour dfinir ce qu'elle appelle graphesis, se rfre aux artistes du Bahaus
et plus particulirement Kandinsky dont la conviction tait que le design
convenait tout mdia et toute discipline, y compris ce qui deviendrait plus tard
l'infographie. De fait, Johanna Drucker fait du design un lment central de la
visualisation et, par extension, de tout mdia numrique 254. Or, ce caractre central
du design dans la visualisation nous parat tout fait fondamental lorsque l'on
considre quelle place les conomistes de l'attention lui accordent eux-mmes dans
leur cit . Le design d'un produit, crit Richard Lanham, nous invite lui
prter attention de manire particulire, porter un certain type d'attention sur lui.
251
Ibid.
252
BLOT-JULIENNE, Grgor, 2012. Du choix de limplantation aux stratgies de localisation: bibliothques
dans la ville. Bibliothque numrique de l'Enssib. Consult le 30 aot 2014. Disponible l'adresse Web :
http://www.enssib.fr/bibliotheque-numerique/documents/56709-du-choix-de-l-implantation-aux-strategies-de-
localisation-bibliotheques-dans-la-ville.pdf
253
Ibid. p. 21.
254
DRUCKER, 2010. Digital technology depends on visual presentation for much of its effectiveness. The
ubiquitous graphical user interface and design of icons for navigation, daily activities and functions are, familiar graphic
structures. Higher-level functions using visualization are commonplace for analysis of statistical data. Many creative,
original works in all areas of design for industry, art, entertainment, engineering, and technological activity at micro and
macro levels are graphically enabled through design . p. 1.
LAPOTRE Raphalle | DCB | Mmoire d'tude | dcembre 2014
78
Les Donnes, un outil de navigation dans les collections ?

Le design ne nous dit rien sur les choses elles-mmes, mais sur ce que nous pensons des
choses. Il est l'interface o les chose que nous extrayons de la crote terrestre
rencontrent une ralit pleinement humaine de sentiments, d'attitudes, et
d'ambitions 255.
Et si, l'instar d'Emmanuelle Berms, nous parlions de catalogue en ligne de
bibliothque et que nous lui ajoutions une dimension visuelle par l'intermdiaire des
donnes qu'il contient, nous ajouterions l un autre lment fondamental de l'conomie
de l'attention, savoir la facult de filtrer l'information, et ventuellement d'effectuer
des recommandations, ce qui d'ailleurs a de plus en plus tendance se dvelopper dans
les catalogues nouvelle gnration . Nous aurions l un dispositif numrique tout
fait efficace dans l'environnement virtuel 256. Reste savoir sous quelle forme nous
pourrions dcliner ce dispositif : c'est ce que nous allons tenter de dfinir maintenant.

Un data game stellaire ?


Un data game, ou jeu avec des donnes, est un jeu vido dont l'environnement et le
scnario sont uniquement fonds sur des donnes relles. Le principe du data game est
simplement d'tre un jeu vido, une simulation, dont le contenu est apport par des
donnes se rfrant des objets rels. Ainsi, dans le cas d'un jeu srieux (serious game)
dont le but serait de simuler des explosions de bombes nuclaires et d'en mesurer les
consquences, celui-ci se dclinerait ainsi :
Le lieu, d'abord, pourra ainsi tre une grande ville contemporaine ou un des en -
droits de la plante qui a dj connu une explosion atomique. Et la puissance de la
bombe, elle, pourra correspondre l'arme largue sur Hiroshima, la plus grosse
ogive franaise ou encore la Tsar bomba , mastodonte de l'arme sovitique.
() Quant l'objectif, il est suggr par le dispositif : recrer toutes les conditions
de l'attaque sur Nagasaki et voir combien de victimes elle ferait si elle avait lieu
aujourd'hui, dterminer quelle cible serait la plus intressante pour les tats-Unis
si nous tions encore en guerre froide, voir jusqu'o s'tendrait la contamination
provoque par une bombe nord-corenne touchant Soul... 257.

Si le principe de ce type de jeu est de se fonder sur des donnes d'objets rellement
existants (la population d'une ville, le nombre de ses voies de communications, etc.),
cela signifie que l'on pourrait tout aussi bien choisir les donnes bibliographiques d'un
OPAC et proposer un jeu dont le but serait de les explorer. La vertu principale du data
gaming est en effet de proposer une exploration interactive des donnes et de leur
caractristiques : Dans un jeu, il y a le plus souvent un conflit, une opposition, un
obstacle comprendre pour mieux le surmonter. (). vous de construire une
exprience, en proposant des choix qui seront intressants pour votre public. Ainsi, vous
l'amnerez explorer, analyser et comparer des lments afin de prendre la meilleure
dcision possible pour atteindre l'objectif fix 258. Explorer, analyser, comparer... Voil
un outil de mdiation fort intressant pour qui veut maintenir pour longtemps l'attention
d'un public diversifi sur le catalogue en ligne d'une bibliothque, ce reflet de la
collection physique 259, comme l'crit Emmanuelle Berms : un data game dont les
donnes seraient celles d'un catalogue permettrait donc d'explorer virtuellement les
collections d'une bibliothque. Mais il est galement question ici d' objectifs : c'est l
Richard Lanham dans KESSOUS, 2012. p. 170.
255

Ibid. Les filtres et les moteurs de recherche ou de recommandation () constituent un moyen de rpondre aux
256

phnomnes de surcharge cognitive mais permettent aussi des ouvertures exploratoires, en jouant sur la curiosit . p. 173.
257
Du jeu de donnes au jeu avec les donnes | The Pixel Hunt, [sans date]. [en ligne]. [Consult le 30 juillet 2014].
Disponible ladresse : http://florentmaurin.com/?p=471
258
Ibid.
259
BERMS, ISAAC, POUPEAU, 2013.
LAPOTRE Raphalle | DCB | Mmoire d'tude | dcembre 2014 - 79 -
Droits dauteur rservs. OU
le propre de la ludification . Le jeu permet en effet l'apprentissage,
l'appropriation d'un objet complexe par le biais d'une exprience interactive,
obissant des rgles, astreinte un ou plusieurs objectifs particuliers et
produisant des rsultats variables en fonction de l'action du joueur : il suffirait
alors de masquer l'exploration des donnes du catalogue derrire un scnario qui
s'appuierait sur une mtaphore. Il reste savoir quelle pourrait tre cette
mtaphore : Umberto Eco avait soulign la conformit de la mtaphore du cosmos
avec la reprsentation d'une organisation du savoir. Cette mme mtaphore ayant
t dveloppe dans l'exemple de Tag Galaxy prsent plus haut, pourrait
s'appliquer un data game labor partir des donnes d'un catalogue de
bibliothque. Chaque livre ou chaque auteur ou chaque sujet particulier pourrait
tre reprsent par une plante, appartenant un systme qui serait lui-mme
constitu par l'ensemble des livres(-plantes) que l'ordinateur aurait jug proches
selon les critres que l'on souhaite (selon son sujet, son auteur, son ambiance, sa
couleur la plus prsente, etc...), ces systmes tant leur tour regroups en
galaxies.

Figure 11 : Prsentation du knowledge


graph de Google. Ici, les femmes et le prix Nobel.

L'exploration des collections de la bibliothque serait alors dveloppe selon


le thme de l'exploration spatiale, un thme qui, nous semble-t-il, est relativement
universel car le ciel toil est un bien commun et familier de tous. Ajoutons qu'il
s'agit d'un thme transgnrationnel, la fois srieux si l'on pense aux derniers
projets en date de la NASA concernant la plante Mars, mais aussi divertissant si
l'on se rfre aux blockbusters les plus rcents. Citons d'ailleurs le gnrique des
dernires adaptations cinmatographiques de Star Trek, portes sur le grand cran
par le ralisateur Jeffrey Jacob Abrams, qui nous parat illustrer ce que pourrait
tre l'exploration spatiale d'un catalogue de bibliothque 260: l'instar de la camra,
le lecteur avancerait de galaxies en galaxies (formes, rappelons-le, par les calculs
d'un ordinateur), les noms des acteurs tant remplacs par des titres de livres, ou
par des noms d'auteurs. C'est d'ailleurs un modle que Google propose, sa
manire, en introduction son knowledge graph (figure ci-dessus 261). Chaque
entit est en effet reprsente sous la forme d'un nud, connecte d'autres entits
260
Star Trek: Into Darkness - End Credits: Preview (2013) | SD, [sans date]. [en ligne].
[Consult le 30 juillet 2014]. Disponible ladresse : http://www.youtube.com/watch?v=_-W6XIWOiMA
LAPOTRE Raphalle | DCB | Mmoire d'tude | dcembre 2014
80
Les Donnes, un outil de navigation dans les collections ?

qui gravitent autour d'elle, sur un fond toil : il ne s'agit cependant pas d'un outil de
navigation, mais d'une simple illustration de la structure encyclopdique du knowledge
graph. L'OCLC propose une visualisation similaire, non pas cantonne cette fois-ci un
rle d'illustration, mais prsente comme une vritable exprience interactive : un clic
sur les auteurs prsents sous la forme de nuds permet de visualiser leurs relations 262.
Cependant, cela ne concerne que des auteurs ou crateurs, et ne permet pas d'aboutir
directement aux documents, ni de construire vritablement une requte.
L'avantage du jeu vido, dans ce contexte, est de prsenter le catalogue de la
bibliothque de manire ludique : ni vritablement catalogue, ni vritablement
bibliothque numrique, il serait pens comme un outil de mdiation dont l'intrt
principal serait sa visibilit et son attraction cognitive. Ajoutons que l'intrt du jeu
vido est galement qu'il peut tre jou plusieurs : il peut donc tre utilis pour animer
une communaut. Cette communaut pourrait tre constitue de lecteurs, et ds lors, la
bibliothque remplirait en quelque sorte son rle politique, savoir celui de concevoir
un projet d'accs commun la connaissance. Mais puisque par ailleurs il s'agit bien d'un
jeu, quel pourrait tre l'objectif qui lui serait assign ? Nous pourrions penser une
comptition portant sur la distance parcourue par un lecteur dans l'univers d'une
bibliothque : le but serait ainsi de conduire le lecteur tendre ses horizons et
rechercher la distance qui peut exister entre plusieurs livres. Des ponts existeraient d'une
galaxie une autre, l o le lecteur aurait remarqu des similarits peut tre inattendues
entre plusieurs livres. Le bibliothcaire pourrait lui-mme jouer virtuellement son rle
de mdiation en orientant, conseillant, recommandant des ouvrages, suggrant des
passerelles, etc. Par l, nous rpondrions peut-tre d'une certaine manire la ncessit
contradictoire de proposer un langage commun, qui garantisse une autonomie des
usagers, tout en rpondant leurs points de vue multiples 263. Un exemple dont la
porte s'tend au-del du monde des bibliothques en est l'incroyable We are Data 264,
modlisation interactive de toutes les donnes qui nous entourent quand on vit dans une
grande ville comme Paris () 265. Cette application web a t dveloppe par Ubisoft
sur le modle d'un jeu vido qu'elle est cense promouvoir partir des donnes relles
de trois grandes villes. On voit par l que la production d'un jeu vido interactif
permettant d'explorer les collections d'une bibliothque n'est donc clairement pas hors de
porte.

NOUVEAU MODLE DE BIBLIOTHQUE OU RENOUVELLEMENT D'UN MODLE DE


BIBLIOTHQUE ?

En interrogeant l'apport rel du numrique et du Big Data l'accs la


connaissance, nous avons cherch proposer le raisonnement suivant : en premier lieu,
nous postulons que l'volution d'un accs arborescent et hirarchique la connaissance
un accs fragmentaire et multidimensionnel ne serait pas li l'apport des nouvelles
technologies mais cette volution qui a fait que nous sommes pass de l'univers clos de
l'antiquit aux perspectives infinies ouvertes par la rvolution copernicienne. En somme,
la mtaphore des feuilles de l'arbre utilise par Weinberger n'est pas bonne pour
dsigner l'organisation des connaissances notre poque. Il faudrait au contraire
261
Introducing the Knowledge Graph, 2012. [en ligne]. [Consult le 2 septembre 2014]. Disponible ladresse :
http://www.youtube.com/watch?v=mmQl6VGvX-c&feature=youtube_gdata_player
262
Cf annexe p. 111, document n5.
263
TESNIRE, Valrie, dans BERTRAND, Anne-Marie, BETTEGA, Emilie, CLMENT, Catherine, ERMAKOFF,
Thierry, EVANS, Christophe, ION, Christina, PICARD, David-Georges, RAPATEL, Livia, TESNI RE, Valrie. Quel modle de
bibliothque?, 2008. Presses de lENSSIB. p. 146.
264
Watch_Dogs WeAreData, [sans date]. Watch_Dogs WeAreData [en ligne]. [Consult le 31 aot 2014]. Disponible
ladresse : http://wearedata.watchdogs.com/. Cf annexe p.111, document n4.
265
Du jeu de donne au jeu avec les donnes. [sans date].
LAPOTRE Raphalle | DCB | Mmoire d'tude | dcembre 2014 - 81 -
Droits dauteur rservs. OU
reprendre la mtaphore du cosmos employe par Umberto Eco pour dsigner
l'exploration des connaissances aujourd'hui. C'est la raison pour laquelle nous
pensons que le rel apport du Big Data l'accs l'information ne rside pas dans
les moteurs de recherches ou les systmes de recommandation, mais bien dans la
mise en avant, par la visualisation, de l'aspect mtaphorique intrinsque toute
exploration des connaissances : l'image, et en particulier l'image du labyrinthe ou
du cosmos, est particulirement en mesure de permettre la dcouverte de
connexions nouvelles entre des domaines de connaissance pourtant auparavant
loigns.
En dfinitive, ce que nous avons cherch dcrire dans le troisime temps de
cette tude, est peut-tre une rflexion sur les modles de bibliothque : modles
d'organisation et de classification des connaissances, modles de visualisation de
ces organisations et, en dernier lieu, modles de navigation dans les collections,
virtuelles, mais aussi physiques.
Envisager l'exploration des collections sur le thme de l'exploration spatiale,
ce serait se faire l'cho des remarques de Valrie Tesnire sur la bibliothque
envisage comme espace de la collection 266 : nous avons souhait en effet nous
demander de quelle manire l'interaction des lecteurs avec les collections, par
l'intermdiaire des donnes et de leurs techniques, pouvait contribuer dfinir
l'espace de la bibliothque virtuelle et construire un vritable dialogue entre monde
numrique et monde physique. Nous passerions donc de la bibliothque comme
espace de la collection la collection comme espace de la bibliothque.

266
TESNIERE, 2008. () Face une inluctable hybridation de la bibliothque par la fonction de
documentation, la notion de collection est-elle bloquante ou bien pense-t-on ceci parce que le rapport
collection/bibliothque reste mal dfini ? C'est bien l que l'on peroit l'ambigut profonde du terme ''bibliothque
numrique'' comme rfrence un lieu ou un contenant, avant que d'tre la rfrence au contenu, savoir la collection.
Or dans les reprsentations collectives de la bibliothque, pas toujours explicites, il y a, en effet, attach la
bibliothque, quelque chose qui rsiste, qui concerne la collection en tant qu'outil public. C'est l, me semble-t-il, le sens
de l'attachement du public : le nier serait se couper du sens commun . p. 144-145.
LAPOTRE Raphalle | DCB | Mmoire d'tude | dcembre 2014
82
CONCLUSION : DONNES ET POLITIQUE
Nous n'avons pu nous empcher de constater, au cours de la rdaction de
cette tude, la proximit troite qui existe entre les donnes des bibliothques et de
l'information et ce que l'on pourrait appeler le politique, au sens de vision globale
du monde organisant la vie de la cit. L'insistance sur la volont de neutralit qui
se lit dans les discours accompagnant l'accs l'information l're du Big Data 267,
qu'il s'agisse de ses aspects pistmologiques travers une certaine lecture de la
science des donnes, de la fourniture de contenus travers la PDA, ou de
l'organisation de ces contenus travers le refus d'une classification gnrale et
collective au profit d'un accs individuel et fragment l'information, nous parat
caractriser ce qui prcisment est par nature politique, savoir l'information et cet
objet de diffusion de la connaissance qu'est la bibliothque. Comment ne pas
penser en effet, que cette revendication de la neutralit est d'autant plus forte que
l'absence du politique est loin d'tre une vidence quand il s'agit de l'information
en contexte dmocratique ?
Ds lors, si nous voulons nous donner la peine de relire la progression de
notre rflexion la lumire de cet aspect politique essentiel qui lui est attach,
trois axes se dgagent, ou plutt, trois questions se posent : comment mieux
connatre cet objet politique qu'est la bibliothque et, travers elle, l'information ?
Comment piloter la bibliothque quand celle-ci est au cur d'un dialogue
permanent entre un trio d'acteurs que sont le bibliothcaire, son lu et ses usagers ?
Et enfin, comment fournir un accs pour tous la connaissance et aux collections
de la bibliothque quand celui-ci est ncessairement le rsultat d'une vision propre
un groupe dominant concernant le monde et son organisation ?
L'histoire des bibliothques, comme leurs professionnels, souffre de
corporatisme , crivait Martine Poulain :
Cette histoire est en effet encore insuffisamment lie l'histoire culturelle,
sociale, politique gnrale des socits et des poques auxquelles elles appar-
tiennent et dont elles sont ncessairement un miroir et un reflet. Quoi de plus
ncessairement politique, pourtant, dans toute l'histoire des socits que l'his -
toire des conceptions du livre, de l'crit et de leur partage 268 ?
Si l'on veut donc concevoir la bibliothque et ses (mta)donnes comme un
objet politique, miroir de l'volution des normes et des valeurs avec lesquelles elles
interagit continuellement, il devient ncessaire de penser un outil de connaissance
qui confre ce caractre politique une place centrale. C'est prcisment ce que
tentent de faire les Humanits Numriques, qui ont voulu laborer un cadre
critique pour la visualisation des donnes et ont fait de la subjectivit inhrente
cette dernire le point de dpart d'une connaissance de la bibliothque et de son
histoire : en tmoigne l'excellent essai The life and death of metadata 269. Il n'est
pas exclure que les algorithmes puissent tre utiliss de la mme manire, et
d'ailleurs, ils le sont dj dans une certaine mesure, puisque d'une part, nous avons
vu que des sociologues se sont attachs dcortiquer leurs prsupposs, et d'autre
part, la visualisation repose largement sur ces algorithmes. Nanmoins, il nous
267
Google, dans la page de prsentation de son quipe, se revendique comme tant une dmocratie, classant ses
pages par la mcanique objective des liens hypertextes : 4. La dmocratie sur le Web fonctionne dans 10 principes
fondamentaux Socit Google, [sans date]. [en ligne]. [Consult le 11 dcembre 2014]. Disponible ladresse :
http://www.google.fr/intl/fr/about/company/philosophy/
268
POULAIN, Martine, 2002. Retourner Tocqueville. [en ligne]. 1 janvier 2002.
[Consult le 11 dcembre 2014]. Disponible ladresse : http://bbf.enssib.fr/consulter/bbf-2002-05-0066-
001/2002/5/fam-apropos/varia
269
The Life and Death of Data, [sans date]. op. cit.
Laptre Raphalle | DCB | Mmoire | dcembre 2014 - 83 -
Droits dauteur rservs. OU
semble que la diffrence fondamentale entre algorithmes et visualisation de
donnes demeure dans le fait que la subjectivit est latente dans les premiers,
tandis que dans la seconde, elle est davantage affirme : ce qu'il nous semble, il y
a en effet une diffrence notoire entre se contenter de transposer une vision du
monde dans un mdia et vouloir exprimer, certes mdiatiquement, mais galement
mtaphoriquement, cette mme vision du monde.
Dans un second temps, si l'on observe la bibliothque et ses collections du
point de vue de leur pilotage, de nouveau, les donnes posent la question
fondamentale du politique, notamment en raison de la particularit des acteurs
qu'elles impliquent. Ces acteurs sont dcrits par Benot Tuleu :
Dans un contexte nouveau o les missions pdagogiques de la bibliothque
seraient enfin garanties, on aurait tout gagner inventer un nouveau tri-
angle lu/bibliothcaire/usager, et placer en son centre la bibliothque
comme objet politique fondamentale 270.
Si donc la bibliothque doit tre conue comme tant au cur d'une
ngociation permanente entre un bibliothcaire, son lu et les usagers de son
service, il apparat ncessaire de rflchir un outil de pilotage qui permette
d'intgrer ce caractre de dialogue continu. cet gard, la visualisation nous parat
de nouveau tre une possibilit intressante : par son caractre mtaphorique, elle
rend bien compte du caractre fondamentalement symbolique des variables qui
sont choisies pour reprsenter son activit. Elle est par ailleurs un moyen ludique
d'apprendre faire parler les donnes, tout en faisant sentir l'apprenant le
caractre construit de ce langage, ne serait-ce que parce que cet apprentissage
implique de rflchir au choix d'une mtaphore pour exprimer la bibliothque. Par
ailleurs l'aspect instable des donnes ou des variables penses comme des
symboles permet galement d'envisager que le sens qui est construit partir des
donnes ne peut tre fixe et certain : la confrontation des variables entre elles, telle
que recommande par Jamene Brooks-Kieffer, implique de questionner de manire
permanente le sens des donnes.
De ce fait, la bibliothque, par le biais de ses donnes, est au cur d'un
dialogue permanent avec l'lu. Or, par ces qualits communicationnelles, la
visualisation est ce qui, par excellence, permet d'enclencher et de renouveler
rgulirement les termes de ce dialogue avec les tutelles de la bibliothque. Mais
quid, dans ce contexte, du dialogue avec les usagers de la bibliothque ? La PDA,
il est vrai, a permis de nourrir l'espoir d'une participation intgrale des usagers
dans le pilotage de la collection d'un tablissement, par le biais notamment de
moteurs de recherches et d'acquisitions la consultation. Cependant, il apparat
ncessaire de penser les limites d'un tel systme : si le pilotage d'une bibliothque
doit se faire par le biais d'algorithmes utiliss par des usagers, et si ces algorithmes
sont bien des mdias, comme nous l'avons crit dans notre premire partie, alors la
PDA reviendrait, dans ces circonstances, mdiatiser la bibliothque, savoir
la transformer en un moyen de communication o se reflteraient les opinions
dominantes, fondes ou non, des utilisateurs de la bibliothque. De fait, si la
bibliothque devait tre intgralement conue sur ce modle, elle serait davantage
amene exprimer les prfrences d'un certain public plutt qu' vritablement
proposer des citoyens un projet relatif l'information : pourrait-on dans ces
conditions parler d'un dialogue entre le bibliothcaire et ses usagers ?
Si donc l'on voulait maintenir ce dialogue permanent l're des mgadonnes
et leurs technologies, comment envisager les donnes des bibliothques en faisant
270
TULEU, Benot, 2011. Trop loin, trop proche. [en ligne]. 1 janvier 2011. [Consult le 11 dcembre 2014].
Disponible ladresse : http://bbf.enssib.fr/consulter/bbf-2011-02-0014-002
LAPOTRE Raphalle | DCB | Mmoire d'tude | dcembre 2014
84
Conclusion : Donnes et politique

en sorte que l'aspect politique de la bibliothque comme lieu de connaissance soit


affirm et soumis une discussion ? L'acte fondateur d'une bibliothque , crit Benot
Tuleu, est toujours un geste politique :
() En France, historiquement, le chef politique est quelqu'un qui veut laisser sa
trace historique dans la pierre des btiments et, si possible, dans celle des monu -
ments publics. La bibliothque joue ce rle, mais aussi participe au dessin d'un
centre-ville, structure un quartier, devient un repre toponyme pour les habitants
qui en sont donc tous un peu usagers 271.
Avec Benot Tuleu, nous aimerions affirmer que tout difice d'accs la
connaissance, qu'il soit physique ou virtuel, monumental ou algorithmique, comporte un
prsuppos politique qu'il transpose dans cet difice. De ce fait, mme l're d'internet
et d'une navigation individuelle travers une information fragmente, la subjectivit qui
autrefois tait inhrente la classification est dplace au niveau des algorithmes et des
adaptations et appropriations qu'ils impliquent chez leurs utilisateurs quant leur
comportement de recherche 272. En consquence, de mme que le geste architectural,
travers la construction d'une bibliothque, avait pour rle d'exprimer et de rendre visible
une vision politique sous-jacente un projet relatif la connaissance, de mme, le geste
visuel peut-il permettre d'exprimer mtaphoriquement dans l'espace virtuel cette vision
politique, tout en lui confrant une visibilit par la captation de l'attention des
internautes.
C'est bien l le rle que peut remplir, nous semble-t-il, un data game dont le
contenu serait les mtadonnes d'une ou de plusieurs collections. Ce jeu vido
fonctionnant sur les donnes d'un catalogue permettrait ainsi de donner un support
allgorique l'accs la connaissance, tout en refusant de prendre trop au srieux cette
allgorie, en lui reconnaissant son caractre intrinsque de mdia. Le principe fondateur
d'un jeu vido n'est-il pas de simuler ? A ce titre, nous pourrions, par exemple, faire
comme si la connaissance s'organisait en un vaste cosmos, comme si le lecteur tait un
cosmonaute explorant les nouveaux horizons insouponns du savoir, et comme si le
bibliothcaire tait lui-mme un guide dans cet univers fictif : le comme si tant la
cl conventionnelle devant veiller et susciter la raction de ceux qui il s'adresse.
De la sorte s'laborerait, avec un nouveau modle de bibliothque, un nouveau
sens du politique : l o Google, en hritier du libralisme politique, se contentait de
dfinir une organisation juste de la connaissance par le biais de son classement, tout
en ne reconnaissant pas ncessairement les valeurs qui constituent malgr lui cette
organisation, il s'agirait dsormais de proposer une organisation bonne , c'est--dire
porteuse d'un sens construit dmocratiquement, tout en donnant au citoyen les moyens
de reconnatre et de discuter le bien-fond des principes sous-tendant cette organisation.
En cela le mouvement du Big Data apporterait quelque chose de radicalement nouveau.

Ibid.
271

Ainsi Ronald E. Day explique-t-il propos du Science Citation Index, principe bibliomtrique l'origine mme du
272

fonctionnement de l'algorithme de Google. DAY. 2014. That a small number of authors publish a greater number of works is a
sociological fact, not a bibliometric one. It belongs to the logic and distributions (the ''grammars'') of social power in particular
types of sociocultural systems. Feeding this back into the production system in terms of social rewards or in temrs of favored
search term leads to exponentially increasing the powers of the sociological systems and does little for the more marginal or
unrepresented authors and works that were present (or not) for counting in the first place. . p. 70.
LAPOTRE Raphalle | DCB | Mmoire d'tude | dcembre 2014 - 85 -
Droits dauteur rservs. OU
Bibliographie

ARTICLES ENCYCLOPDIQUES
Big data, 2014. Wikipedia, the free encyclopedia [en ligne].
[Consult le 1 novembre 2014]. Disponible ladresse :
http://en.wikipedia.org/w/index.php?title=Big_data&oldid=631791921. Page
Version ID: 631791921

Classification dcimale universelle, 2014. Wikipdia [en ligne].


[Consult le 27 aot 2014]. Disponible ladresse :
http://fr.wikipedia.org/w/index.php?title=Classification_d
%C3%A9cimale_universelle&oldid=105773565.

Data set, 2014. Wikipedia, the free encyclopedia [en ligne].


[Consult le 14 dcembre 2014]. Disponible ladresse :
http://en.wikipedia.org/w/index.php?title=Data_set&oldid=625099781. Page
Version ID: 625099781

Fouille de textes, 2014. Wikipdia [en ligne].


[Consult le 14 dcembre 2014]. Disponible ladresse :
http://fr.wikipedia.org/w/index.php?title=Fouille_de_textes&oldid=107660108 .
Page Version ID: 107660108

Indicateur, 2014. Wikipdia [en ligne]. [Consult le 9 novembre 2014].


Disponible ladresse : http://fr.wikipedia.org/w/index.php?
title=Indicateur&oldid=106207898. Page Version ID: 106207898

Ontologie (informatique), 2014. Wikipdia [en ligne].


[Consult le 14 dcembre 2014]. Disponible ladresse :
http://fr.wikipedia.org/w/index.php?
title=Ontologie_(informatique)&oldid=109058774. Page Version ID: 109058774

Reprsentation graphique de donnes statistiques, 2014. Wikipdia [en ligne].


[Consult le 12 dcembre 2014]. Disponible ladresse :
http://fr.wikipedia.org/w/index.php?title=Repr
%C3%A9sentation_graphique_de_donn
%C3%A9es_statistiques&oldid=108854835. Page Version ID: 108854835

Rhizome (philosophy), 2014. Wikipedia, the free encyclopedia [en ligne].


[Consult le 14 dcembre 2014]. Disponible ladresse :
http://en.wikipedia.org/w/index.php?
title=Rhizome_(philosophy)&oldid=637871872. Page Version ID: 637871872

Spcifications fonctionnelles des notices bibliographiques, 2014. Wikipdia


[en ligne]. [Consult le 4 aot 2014]. Disponible ladresse :
http://fr.wikipedia.org/w/index.php?title=Sp
%C3%A9cifications_fonctionnelles_des_notices_bibliographiques&oldid=103576
162.

Laptre Raphalle | DCB | Mmoire | dcembre 2014 - 87 -


Droits dauteur rservs. OU
SPSS, 2014. Wikipdia [en ligne]. [Consult le 12 dcembre 2014].
Disponible ladresse : http://fr.wikipedia.org/w/index.php?
title=SPSS&oldid=109086133. Page Version ID: 109086133

Text mining, 2014. Wikipedia, the free encyclopedia [en ligne].


[Consult le 14 dcembre 2014]. Disponible ladresse :
http://en.wikipedia.org/w/index.php?title=Text_mining&oldid=637280039.
Version ID: 637280039

MMOIRES
BAUDIRE, Marie, 2013. Le bibliothcaire, son lu, son directeur Marie
Baudire. Bibliothque numrique de l'Enssib. Consult le 20 aot 2014.
Disponible l'adresse Web : http://www.enssib.fr/bibliotheque-
numerique/documents/64142-le-bibliothecaire-son-elu-son-directeur.pdf.

BLOT-JULIENNE, Grgor, 2012. Du choix de limplantation aux stratgies


de localisation: bibliothques dans la ville. Bibliothque numrique de l'Enssib.
Consult le 30 aot 2014. Disponible l'adresse Web :
http://www.enssib.fr/bibliotheque-numerique/documents/56709-du-choix-de-l-
implantation-aux-strategies-de-localisation-bibliotheques-dans-la-ville.pdf

CARTIER, Aurore, 2012. Bibliothque et Open data. Et si on ouvrait les


bibliothques sur lavenir? Consult le 15 dcembre 2014. Disponible l'adresse
Web : http://www.enssib.fr/bibliotheque-numerique/documents/60401-
bibliotheque-et-open-data-et-si-on-ouvrait-les-bibliotheques-sur-l-avenir.pdf. p.
61.

GAILLARD, Rmi, 2013. De lOpen data lOpen research data quelle(s)


politique(s) pour les donnes de recherche? Bibliothque Numrique de l'Enssib.
Consult le 18 aot 2014. Disponible l'adresse Web :
http://www.enssib.fr/bibliotheque-numerique/documents/64131-de-l-open-data-a-l-
open-research-data-quelles-politiques-pour-les-donnees-de-recherche.pdf

TISSERANT, Clment, 2013. Domaine public et biens communs de la


connaisance. Sous la direction de Cristina Ion. Disponible l'adresse Web :
http://www.enssib.fr/bibliotheque-numerique/documents/64245-domaine-public-et-
biens-communs-de-la-connaissance.pdf

MONOGRAPHIES
ALEMBERT, Jean Le Rond d et CONDORCET, Jean-Antoine-Nicolas de
Caritat marquis de, 1821. uvres de dAlembert. A. Belin. Volume 1, p. 44.

ALONZO, Valrie, RENARD, Pierre-Yves (dir.). 2012. valuer la


bibliothque. Bibliothques (Paris. 1978), 0184-0886

BATTLES, Matthew. 2013. Data artefacts : tracking knowledge-ordering


conflicts through visualization. dans INTERNATIONAL UDC SEMINAR,
Slavic, Aida et UDC CONSORTIUM (THE HAGUE) (d.), 2013. Classification &
visualization: interfaces to knowledge: proceedings of the International UDC

LAPOTRE Raphalle | DCB | Mmoire d'tude | dcembre 2014


88
Bibliographie

Seminar 24-25 October 2013, The Hague, the Netherlands; organized by UDC
Consortium, The Hague. Wurzburg : Ergon. ISBN 9783956500077 3956500075.

BERMS, Emmanuelle, ISAAC, Antoine et POUPEAU, Gautier, 2013. Le Web


smantique en bibliothque. ditions du Cercle de La Librairie. ISBN 9782765414179.

BORGES, Jorge Luis. 1944. Pierre Mnard, auteur du Quichotte dans Fictions.
ditions Gallimard. ISBN 9782070366149.

BRIEY, Laurent de, 2009. Le sens du politique: essai sur lhumanisme


dmocratique. Editions Mardaga. ISBN 9782804700102.

CUKIER, Kenneth, MAYER-SCHOENBERGER, Viktor et DHIFALLAH, Hayet,


2014. Big Data. Paris : ROBERT LAFFONT. ISBN 9782221140048.

BROOKS-KIEFFER, Jamene. Yielding to persuasion : Library Data's Hazardous


Surfaces dans ORCUTT, Darby, 2010. Library Data: Empowering Practice and
Persuasion. ABC-CLIO. ISBN 9781591588269.

CRAMER, Florian, CUBAUD, Pierre, DACOS, Marin, JAMES, Yannick,


LANTENOIS, Annick (dir.). 2011 Lire lcran : contribution du design aux pratiques
et aux apprentissages des savoirs dans la culture numrique: [actes de la journe
dtude Lectures numriques, Valence, 11 mars 2010]. Organise par lcole suprieure
dart et design Grenoble-Valence.

DAY, Ronald E. ''The Data It is Me !'' (''Les donnes c'est Moi !'') dans
CRONIN, Blaise et SUGIMOTO, Cassidy R., 2014. Beyond Bibliometrics: Harnessing
Multidimensional Indicators of Scholarly Impact. Cambridge, Massachusetts : MIT
Press. ISBN 9780262525510.

DELCARMINE, Nadine. Tableaux de bord en bibliothque dans ALONZO et


RENARD, 2012.

ECO, Umberto. 1965. L'uvre ouverte. Collection Points , ditions du Seuil,


Paris.

ECO, Umberto, 2010. De larbre au labyrinthe tudes historiques sur le signe et


linterprtation. Paris : Grasset. 978-2-246-74851-9

ELGUINDI, Anne C., MAYER, Bill. Telling your library's story : how to make
the most of your data in a presentation dans ORCUTT, 2010

EVANS, Christophe (dir). Mener lenqute : guide des tudes de publics en


bibliothque. 2011. Collection La bote outils, 1259-4857

FARGE, Arlette., 1997. Le Gout de larchive. [Paris] : Seuil. ISBN 2020309092


9782020309097.

KELLAM, Lynda M et PETER, Katharin, 2011. Numeric data services and


sources for the general reference librarian. Oxford : Chandos Publishing.
ISBN 1843345803 9781843345800.

LAPOTRE Raphalle | DCB | Mmoire d'tude | dcembre 2014 - 89 -


Droits dauteur rservs. OU
INTERNATIONAL UDC SEMINAR, SLAVI, Aida et UDC
CONSORTIUM (THE HAGUE) (d.), 2013. Classification & visualization:
interfaces to knowledge: proceedings of the International UDC Seminar 24-25
October 2013, The Hague, the Netherlands; organized by UDC Consortium, The
Hague. Wurzburg : Ergon. ISBN 9783956500077 3956500075.

KESSOUS, Emmanuel, 2012. Lattention au monde: Sociologie des donnes


personnelles lre numrique. Armand Colin. ISBN 9782200286729

LA BARRE, Kathryn. Sempre avanti ? Some reflections on faceted


interfaces , dans INTERNATIONAL UDC SEMINAR, SLAVIC, 2013.

LAVOIE, Brian F., SCHONFELD, Roger C. Books without Boundaries : A


Brief Tour of the System-wide Print Book Collection dans DEMPSEY, Lorcan,
LAVOIE, Brian F., MALPAS, Constance, CONNAWAY, Lynn S., SCHONFELD,
Roger C., SHIPENGROVER J.D. et WAIBEL, Gnter. 2013. Understanding the
Collective Collection : Towards a System-wide Perspective on Library Print
Collections. Dublin, Ohio : OCLC Research. Consult le 5 aot 2014. Disponible
l'adresse Web : http://oclc.org/research/publications/library/2013/2013-09.pdf.

LIN, Xia, AHN, Jae-WOOK. Challenges of knowledge structure


visualization , dans INTENRATIONAL UDC SEMINAR, SLAVIC, 2013.

O'NEIL, Cathy, SCHUTT, Rachel. Doing Data Science, [sans date].


[en ligne]. [Consult le 1 novembre 2014]. Disponible ladresse :
http://shop.oreilly.com/product/0636920028529.do

POISSENOT, Claude. La connaissance des publics via les donnes internes


de la bibliothque. dans EVANS. 2011.

RAZPOTNIK, pela, AUPERL, Alenka. Enhancing browsing experience


through visual presentation of subject terms , dans INTERNATIONAL UDC
SEMINAR, SLAVIC, 2013.

TESNIRE, Valrie, dans BERTRAND, Anne-Marie, BETTEGA, Emilie,


CLMENT, Catherine, ERMAKOFF, Thierry, EVANS, Christophe, ION,
Christina, PICARD, David-Georges, RAPATEL, Livia, TESNIRE, Valrie. Quel
modle de bibliothque?, 2008. Presses de lENSSIB. ISBN 9782910227739.

THOMAS, Neal. 2012. Algorithmic subjectivity and the need to be in-


formed. dans LATZKO-TOTH, Guillaume, MILLERAND, Florence. TEM
2012 : Proceedings of the Technology & Emerging Media Track Annual
Conference of the Canadian Communication Association (Waterloo, May 30 D
June 1, 2012). Consult le 3 aot 2014.
http://www.tem.fl.ulaval.ca/www/wpcontent/PDF/Waterloo_2012/THOMASFTEM
2012.pdf

TILLICH, Paul et GOUNELLE, Andr, 2012. Dynamique de la foi. Geneve;


Qubec; [Paris] : Ed. Labor et fides; les Presses de lUniversit Laval; [diff. les
Ed. du Cerf]. ISBN 9782830914801 2830914805 9782763796024 2763796028.

LAPOTRE Raphalle | DCB | Mmoire d'tude | dcembre 2014


90
Bibliographie

TUFTE, Edward. 2001. The Visual Display of Quantitative Information,


"Graphical Excellence." Cheshire, Connecticut: Graphics Press.

WEINBERGER, David. 2008. Everything Is Miscellaneous: The Power of the New


Digital Disorder. Henry Holt and Company. ISBN 9780805088113.

WEINGART, Scott B. From trees to webs : uprooting knowledge through


visualization dans NTERNATIONAL UDC SEMINAR, SLAVI. 2013.

WRIGHT, Alex, 2008. Glut: Mastering Information Through the Ages. Cornell
University Press. ISBN 0801475090.

YAU, Nathan, 2013. Data visualisation: De lextraction des donnes leur


reprsentation graphique. Editions Eyrolles. ISBN 9782212135992.

REVUES
ALAIN, Corbin, 1991. Arlette Farge, Le got de larchive . Annales.
conomies, Socits, Civilisations. 1991. Vol. 46, n 3, p. 595-597.
DARNTON, Robert. [sans date]. La chandelle de Jefferson. Le dbat. [en ligne].
[Consult le 7 aot 2014]. Disponible ladresse : http://le-
debat.gallimard.fr/articles/2012-3-la-chandelle-de-jefferson/

CARDON, Dominique, 2013. Dans lesprit du PageRank. Rseaux. 1 avril 2013.


Vol. 177, n 1, pp. 63-95. DOI 10.3917/res.177.0063.

DENNI, Galle, 2010. Quatre catgories doutils pour lauto-valuation au SICD2


de Grenoble. [en ligne]. 1 janvier 2010. [Consult le 26 juillet 2014]. Disponible
ladresse : http://bbf.enssib.fr/consulter/bbf-2010-04-0023-005

DRUCKER, Johanna, 2010. Graphesis: Visual knowledge production and


representation. Poetess Archive Journal. 2010. Vol. 2, n 1, pp. 150. Consult le 6 aot
2014. Disponible l'adresse Web :
http://www.johannadrucker.com/pdf/graphesis_2011.pdf.

DRUCKER, Johanna, 2011. Humanities Approaches to Graphical Display.


[en ligne]. 2011. Vol. 5, n 1. [Consult le 1 novembre 2014]. Disponible ladresse :
http://www.digitalhumanities.org/dhq/vol/5/1/000091/000091.html

E.LINK, Forrest, TOSAKA, Yuji, WENG, Cathy. Mining and Analyzing


Circulation and ILL Data for Informed Collection Devlopment. Preprint paratre
dans College & Research Libraries, 2015. Microsoft Word - Link-Tosaka-Weng.docx -
crl14-632.full.pdf, [sans date]. [en ligne]. [Consult le 8 dcembre 2014]. Disponible
ladresse : http://crl.acrl.org/content/early/2014/10/20/crl14-632.full.pdf

ERDMANN, Christopher, 2014. Teaching librarians to be data scientists.


Information outlook [en ligne]. mai-juin 2014. Vol. 18, n 3. [Consult le 17 aot 2014].
DOI 10.5281/zenodo.11217. Disponible ladresse :
https://zenodo.org/record/11217/files/DataScientistTraining.pdf

LAPOTRE Raphalle | DCB | Mmoire d'tude | dcembre 2014 - 91 -


Droits dauteur rservs. OU
GILLESPIE, Tarleton. The relevance of algorithms , paratre dans
GILLEPSIE, Tarleton, BOCZCOWSKI, Pablo et KIRSTEN, Foot. Media
Technologies. Cambridge, MA : MIT Press. Consult le 3 aot 2014 l'adresse
Web : http://www.tarletongillespie.org/essays/Gillespie%20-%20The
%20Relevance%20of%20Algorithms.pdf.

POULAIN, Martine, 2002. Retourner Tocqueville. [en ligne]. 1 janvier


2002. [Consult le 11 dcembre 2014]. Disponible ladresse :
http://bbf.enssib.fr/consulter/bbf-2002-05-0066-001/2002/5/fam-apropos/varia

ROUVROY, Antoinette et BERNS, Thomas, 2013. Gouvernementalit


algorithmique et perspectives dmancipation. Rseaux. 1 avril 2013. Vol. 177,
n 1, pp. 163-196. DOI 10.3917/res.177.0163. p. 180.

The End of Theory: The Data Deluge Makes the Scientific Method
Obsolete . WIRED. Consult le 2 aot 2014.
http://archive.wired.com/science/discoveries/magazine/16-07/pb_theory.

TULEU, Benot, 2011. Trop loin, trop proche. [en ligne]. 1 janvier 2011.
[Consult le 11 dcembre 2014]. Disponible ladresse :
http://bbf.enssib.fr/consulter/bbf-2011-02-0014-002

SITES INTERNET
Amazon.fr : Hamlet, [sans date]. [en ligne]. [Consult le 8 septembre 2014].
Disponible ladresse : http://www.amazon.fr/s/ref=nb_sb_noss_1?__mk_fr_FR=
%C3%85M%C3%85%C5%BD%C3%95%C3%91&url=search-alias
%3Daps&field-keywords=Hamlet

About | metaLAB (at) Harvard, [sans date]. [en ligne].


[Consult le 7 aot 2014]. Disponible ladresse :
http://metalab.harvard.edu/about/
ADMIN, 2012. Data Mining Research Area. [en ligne]. 4 aot 2012.
[Consult le 29 janvier 2014]. Disponible ladresse :
http://oclc.org/research/activities/mining.html

ANDERSON, Rick [sans date]. What Patron-Driven Acquisition (PDA) Does


and Doesnt Mean: An FAQ. The Scholarly Kitchen [en ligne].
[Consult le 6 dcembre 2014]. Disponible ladresse :
http://scholarlykitchen.sspnet.org/2011/05/31/what-patron-driven-acquisition-pda-
does-and-doesnt-mean-an-faq/

Astronomy Texts in the Internet Archive, [sans date]. Tableau Software


[en ligne]. [Consult le 21 aot 2014]. Disponible ladresse :
http://public.tableausoftware.com/views/AstronomyTextsintheInternetArchive/Wh
atwasthetopdownloadedastronomywork?:showVizHome=no
CAVALI, Etienne, [sans date]. Mais que fait Gephi? Bibliothques
[reloaded] [en ligne]. [Consult le 17 juillet 2014]. Disponible ladresse :
http://bibliotheques.wordpress.com/2014/07/03/mais-que-fait-gephi/

LAPOTRE Raphalle | DCB | Mmoire d'tude | dcembre 2014


92
Bibliographie

Choropleth_US_libs_by_county.jpg (Image JPEG, 1017 653 pixels) -


Redimensionne (96%), [sans date]. [en ligne]. [Consult le 21 aot 2014]. Disponible
ladresse : http://hangingtogether.org/wp-
content/uploads/2013/07/Choropleth_US_libs_by_county.jpg

COHEN, Dan, 2012. Visualizing the Uniqueness, and Conformity, of Libraries.


Dan Cohen [en ligne]. 13 dcembre 2012. [Consult le 11 juin 2014]. Disponible
ladresse : http://www.dancohen.org/2012/12/13/visualizing-the-uniqueness-and-
conformity-of-libraries/

Content Management Services for Libraries and Publishers, [sans date]. [en ligne].
[Consult le 8 dcembre 2014]. Disponible ladresse : http://www.swets.fr/

Data Mining Big Data : A Strategy for Improving Library Discovery | Blog |
Serials Solutions, [sans date]. [en ligne]. [Consult le 9 mai 2014]. Disponible
ladresse : http://www.serialssolutions.com/en/words/detail/data-mining-big-data-a-
strategy-for-improving-library-discovery.

Dissertation Browser | Information, [sans date]. [en ligne].


[Consult le 23 mai 2014]. Disponible ladresse : http://www-
nlp.stanford.edu/projects/dissertations/

Du jeu de donnes au jeu avec les donnes | The Pixel Hunt, [sans date]. [en ligne].
[Consult le 30 juillet 2014]. Disponible ladresse : http://florentmaurin.com/?p=471

DST4L Class Notes - Google Docs, [sans date]. [en ligne].


[Consult le 26 juillet 2014]. Disponible ladresse :
https://docs.google.com/document/d/1WUz4UwwRv5szcsODIwcEV7qAGNc0gjL-
oDErFQ2MoBY/edit?pli=1

FRANCE, Bibliothque nationale de, [sans date]. BnF - Les enjeux du web de
donnes en bibliothque. [en ligne]. [Consult le 2 novembre 2014]. Disponible
ladresse :
http://www.bnf.fr/fr/professionnels/innov_num_web_donnees/a.web_donnees_enjeux_bi
bliotheques.html

grapheprc3aats.png (Image PNG, 1024 1024 pixels) [sans date]. [en ligne].
[Consult le 20 aot 2014]. Disponible ladresse :
https://bibliotheques.files.wordpress.com/2014/07/grapheprc3aats.png.

GULLIGAN, Finbar. Sans date. Patron-driven library - Patron-driven acquisition -


Research Information. [en ligne]. [Consult le 3 dcembre 2014].

HARRIS, Jonathan, KAMVAR, Sep. [sans date]. We Feel Fine. [en ligne].
[Consult le 20 aot 2014]. Disponible ladresse : http://wefeelfine.org/

HICKEY, Thomas B., TOVES, Jenny. 2009. FRBR Work-Set Algorithm, v.


2.0 . OH: OCLC Online Computer Library Center, Inc. (Research division) . Consult le
4 aot 2014 l'adresse Web :
http://www.oclc.org/research/activities/past/orprojects/frbralgorithm/2009-08.pdf

LAPOTRE Raphalle | DCB | Mmoire d'tude | dcembre 2014 - 93 -


Droits dauteur rservs. OU
How to Beat Bibliographic Data into Submission, pt. 1 | Data Scientist
Training for Librarians, [sans date]. [en ligne]. [Consult le 7 juillet 2014].
Disponible ladresse : http://altbibl.io/dst4l/how-to-beat-bibliographic-data-into-
submission-pt-1/

How to Beat Bibliographic Data into Submission, pt. 2 | Data Scientist


Training for Librarians, [sans date]. [en ligne]. [Consult le 7 juillet 2014].
Disponible ladresse : http://altbibl.io/dst4l/how-to-beat-bibliographic-data-into-
submission-pt-2/

Internet Archive Search Engine. [Sans date]. Consult le 19 aot 2014.


Disponible l'adresse Web : http://archive.org/advancedsearch.php#raw

Lev Manovich What is Visualization? | Data Visualisation, [sans date].


[en ligne]. [Consult le 30 juin 2014]. Disponible ladresse :
http://www.datavisualisation.org/2010/11/lev-manovich-what-is-visualization/

Library Observatory, [sans date]. [en ligne]. [Consult le 29 janvier 2014].


Disponible ladresse : http://www.libraryobservatory.org/

Library Data Visualization, [sans date]. [en ligne]. [Consult le 20 mai 2014].
Disponible ladresse : http://librarydatavisual.blogspot.fr/

LOUKISSAS, Yanni, [sans date]. Data Artifacts Rising: Cultures of


Collecting from Preservation to Participation | metaLAB (at) Harvard. [en ligne].
[Consult le 19 mai 2014]. Disponible ladresse :
http://metalab.harvard.edu/2012/12/data-artifacts-rising-cultures-of-collecting-
from-preservation-to-participation/

MALPAS, Constance. [sans date]. Sliding scale: mapping local, group and
system-wide library infrastructure | hangingtogether.org. [en ligne].
[Consult le 21 juillet 2014]. Disponible ladresse : http://hangingtogether.org/?
p=3149

mbattles_udcseminar2013.pdf, [sans date]. [en ligne].


[Consult le 1 septembre 2014]. Disponible ladresse :
http://www.udcds.com/seminar/2013/media/slides/mbattles_udcseminar2013.pdf

Penn Library Data Farm, [sans date]. [en ligne]. [Consult le 13 mai 2014].
Disponible ladresse : http://datafarm.library.upenn.edu/

Penn Library - Graduate Student Workshops, [sans date]. [en ligne].


[Consult le 16 aot 2014]. Disponible ladresse :
http://datafarm.library.upenn.edu/desksurvey/index.html

PRENTICE, Jennifer, ALSTINE, Colin Van, BENSON, Amy et FORD,


Jacqueline, 2013. ADS Monograph Matches in the Internet Archive (Excel)
[en ligne]. juin 2013. [Consult le 19 aot 2014]. Disponible ladresse :
http://figshare.com/articles/ADS_Monograph_Matches_in_the_Internet_Archive/7
10921

LAPOTRE Raphalle | DCB | Mmoire d'tude | dcembre 2014


94
Bibliographie

SAO/NASA ADS Custom Query Form, [sans date]. [en ligne].


[Consult le 19 aot 2014]. Disponible ladresse :
http://adsabs.harvard.edu/abstract_service.html

Sizing Up Big Data, Broadening Beyond the Internet, [sans date]. Bits Blog
[en ligne]. [Consult le 1 novembre 2014]. Disponible ladresse :
http://bits.blogs.nytimes.com/2013/06/19/sizing-up-big-data-broadening-beyond-the-
internet/.

Sliding scale: mapping local, group and system-wide library infrastructure |


hangingtogether.org, [sans date]. [en ligne]. [Consult le 21 juillet 2014]. Disponible
ladresse : http://hangingtogether.org/?p=3149

su:Hamlet (Legendary character) Drama . [WorldCat.org], [sans date].


[en ligne]. [Consult le 8 septembre 2014]. Disponible ladresse :
http://www.worldcat.org/search?q=su%3AHamlet+%28Legendary+character
%29+Drama.&qt=hot_subject

Tag Galaxy, [sans date]. [en ligne]. [Consult le 9 septembre 2014]. Disponible
ladresse : http://taggalaxy.de/

The Life and Death of Data, [sans date]. [en ligne]. [Consult le 2 novembre 2014].
Disponible ladresse : http://lifeanddeathofdata.org/

Top-250-CIC-borrowers-by-location.jpg (Image JPEG, 658 435 pixels), [sans


date]. [en ligne]. [Consult le 21 aot 2014]. Disponible ladresse :
http://hangingtogether.org/wp-content/uploads/2013/07/Top-250-CIC-borrowers-by-
location.jpg.

UDC Seminar 2013, [sans date]. [en ligne]. [Consult le 16 mai 2014]. Disponible
ladresse : http://seminar.udcc.org/2013/programme.php

Visualizing Network Flows: Library Inter-lending | hangingtogether.org, [sans


date]. [en ligne]. [Consult le 3 juin 2014]. Disponible ladresse :
http://hangingtogether.org/?p=3053

VuFind FAQ: Frequently Asked Questions, [sans date]. [en ligne].


[Consult le 29 aot 2014]. Disponible ladresse :
http://www.library.illinois.edu/learn/find/vufind/vufind_faq.html .

Watch_Dogs WeAreData, [sans date]. Watch_Dogs WeAreData [en ligne].


[Consult le 31 aot 2014]. Disponible ladresse : http://wearedata.watchdogs.com/

What is Summon? | University Libraries | Virginia Tech, [sans date]. [en ligne].
[Consult le 2 aot 2014]. Disponible ladresse :
http://www.lib.vt.edu/help/summon/what-is-summon.html

xlin_udcseminar2013.pdf, [sans date]. [en ligne]. [Consult le 8 septembre 2014].


Disponible ladresse :
http://www.udcds.com/seminar/2013/media/slides/xlin_udcseminar2013.pdf

LAPOTRE Raphalle | DCB | Mmoire d'tude | dcembre 2014 - 95 -


Droits dauteur rservs. OU
10 principes fondamentaux Socit Google, [sans date]. [en ligne].
[Consult le 11 dcembre 2014]. Disponible ladresse :
http://www.google.fr/intl/fr/about/company/philosophy/

VIDOGRAPHIES
Introducing the Knowledge Graph, 2012. [en ligne].
[Consult le 2 septembre 2014]. Disponible ladresse :
http://www.youtube.com/watch?v=mmQl6VGvX-c&feature=youtube_gdata_player

Leveraging WorldCat: Data Mining the largest library database in the


World, 2013. [en ligne]. [Consult le 14 juillet 2014]. Disponible ladresse :
http://www.youtube.com/watch?v=atA2QadzTdY&feature=youtube_gdata_playe

Star Trek: Into Darkness - End Credits: Preview (2013) | SD , [sans date].
[en ligne]. [Consult le 30 juillet 2014]. Disponible ladresse :
http://www.youtube.com/watch?v=_-W6XIWOiMA

Tag Galaxy - Create Your Own Flickr Photo Universe, 2011. [en ligne].
[Consult le 29 aot 2014]. Disponible ladresse :
http://www.youtube.com/watch?
v=uDMYByYOCa4&feature=youtube_gdata_player

LAPOTRE Raphalle | DCB | Mmoire d'tude | dcembre 2014


96
Table des annexes

ANNEXE 1 : LES SUGGESTIONS EN LIGNE, PLUSIEURS DFINITIONS


DE L'IDENTIT DE LUVRE..............................................................................98
ANNEXE 2 : L'OBSERVATOIRE DE LA BIBLIOTHQUE..........................100
ANNEXE 3 : LA VISUALISATION AU SERVICE DE LA
COMMUNICATION DU BIBLIOTHCAIRE VERS SON LU OU SON
DIRECTEUR D'UNIVERSIT...............................................................................103
ANNEXE 4 : DE LA VISUALISATION LA NAVIGATION........................108

Laptre Raphalle | DCB | Mmoire | dcembre 2014 - 97 -


Droits dauteur rservs. OU
ANNEXE 1 : LES SUGGESTIONS EN LIGNE, PLUSIEURS
DFINITIONS DE L'IDENTIT DE LUVRE.

DOCUMENT 1 : SUGGESTIONS DE WORLDCAT POUR HAMLET.273

Figure 12 : Suggestions de WorldCat pour Hamlet.

273
Rsultats pour su:Hamlet (Legendary character) Drama . [WorldCat.org], [sans date]. [en ligne].
[Consult le 8 septembre 2014]. Disponible ladresse : http://www.worldcat.org/search?q=su%3AHamlet+
%28Legendary+character%29+Drama.&qt=hot_subject
LAPOTRE Raphalle | DCB | Mmoire d'tude | dcembre 2014
98
Table des annexes

DOCUMENT 2 : SUGGESTIONS D'AMAZON POUR HAMLET.274

Figure 13 : Suggestions d'Amazon pour Hamlet

Amazon.fr : Hamlet, [sans date]. [en ligne]. [Consult le 8 septembre 2014]. Disponible ladresse :
274

http://www.amazon.fr/s/ref=nb_sb_noss_1?__mk_fr_FR=%C3%85M%C3%85%C5%BD%C3%95%C3%91&url=search-alias
%3Daps&field-keywords=Hamlet
LAPOTRE Raphalle | DCB | Mmoire d'tude | dcembre 2014 - 99 -
Droits dauteur rservs. OU
ANNEXE 2 : L'OBSERVATOIRE DE LA BIBLIOTHQUE.

DOCUMENT 1 : INTERFACE DE L'OBSERVATOIRE, MONTRANT LA TAILLE RELATIVE


275
DES INSTITUTIONS AYANT PARTICIP LA DPLA.

Figure 14 : Visualisation au second niveau de l'institution : Universit


d'Illinois.

Figure 17 : Visualisation de Document : Universit de l'Illinois > Collection :


Papiers de James Reston > Format > Tapuscrit de notes de discours > Notes d'un
discours prononc la crmonie de remise des diplmes de l'Universit de
Columbia.

Figure 15 : Visualisation des formats : Universit d'Illinois > Collection :


James Reston Papers > Format > tapuscrits des notes de discours.

275
mbattles_udcseminar2013.pdf, [sans date]. [en ligne]. [Consult le 1 septembre 2014]. Disponible ladresse :
http://www.udcds.com/seminar/2013/media/slides/mbattles_udcseminar2013.pdf
LAPOTRE Raphalle | DCB | Mmoire d'tude | dcembre 2014
100

Figure 16 : Visualisation de collection : Universit d'Illinois > Collection :


Table des annexes

Figure 18 : Visualisation arborescente de la collection de la DPLA.

Figure 16 : Visualisation de collection : Universit d'Illinois > Collection :


Papiers de James Reston > Format.

Figure 17 : Visualisation de Document : Universit de l'Illinois > Collection :


Papiers de James Reston > Format > Tapuscrit de notes de discours > Notes d'un
discours prononc la crmonie de remise des diplmes de l'Universit de
Columbia.

LAPOTRE Raphalle | DCB | Mmoire d'tude | dcembre 2014 - 101 -


Droits dauteur rservs. OU
DOCUMENT 2 : VISUALISATION ARBORESCENTE DE LA DPLA.276

Figure 19 : We feel fine , de Jonathan Harris et Sep Kamvar.

Figure 18 : Visualisation arborescente de la collection de la DPLA.

ANNEXE 3 : LA VISUALISATION AU SERVICE DE LA


COMMUNICATION DU BIBLIOTHCAIRE VERS SON LU OU

276
Ibid.
LAPOTRE Raphalle | DCB | Mmoire d'tude | dcembre 2014
102
Table des annexes

SON DIRECTEUR D'UNIVERSIT.

DOCUMENT 1 : LA VISUALISATION DES SENTIMENTS : WE FEEL FINE .277

Figure 21 : Dissertation browser : L'Histoire en 2008 Stanford.

Figure 19 : We feel fine , de Jonathan Harris et Sep Kamvar.

We Feel Fine / by Jonathan Harris and Sep Kamvar, [sans date]. [en ligne]. [Consult le 20 aot 2014]. Disponible
277

ladresse : http://wefeelfine.org/. Et We Feel Fine, [sans date]. Media Molecule [en ligne]. [Consult le 8 septembre 2014].
Disponible ladresse : http://www.mediamolecule.com/blog/article/we_feel_fine
LAPOTRE Raphalle | DCB | Mmoire d'tude | dcembre 2014 - 103 -
Droits dauteur rservs. OU
DOCUMENT 2 : LE NAVIGATEUR DE THSES DE L'UNIVERSIT DE STANFORD.278

Figure 22 : Essai de reprsentation gographique du PEB : visualisation des


bibliothques sous forme de points.

Figure 20 : Dissertation Brower : l'Histoire en 2000 Stanford

Illustration 23 : Essai de reprsentation gographique du PEB :


visualisation des bibliothques sous forme de dgrad de couleurs

Figure 21 : Dissertation browser : L'Histoire en 2008 Stanford.

278
Dissertation Browser | Information, [sans date]. [en ligne]. [Consult le 23 mai 2014]. Disponible ladresse :
http://www-nlp.stanford.edu/projects/dissertations/
LAPOTRE Raphalle | DCB | Mmoire d'tude | dcembre 2014
104
Table des annexes

DOCUMENT 3 : VISUALISATION DES TABLISSEMENTS AFFILIS WORLDCAT, DANS LA


279
PERSPECTIVE DU PEB AUX TATS-UNIS.

Figure 24 : La collection en Astronomie de la Fisher Universit de


Toronto.

Figure 22 : Essai de reprsentation gographique du PEB : visualisation des


bibliothques sous forme de points.
Figure 25 : La collection en Astronomie de la Duke University Library

Illustration 23 : Essai de reprsentation gographique du PEB :


visualisation des bibliothques sous forme de dgrad de couleurs
279
Sliding scale: mapping local, group and system-wide library infrastructure | hangingtogether.org, [sans date].
[en ligne]. [Consult le 21 juillet 2014]. Disponible ladresse : http://hangingtogether.org/?p=3149
LAPOTRE Raphalle | DCB | Mmoire d'tude | dcembre 2014 - 105 -
Droits dauteur rservs. OU
DOCUMENT 4 : VISUALISATION DES COLLECTIONS D'ASTRONOMIE PRSENTE DANS
280
L'INTERNET ARCHIVE PAR INSTITUTIONS D'ORIGINE.

Figure 26 : La collection d'Harvard, s'appuyant sur le livre rare.

Figure 27 : La collection du Lafayette College, se voulant universelle et


grand public.

Figure 24 : La collection en Astronomie de la Fisher Universit de


Toronto.

Figure 25 : La collection en Astronomie de la Duke University Library


280
Astronomy Texts in the Internet Archive, [sans date]. Tableau Software [en ligne]. [Consult le 21 aot 2014].
Disponible ladresse :
http://public.tableausoftware.com/views/AstronomyTextsintheInternetArchive/Whatwasthetopdownloadedastronomywor
k?:showVizHome=no
LAPOTRE Raphalle | DCB | Mmoire d'tude | dcembre 2014
106
Table des annexes

DOCUMENT 4 : VISUALISATION DES OUVRAGES LES PLUS DTENUS L'CHELLE GLOBALE


(ORDONNES) ET L'CHELLE LOCALE (ABSCISSES).281

Figure 28 : Visualisation en onde d'une extension de requte.

Figure 26 : La collection d'Harvard, s'appuyant sur le livre rare.

Figure 27 : La collection du Lafayette College, se voulant universelle et


grand public.

COHEN, Dan, 2012. Visualizing the Uniqueness, and Conformity, of Libraries. Dan Cohen [en ligne]. 13 dcembre
281

2012. [Consult le 11 juin 2014]. Disponible ladresse : http://www.dancohen.org/2012/12/13/visualizing-the-uniqueness-and-


conformity-of-libraries/
LAPOTRE Raphalle | DCB | Mmoire d'tude | dcembre 2014 - 107 -
Droits dauteur rservs. OU
Figure 29 : Amazon, exemple par excellence d'interface facettes.

Figure 30 : Affichage Primo de restriction possible en rponse une


requte.

LAPOTRE Raphalle | DCB | Mmoire d'tude | dcembre 2014


108
Table des annexes

DOCUMENT 2 : NAVIGATION FACETTES.283

Figure 31 : Visualisation des rseaux smantiques de la classification


Dewey

Figure 32 : toile de photographies sur Flickr.

283
klabarre_udcseminar2013.pdf, [sans date]. [en ligne]. [Consult le 8 septembre 2014]. Disponible ladresse :
http://www.udcds.com/seminar/2013/media/slides/klabarre_udcseminar2013.pdf
LAPOTRE Raphalle | DCB | Mmoire d'tude | dcembre 2014 - 109 -
Droits dauteur rservs. OU
Figure 33 : L'incroyable "We are Data", modlisation interactive des
donnes de Paris, Londres et Berlin. Ici, le onzime arrondissement de Paris.

Figure 29 : Amazon, exemple par excellence d'interface facettes.

Figure 34 : Visualisation propose par l'OCLC pour explorer les


identits de WorldCat.

Figure 30 : Affichage Primo de restriction possible en rponse une


requte.

LAPOTRE Raphalle | DCB | Mmoire d'tude | dcembre 2014


110
Table des annexes

DOCUMENT 3 : VISUALISATION SMANTIQUE EN RSEAU284

Figure 31 : Visualisation des rseaux smantiques de la classification


Dewey

DOCUMENT 4 : VISUALISATION EN GALAXIE285

Figure 32 : toile de photographies sur Flickr.

284
xlin_udcseminar2013.pdf
285
Tag Galaxy, [sans date]. [en ligne]. [Consult le 9 septembre 2014]. Disponible ladresse : http://taggalaxy.de/
LAPOTRE Raphalle | DCB | Mmoire d'tude | dcembre 2014 - 111 -
Droits dauteur rservs. OU
DOCUMENT 4 : UN EXEMPLE DE DATA GAME.286

Figure 33 : L'incroyable "We are Data", modlisation interactive des


donnes de Paris, Londres et Berlin. Ici, le onzime arrondissement de Paris.

DOCUMENT 5 : UNE VISUALISATION EN RSEAU POUR ASSISTER LA NAVIGATION. 287

Figure 34 : Visualisation propose par l'OCLC pour explorer les


identits de WorldCat.

286
Watch_Dogs WeAreData, [sans date]. Watch_Dogs WeAreData [en ligne]. [Consult le 31 aot 2014].
Disponible ladresse : http://wearedata.watchdogs.com/
287
RESEARCH, OCLC, [sans date]. WorldCat Identities Network. [en ligne]. [Consult le 2 septembre 2014].
Disponible ladresse : http://experimental.worldcat.org/IDNetwork/display.html?query=lccn-n83162771
LAPOTRE Raphalle | DCB | Mmoire d'tude | dcembre 2014
112
Table des matires

SIGLES ET ABRVIATIONS....................................................................................9
INTRODUCTION........................................................................................................11
Qu'est-ce que les donnes des bibliothques ?................................................12
Pourquoi parler des donnes des bibliothques en 2014 ?.............................13
Comment faire parler les donnes ?.................................................................14
LES DONNES, UNE RVOLUTION PISTMOLOGIQUE POUR LES
BIBLIOTHQUES ?...................................................................................................19
Les donnes parlent-elles d'elles-mmes ?..........................................................19
Des tudes de publics aux acteurs du Big Data.................................................19
La prtention l'objectivit.................................................................................21
Les algorithmes au regard critique de la sociologie.........................................24
L'exemple de l'Online Computer Library Center (OCLC)............................27
Une section consacre l'extraction et l'analyse de donnes.......................27
L'algorithme Work-Set FRBR ........................................................................28
Une des publications de l'OCLC : Livres sans frontires ...........................31
Une manire innovante de produire des connaissances sur les
bibliothques : la visualisation de donnes........................................................32
La visualisation au regard critique des humanits numriques.......................32
Un changement pistmologique.........................................................................33
L'exemple de l'Observatoire Bibliothque..........................................................34
Le contexte de cration de l'Observatoire.......................................................34
Comment fonctionne l'Observatoire ?.............................................................35
Conclusion : De la connaissance la dcision...................................................38
LES DONNES, UN ATOUT POUR LA GESTION D'UNE
BIBLIOTHQUE ?.....................................................................................................41
S'appuyer sur l'analyse de donnes pour valuer la bibliothque.................41
De la macro- la micro-valuation....................................................................42
Quelques exemples innovants d'analyse des donnes en bibliothque............45
Penser les donnes des bibliothques non comme des indicateurs mais comme
des symboles de son activit.................................................................................47
DST4L : un exemple de formation spcialement conue pour des
bibliothcaires..........................................................................................................49
Contexte et objectifs de la formation...................................................................49
Comment dompter les donnes bibliographiques ?.....................................51
L'apport de la visualisation pour la communication........................................53
Sduire...................................................................................................................54
Illustrer..................................................................................................................55
Synthtiser.............................................................................................................56
Comparer...............................................................................................................58
De la politique documentaire la navigation dans les collections.................60
LES DONNES, UN OUTIL DE NAVIGATION DANS LES
COLLECTIONS ?.......................................................................................................63
De la classification la navigation.......................................................................64
De l'Arbre au Labyrinthe ...............................................................................65
De l'universalit de la classification l'individualit de la navigation..........67

Laptre Raphalle | DCB | Mmoire | dcembre 2014 - 115 -


Droits dauteur rservs. OU
La Classification Dcimale Universelle (CDU) la recherche d'une
mtaphore visuelle..................................................................................................69
La ncessit d'une mtaphore..............................................................................70
De l'arbre... la galaxie.......................................................................................71
Rendre visible la bibliothque sur Internet.......................................................76
Les bibliothques dans l'conomie de l'attention...............................................76
De la monumentalit au geste visuel...................................................................77
Un data game stellaire ?......................................................................................79
Nouveau modle de bibliothque ou renouvellement d'un modle de
bibliothque ?...........................................................................................................81
CONCLUSION : DONNES ET POLITIQUE......................................................83
BIBLIOGRAPHIE.......................................................................................................87
Articles encyclopdiques........................................................................................87
Mmoires..................................................................................................................88
Monographies..........................................................................................................88
Revues........................................................................................................................91
Sites Internet............................................................................................................92
Vidographies..........................................................................................................96
TABLE DES ANNEXES.............................................................................................97
TABLE DES ILLUSTRATIONS............................................................................112
TABLE DES MATIRES........................................................................................115

LAPOTRE Raphalle | DCB | Mmoire d'tude | dcembre 2014


116

You might also like