Professional Documents
Culture Documents
Oujda
Le DataMining
Réalisé par :
Encadré par :
M. A.AGRAR
0
Sommaire
I-Quoi : ..................................................................................................................................................... 2
3. Histoire : .......................................................................................................................................... 2
III-Comment ............................................................................................................................................ 6
3. Algorithmes……………………………...…...…………………………………………………6
Glossaire ................................................................................................................................................ 12
1
I-Quoi :
Le DataMining aussi connu sous les noms exploration de données, fouille de données, ou encore
extraction de connaissances à partir de données, a pour objet l’extraction d'un savoir ou d'une
connaissance à partir de grandes quantités de données, par des méthodes automatiques ou semi-
automatiques. On la définit comme "un processus non-trivial d’identification de structures
inconnues, valides et potentiellement exploitables dans les bases de données (Fayyad, 1996)".1
L'utilisation industrielle ou opérationnelle de ce savoir dans le monde professionnel permet de
résoudre des problématiques très diverses, allant de la gestion de relation client à la maintenance
préventive, en passant par la détection de fraudes ou encore l'optimisation de sites web.
3. Histoire :
Le data mining est apparu au milieu des années 1990, comme une nouvelle discipline à l'interface de
la statistique et des technologies de l'information, suite à :
- L’évolution des SGBD vers l’informatique décisionnelle avec les entrepôts de données.
- La constitution de giga bases de données : transactions de cartes de crédit, appels téléphoniques,
factures de supermarchés: abondance de données recueillies automatiquement.
-Développement de la Gestion de la Relation Client (CRM)
•Marketing client au lieu de marketing produit.
•Attrition, satisfaction, etc.
-Recherches en Intelligence artificielle, apprentissage, extraction de connaissances,…
1
Fayyad, U. M. (1996). Data mining and knowledge discovery: making sense out of data. IEEE Expert, October,
pages 20-25.
2
II- Pourquoi :
3. Exemples d’application :
Comportement du consommateur :
Pour éviter cela, on utilise le data mining afin de calculer la propension de chaque client à passer à la
concurrence et de prévoir sa valeur pour l'opérateur (LTV - Life Time Value). On peut ensuite isoler la
2
www.kdnuggets.com, Polls » Industries /Fields for Analytics / Data Mining in 2010 (Oct 2010) [archive].
kdnuggets. Consultation : Octobre 2010.
3
portion de clientèle susceptible d'être tentée par le churn et ayant un fort LTV. Une campagne pro-
active de rétention est alors lancée vers ces clients. Les techniques du data mining permettent
également de mesurer les retours de cette campagne.
Données utilisées :
Contrats résiliés ;
Marketing direct :
Données utilisées :
- Le fichier client.
- Un fichier d’adresses + historique des réponses aux mailings précédents.
- Un deuxième fichier d’adresses + autres infos (acheté).
- Informations connexes (données démographiques …).
- …
Mode opératoire :
- Caractériser, parmi les personnes du deuxième fichier, celles qui : ont répondu, ont
acheté le produit, ont acheté un produit similaire.
- Sélectionner (dans les différents fichiers) les clients potentiels ayant le même profil.
Analyse des résultats :
- Comparaison avec un mailing massif précédent, avec un échantillon témoin.
- Calculer le gain (inclure le coût du Data Mining !)
Boucler la boucle :
- Gain augmenté ;
-> rendre la proposition plus attractive
-> améliorer le taux de réponse.
- Enrichir la base avec les résultats du mailing.
Industrie :
4
Airbus : Aide au pilotage
La société dispose de graphes qui retracent les enregistrements des commandes et positions
d’un avion en vol.
Ceux-ci mettent en évidence un phénomène de résonance entre l’appareil et le comportement
du pilote qui est très dangereux pour la sécurité. L’objectif est de construire un modèle
susceptible, en temps réel, de détecter une telle situation afin d’y remédier par exemple en
durcissant les commandes de vol électriques.
Le problème est tr`es spécifique car les données, ou signaux, sont mesurées en temps réel et
constituent des discrétisations de courbes.
E-commerce :
Amazon
Opportunité : la liste des achats des clients sont stockées en mémoire et par ailleurs, les utilisateurs
du site notent les produits ! Comment tirer profit des choix d’un utilisateur pour proposer des
produits à un autre client ?
Solutions : technique dit de filtrage collaboratif permettant de regrouper des clients ayant les
mêmes “goûts”.
Dell
Problème : 50% des clients de Dell achètent leurs machines à travers le site Web. Mais seulement
0:5% des visiteurs du site deviennent clients.
Solution : Stocker les séquences de clicks des visiteurs, analyser les caractéristiques des acheteurs et
lors de la visite d’un client potentiel, adapter le contenu du site pour maximiser la probabilité d’un
achat.
Comment les ressources humaines peuvent elles estimer le ROI(Return On Investment) de chaque
employé, quantitativement? Aujourd’hui seulement 1 à 2% d’entreprises utilisent la méthode, parmi
lesquelles IBM, Oracle, Microsoft ou encore Capital One Financial. Les études statistiques sur la
performance des employés a été entre autre proposée par la société Cataphora (reconnue pour son
expertise dans l’identification des fraudes) et propsoe une représentation graphique de la force de
travail selon des cercles de couleur, de tailles différente. Tandis que les employés qui génèrent des
flux d’informations et compétences non négligeables sont évalués sur les graphiques avec de larges
cercles foncés, les autres, représentés avec de petits cercles pales sont davantage en danger.
Données utilisées:
Le point de départ de l’analyse est l‘identification des facteurs de succès comme le démontre
Microsoft qui étudie la corrélation entre les employés à succès et les écoles et entreprises d’où ils
proviennent. De plus, en analysant les communications au sein de Microsoft, les analystes peuvent
identifier les « super-connecteurs » qui aident à la diffusion des idées et les autres qui empêchent
leur partage.
Les nouvelles approches des solutions de data-mining permettent ainsi de développer des
programmes optimisés pour le recrutement et la préservation des employés compétents: basé sur
les données des employés qui ont démissionné les cinq dernières années (profil, compétences,
études et relations) chez SAS. En étudiant les tendances économiques et financières, IBM cherche à
se focaliser sur la force de travail et les compétences « know how » à recruter ou à former. Les
5
réseaux sociaux internes et boites à idées interactives mesurent les liens entre employés, leur cercle
d’influence et leurs idées.
III- Comment :
Le premier groupement professionnel dans le domaine du Data Mining est le Groupe d’intérêt de
l'Association for Computing Machinery sur la Gestion des connaissances et le Data Mining (SIGKDD)
qui accueille une conférence internationale annuellement où il publie les résultats de ses recherches.
Le projet de datamining s’organise en processus, parmi les méthodes les plus utilisées on trouve la
méthodologie CRISP-DM.
Le concept CRISP-Dm (CRoss-Industry Standard Process for Data Mining) est une méthodologie qui
consiste à définir un cadre pour la conduite de projets data mining.
6
e. Evaluation – Test: Il s'agit d'évaluer les résultats obtenus en fonction des critères de succès du
métier, d'évaluer le processus lui-même pour faire apparaître les manques et les étapes négligées.
f. Déploiement: étape de rentabilisation des efforts déployés. Elle a pour objectif intégrer les
nouvelles connaissances aux processus quotidiens pour résoudre le problème initial / améliorer
l’activité.
SEMMA : La méthodologie SEMMA4 (Sample then Explore, Modify, Model, Assess) inventée par le
SAS Institute, se concentre sur les activités techniques du Data Mining. Bien qu'elle soit présentée
par SAS comme seulement une organisation logique des outils de SAS Enterprise miner, SEMMA peut
être utilisée pour organiser le processus de data mining indépendamment du logiciel utilisé.
Six Sigma (DMAIC) : DMAIC est un acronyme caractérisant la méthode comme suit : (Define, Mesure,
Analyse, Improve, Control) est une méthodologie structurée, orientée données, dont le but est
l'élimination des défauts, des redondances, et des problèmes de contrôle qualité de toutes sortes
dans les domaines de la production, de la fourniture de service, du management, et d'autres activités
métiers.
3. Algorithmes :
Pour résoudre une problématique avec un processus de DM, on utilise des algorithmes. On en
distingue deux grandes familles :
A. Méthodes descriptives :
Ce sont des méthodes qui permettent d'organiser et de comprendre l'information sous-jacente à un
ensemble important de données. On les utilise par exemple pour dégager d'un ensemble d'individus
des groupes homogènes, pour construire des normes de comportements et donc des déviations par
rapport à ces normes, pour réaliser de la compression d'informations ...
Les techniques les plus utilisées dans le cadre des méthodes descriptives sont :
• Les analyses factorielles : Elles permettent de dégager les variables cachées (les facteurs) dans un
ensemble de mesures ; partant du principe que si les données sont corrélées c'est parce qu'elles sont
liées à des facteurs qui leur sont communs.
• Les classifications : Ce sont des méthodes qui permettent de regrouper des individus ayant les
mêmes caractéristiques en classes. Permettant ainsi de traiter chaque classe avec des algorithmes
sensibles aux données 'aberrantes'. Dans cette optique, les méthodes de classification forment une
première étape du processus d'analyse.
7
On distingue trois types de classifications :
• Les associations : Elles consistent à rechercher les associations entre différents éléments. Utilisées
surtout en grande distribution pour analyser les produits simultanément achetés par un client ou ce
qu’on appelle analyse du panier d’achat.
B. Méthodes prédictives :
Leur raison d'être est d'expliquer et/ou de prévoir un ou plusieurs phénomènes observables et
effectivement mesurés.
Concrètement, elles vont s'intéresser à une ou plusieurs variables de la base de données définies
comme étant les cibles de l'analyse. Par exemple, on utilisera ce type de méthode lorsque l'on
cherchera à comprendre pourquoi un individu a acheté un produit plutôt qu'un autre, pourquoi un
individu a répondu favorablement à une opération de marketing direct,…
Parce qu’il n’y a pas d’algorithme qui convient parfaitement à un objet ; c’est plutôt via la
combinaison de différents algorithmes qu’on arrive à avoir des gains significatifs. Encore faut-il être
en mesure de réaliser ces combinaisons facilement, ce que permettent les logiciels ateliers de Data
Mining, par opposition aux outils de statistiques classiques dans lesquels l'opération est beaucoup
plus délicate en pratique.
Pour obtenir des résultats précis, il ne suffit pas de chercher des algorithmes très fins à partir de la
base de données ; mais plutôt partir d’algorithmes simples et enrichir la base de données par
d’autres informations. C’est le cas notamment de Google dont l'efficacité tient bien moins à son
algorithme de page rank qu'à la très grande quantité d'information qu’il peut corréler par croisement
des historiques de requête, de la correspondance et du comportement de navigation sur ses sites de
ses utilisateurs.
4. Logiciels :
Il n'y a pas de meilleurs logiciels que d'autres tout dépend de ce qu'on veut en faire .Les logiciels
commerciaux sont plus destinés aux entreprises, tandis que les logiciels libres sont destinés plus
particulièrement aux étudiants et à ceux qui veulent expérimenter des techniques nouvelles.
8
4.1. KXEN Analytic Framework5 :
Il s’agit d’un logiciel commercial de Datamining qui minimise les tâches fastidieuses et répétitives de
programmation et de préparation des données habituellement obligatoires et permet aux
spécialistes de la statistique et du datamining d’améliorer leur productivité et de se consacrer à la
compréhension et la valorisation de l’information.
KXEN Analytic Framework en proposant la génération automatique des modèles dans les langages
les plus répandus du marché (C, Visual Basic, Java, SAS, SQL,…) réduit de manière significative le délai
de mise en production des modèles et permet l’intégration du datamining dans les systèmes
d’informations des entreprises.
4.2. Tanagra6 :
4.3. SAS : 7
Logiciel commercial offrant toutes les facettes du Data Mining dont le process est facilité par son
interface Homme-Machine bien conçue. SAS a été l'un des premiers éditeurs à s’intéresser au text
mining, c’est-à-dire à l’analyse de textes et de données non structurées telles que les pages Web, les
documents, les courriers électroniques, les images et autres informations non stockées dans une
base de données structurée.
4.4. Statictica 8 :
5
www.kxen.com
6
http://eric.univ-lyon2.fr
7
www.sas.com
8
www.statsoft.fr
9
Logiciel commercial de data mining intégrant des techniques statistiques et de réseaux de neurones
avancées.
La plate-forme STATISTICA Data Miner, offre une gamme d'outils complète et efficace pour
l'ensemble du processus de data mining . En effet, il augmente les chances de découvrir les éléments
cruciaux grâce à plus de 13.000 fonctions de gestion, d'analyse et de représentation graphique des
données telles que : Arbres de classification et régression, Règles d’asssociations,…
Statistica se base sur un ensemble d'algorithmes efficaces et ultra-optimisés, une interface directe
avec des bases des données distantes, une parfaite intégration avec l’architecture existante et le
Web et de larges possibilités d’extension.
4.5. Weka :
Weka(Waikato Environment for Knowledge Analysis) est un logiciel libre de data mining. C’est une
collection d'algorithmes d'apprentissage automatique créés pour effectuer des tâches de data
mining. Les algorithmes peuvent soit être appliqués directement à un ensemble de données soit
appelé de votre propre code Java. Weka contient des outils pour les pré-traitements des données, la
classification, la régression, le clustering, les règles d'association, et la visualisation.
Il est également bien adapté au développement de nouveaux schémas pour l'apprentissage
automatique.
4.6. Logiciel R :
10
Glossaire :
• L’informatique décisionnelle désigne les moyens, les outils et les méthodes qui permettent de
collecter, consolider, modéliser et restituer les données, matérielles ou immatérielles, d'une
entreprise en vue d'offrir une aide à la décision et de permettre aux responsables de la stratégie
d'entreprise d’avoir une vue d’ensemble de l’activité traitée.
Ce type d’application utilise en règle générale un entrepôt de données pour stocker des données
transverses provenant de plusieurs sources hétérogènes et fait appel à des traitements par lots pour
la collecte de ces informations.
• Entrepôt de données (data warehouse) : stockage intermédiaire des données issues des
applications de production, dans lesquelles les utilisateurs finaux puisent avec des outils de
restitution et d'analyse. Concrètrement, il s'agit d'une collection de données thématiques (c'est à
dire orientées sujet : les informations sont assemblées par thème, contrairement aux modélisations
traditionnelles qui regroupent les informations par fonction, ce qui permet de passer d'une vision
verticale de l'entreprise à une vision transversale, beaucoup plus riche), intégrées (ce qui suppose
une forte normalisation des données et une bonne structuration du système d'information), non
volatiles (afin de conserver une traçabilité des informations et des décisions prises, les données
introduites dans le data warehouse ne peuvent être ni altérées, ni modifiées, ni supprimées, elles
deviennent partie intégrante de l'historique de l'entreprise... Ainsi, deux requêtes identiques, lancées
à plusieurs mois d'intervalle, donneront donc le même résultat), et historisées (actualisation de la
base à chaque nouvelle transaction, sans perte des données historiques), organisées pour le support
d'un processus d'aide à la décision).
• Magasin de donnée (data mart) : un sous-ensemble de l'entrepôt de données, qui ne contient que
les informations liées à un "métier" de l'entreprise (c'est à dire un ensemble de tâches homogènes au
sein de l'entreprise ou de l'un de ses départements - par exemple, au sein du département
commercial, il est possible de distinguer les métiers SAV, services consommateurs, force de vente,
etc.), alors que le data warehouse contient toutes les données décisionnelles de l'entreprise pour
tous les métiers. Plus "profilé" que ce dernier, il contient des informations plus ciblées et de haute
qualité (parfois de niveau critique) destinées à servir de support à la décision dans un domaine précis
(marketing, finances, production, ventes, etc.)
11
Le datamart est nécessairement relié au data warehouse qui le "nourrit" et les informations qu'il
contient peuvent avoir été générées avec des données issues de basse de production autres que
celles relevant du métier en question.
• Les réseaux de neurones : Un réseau de neurones artificiels est un modèle de calcul dont la
conception est très schématiquement inspirée du fonctionnement des neurones biologiques.
Les réseaux de neurones sont généralement optimisés par des méthodes d’apprentissage de type
probabiliste, en particulier bayésiens. Ils sont placés d’une part dans la famille des applications
statistiques, qu’ils enrichissent avec un ensemble de paradigmes permettant de générer des
classifications rapides, et d’autre part dans la famille des méthodes de l’intelligence artificielle
auxquelles ils fournissent un mécanisme perceptif indépendant des idées propres de l'implémenteur,
et fournissant des informations d'entrée au raisonnement logique formel.
12