Data Mining

Université Mohamed Premier
Ecole Nationale de Commerce et de Gestion
Oujda
Intelligence économique et veille stratégique
Le DataMining
Réalisé par :
BABA Nour el houda N° 236
LAMKADMI Asmae N° 311
Encadré par :
M. A.AGRAR
Année universitaire 2010 – 2011
0
Sommaire
I-Quoi : ..................................................................................................................................................... 2
1. Qu’est ce que le Datamining ?......................................................................................................... 2
2. Datamining Vs Analyse des données: .............................................................................................. 2
3. Histoire : .......................................................................................................................................... 2
II- Pourquoi : ............................................................................................................................................ 3
1. L’utilisation du data mining ............................................................................................................ 3
2. Secteurs d'activités utilisant le datamining .................................................................................... 3
3. Exemples d’application ................................................................................................................... 3
III-Comment ............................................................................................................................................ 6
1. Recherche et groupes de réflexion ................................................................................................. 6
2. Conduite de projet Data Mining ..................................................................................................... 6
3. Algorithmes……………………………...…...…………………………………………………6
Glossaire ................................................................................................................................................ 12
1
I-Quoi :
1. Qu’est ce que le Datamining ?
Le DataMining aussi connu sous les noms exploration de données, fouille de données, ou encore
extraction de connaissances à partir de données, a pour objet l’extraction d'un savoir ou d'une
connaissance à partir de grandes quantités de données, par des méthodes automatiques ou semi-
automatiques. On la définit comme "un processus non-trivial d’identification de structures
inconnues, valides et potentiellement exploitables dans les bases de données (Fayyad, 1996)".1
L'utilisation industrielle ou opérationnelle de ce savoir dans le monde professionnel permet de
résoudre des problématiques très diverses, allant de la gestion de relation client à la maintenance
préventive, en passant par la détection de fraudes ou encore l'optimisation de sites web.
En gros, le datamining est :
 L’ensemble des techniques et méthodes;

 destinées à l’exploration et l’analyse de grande bases de données informatiques;
en vue de détecter dans ces données des règles, des associations, des tendances
inconnues (non fixées a priori), des structures particulières restituant de façon concise
l’essentiel de l’information utile;
 pour la prise de décision.
2. Datamining Vs Analyse des données:
 Le DataMining, ou exploration de données chez les francophones, se base sur une

exploration pour dégager un sens qu’on ne sait pas au préalable. Les données ne sont pas
prédéfinies ; elles sont générées de façon naturelle (cas des supermarchés) et on peut les
exploiter par la suite. Le DataMining permet ainsi de donner du sens à notre recherche.
 Par contre, dans le cadre de l’analyse de données, on sait au préalable ce qu’on cherche ; on
cherche juste à en vérifier la validité.
3. Histoire :
Le data mining est apparu au milieu des années 1990, comme une nouvelle discipline à l'interface de
la statistique et des technologies de l'information, suite à :
- L’évolution des SGBD vers l’informatique décisionnelle avec les entrepôts de données.
- La constitution de giga bases de données : transactions de cartes de crédit, appels téléphoniques,
factures de supermarchés: abondance de données recueillies automatiquement.
-Développement de la Gestion de la Relation Client (CRM)
•Marketing client au lieu de marketing produit.
•Attrition, satisfaction, etc.
-Recherches en Intelligence artificielle, apprentissage, extraction de connaissances,…
1
Fayyad, U. M. (1996). Data mining and knowledge discovery: making sense out of data. IEEE Expert, October,
pages 20-25.
2
II- Pourquoi :
1. L’utilisation du data mining :
L'utilisation des techniques de data mining peuvent être observées pour :

• Analyser les comportements des consommateurs : ventes croisées, similarités de comportements,
cartes de fidélité, …
• Prédire le taux de réponse à un publipostage (mailing) ou à une opération de marketing direct.
• Prédire l’attrition des clients : quels sont les indices de comportement permettant de détecter la
probabilité qu’un client a de quitter son fournisseur (sa banque, son opérateur de téléphonie mobile)
• Détecter des comportements anormaux ou frauduleux (transactions financières, escroquerie aux
assurances, distribution d’énergie, …)
• Rechercher des critères qui permettront d’établir ensuite une évaluation pour repérer les « bons »
clients sans facteur de risque (Évaluation des risques-clients) et leur proposer peut-être une
tarification adaptée (par exemple pour une banque ou une compagnie d’assurance).
2. Secteurs d'activités utilisant le datamining :

Selon le site www.kdnuggets.com 2la répartition aux USA (en % du total des réponses au sondage) de
l'utilisation du Data Mining par secteurs d'activités s'effectue en 2010 comme suit :
CRM 26.8 Assurance 10.3
Banque 19.2 Sciences 10.3
Santé/Ressources Humaines 13.1 Education 9.9
Détection de Fraude 12.7 Publicité 9.9
Finance 11.3 Web 8.9
Marketing direct 11.3 Médical 8
Télécommunication 10.8 Produits Manufacturés 8
3. Exemples d’application :
 Comportement du consommateur :
 Utiliser le data mining pour éviter le churn.

Le churn est le passage à la concurrence d'un client d'un opérateur de télécommunications. C'est
aujourd'hui une préoccupation particulièrement importante pour les opérateurs vu les taux
relativement importants (25% en europe).
Pour éviter cela, on utilise le data mining afin de calculer la propension de chaque client à passer à la
concurrence et de prévoir sa valeur pour l'opérateur (LTV - Life Time Value). On peut ensuite isoler la
2
www.kdnuggets.com, Polls » Industries /Fields for Analytics / Data Mining in 2010 (Oct 2010) [archive].
kdnuggets. Consultation : Octobre 2010.
3
portion de clientèle susceptible d'être tentée par le churn et ayant un fort LTV. Une campagne pro-
active de rétention est alors lancée vers ces clients. Les techniques du data mining permettent
également de mesurer les retours de cette campagne.
 Données utilisées :
 Bases de données des clients et des appels ;
 Fichiers des réclamations ;
 Contrats résiliés ;
 Données sur les nouveaux clients des concurrents ;
 Taux de retour des mailings ;
 Marketing direct :
 Ciblage d’un mailling :

Une entreprise veut proposer un nouveau produit : Elle va envoyer un courrier en essayant
de bien cibler les clients susceptible d’être intéressés par ce nouveau produit, et en
maximisant le taux de réponse.
 Données utilisées :
- Le fichier client.
- Un fichier d’adresses + historique des réponses aux mailings précédents.
- Un deuxième fichier d’adresses + autres infos (acheté).
- Informations connexes (données démographiques …).
- …
Mode opératoire :
- Caractériser, parmi les personnes du deuxième fichier, celles qui : ont répondu, ont
acheté le produit, ont acheté un produit similaire.
- Sélectionner (dans les différents fichiers) les clients potentiels ayant le même profil.
Analyse des résultats :
- Comparaison avec un mailing massif précédent, avec un échantillon témoin.
- Calculer le gain (inclure le coût du Data Mining !)
Boucler la boucle :
- Gain augmenté ;
-> rendre la proposition plus attractive
-> améliorer le taux de réponse.
- Enrichir la base avec les résultats du mailing.
 Industrie :
 Motorola : Détection de défaillance
Un procédé de fabrication de microprocesseurs comporte des centaines d’étapes

(photogravures, dépôts, cuissons, polissages, lavages...) dont tous les paramètres,
équipement et mesures physiques (températures, pressions...), sont enregistrés dans une
grande base de données permettant la traçabilité des produits manufacturés.
Le test électrique de chaque microprocesseur ne peut se faire qu’en fin de fabrication lorsque
ceux-ci sont achevés. Il est évidement important de pouvoir déterminer, lors de l’apparition
d’une baisse du rendement et en utilisant les données de la base, l’équipement ou la
fourniture responsable de la défaillance afin d’y remédier le plus rapidement possible.
4
 Airbus : Aide au pilotage
La société dispose de graphes qui retracent les enregistrements des commandes et positions
d’un avion en vol.
Ceux-ci mettent en évidence un phénomène de résonance entre l’appareil et le comportement
du pilote qui est très dangereux pour la sécurité. L’objectif est de construire un modèle
susceptible, en temps réel, de détecter une telle situation afin d’y remédier par exemple en
durcissant les commandes de vol électriques.
Le problème est très spécifique car les données, ou signaux, sont mesurées en temps réel et
constituent des discrétisations de courbes.
 E-commerce :
 Amazon
Opportunité : la liste des achats des clients sont stockées en mémoire et par ailleurs, les utilisateurs
du site notent les produits ! Comment tirer profit des choix d’un utilisateur pour proposer des
produits à un autre client ?
Solutions : technique dit de filtrage collaboratif permettant de regrouper des clients ayant les
mêmes “goûts”.
 Dell
Problème : 50% des clients de Dell achètent leurs machines à travers le site Web. Mais seulement
0:5% des visiteurs du site deviennent clients.
Solution : Stocker les séquences de clicks des visiteurs, analyser les caractéristiques des acheteurs et
lors de la visite d’un client potentiel, adapter le contenu du site pour maximiser la probabilité d’un
achat.
 Gestion des ressources humaines :
 Le calcul de la valeur des employés grâce à des données analytiques.
Comment les ressources humaines peuvent elles estimer le ROI(Return On Investment) de chaque
employé, quantitativement? Aujourd’hui seulement 1 à 2% d’entreprises utilisent la méthode, parmi
lesquelles IBM, Oracle, Microsoft ou encore Capital One Financial. Les études statistiques sur la
performance des employés a été entre autre proposée par la société Cataphora (reconnue pour son
expertise dans l’identification des fraudes) et propsoe une représentation graphique de la force de
travail selon des cercles de couleur, de tailles différente. Tandis que les employés qui génèrent des
flux d’informations et compétences non négligeables sont évalués sur les graphiques avec de larges
cercles foncés, les autres, représentés avec de petits cercles pales sont davantage en danger.
 Données utilisées:
Le point de départ de l’analyse est l‘identification des facteurs de succès comme le démontre
Microsoft qui étudie la corrélation entre les employés à succès et les écoles et entreprises d’où ils
proviennent. De plus, en analysant les communications au sein de Microsoft, les analystes peuvent
identifier les « super-connecteurs » qui aident à la diffusion des idées et les autres qui empêchent
leur partage.
Les nouvelles approches des solutions de data-mining permettent ainsi de développer des
programmes optimisés pour le recrutement et la préservation des employés compétents: basé sur
les données des employés qui ont démissionné les cinq dernières années (profil, compétences,
études et relations) chez SAS. En étudiant les tendances économiques et financières, IBM cherche à
se focaliser sur la force de travail et les compétences « know how » à recruter ou à former. Les
5
réseaux sociaux internes et boites à idées interactives mesurent les liens entre employés, leur cercle
d’influence et leurs idées.
III- Comment :
1. Recherche et groupes de réflexion :
Le premier groupement professionnel dans le domaine du Data Mining est le Groupe d’intérêt de
l'Association for Computing Machinery sur la Gestion des connaissances et le Data Mining (SIGKDD)
qui accueille une conférence internationale annuellement où il publie les résultats de ses recherches.
Ainsi d’autres conférences sur le data minig sont organisées comme :

 DMIN - International Conference on Data Mining
 DMKD - Research Issues on Data Mining and Knowledge Discovery;
 ICDM - IEEE International Conference on Data Mining
Il est à noter que nombreuses universités ont effectué des recherches pour améliorer les algorithmes
et ont développé des logiciels afin de progresser dans ce domaine et faire bénéficier les industries de
leurs apports.
2. Conduite de projet Data Mining :
Le projet de datamining s’organise en processus, parmi les méthodes les plus utilisées on trouve la
méthodologie CRISP-DM.
Le concept CRISP-Dm (CRoss-Industry Standard Process for Data Mining) est une méthodologie qui
consiste à définir un cadre pour la conduite de projets data mining.
Les principales étapes de cette méthodologie sont :

a. Compréhension de la problématique métier : c'est définir le problème : le chef de projet doit
comprendre les objectifs du métier en matière de DM et connaitre les critères de réussite du projet.
b. Compréhension des données: il s’agit dans cette étape de :
 Collecter des données ;

 Les décrire ;
 Les explorer : Utilisation de requêtes, outils de visualisation et de reporting, déterminer les
attributs importants et leurs relations (redondantes)
==>Premiers résultats statistiques (graphiques, répartitions, etc.)
 Contrôler la qualité : Données manquantes, erronées, incertaines…
c. Préparation des données: transformation des données à explorer afin d’assurer leur adéquation à
la problématique et la pertinence des connaissances extraites
d. Modélisation: élaboration des méthodes d'analyse qui seront utilisées pour extraire des
connaissances à partir des données (cœur du processus). Cette activité regroupe quatre classes de
tâches pouvant être utilisées seules ou en complément avec les autres 3:
 La Segmentation ;
 La Classification ;
 La Prédiction ;
 L'Association .
2. From Data Mining to Knowledge Discovery in Databases [archive]
6
e. Evaluation – Test: Il s'agit d'évaluer les résultats obtenus en fonction des critères de succès du
métier, d'évaluer le processus lui-même pour faire apparaître les manques et les étapes négligées.
f. Déploiement: étape de rentabilisation des efforts déployés. Elle a pour objectif intégrer les
nouvelles connaissances aux processus quotidiens pour résoudre le problème initial / améliorer
l’activité.
 Autres méthodes de conduite de projet data mining :
SEMMA : La méthodologie SEMMA4 (Sample then Explore, Modify, Model, Assess) inventée par le
SAS Institute, se concentre sur les activités techniques du Data Mining. Bien qu'elle soit présentée
par SAS comme seulement une organisation logique des outils de SAS Enterprise miner, SEMMA peut
être utilisée pour organiser le processus de data mining indépendamment du logiciel utilisé.
Six Sigma (DMAIC) : DMAIC est un acronyme caractérisant la méthode comme suit : (Define, Mesure,
Analyse, Improve, Control) est une méthodologie structurée, orientée données, dont le but est
l'élimination des défauts, des redondances, et des problèmes de contrôle qualité de toutes sortes
dans les domaines de la production, de la fourniture de service, du management, et d'autres activités
métiers.
3. Algorithmes :
3.1. Classement des algorithmes :
Pour résoudre une problématique avec un processus de DM, on utilise des algorithmes. On en
distingue deux grandes familles :
A. Méthodes descriptives :
Ce sont des méthodes qui permettent d'organiser et de comprendre l'information sous-jacente à un
ensemble important de données. On les utilise par exemple pour dégager d'un ensemble d'individus
des groupes homogènes, pour construire des normes de comportements et donc des déviations par
rapport à ces normes, pour réaliser de la compression d'informations ...
Les techniques les plus utilisées dans le cadre des méthodes descriptives sont :
• Les analyses factorielles : Elles permettent de dégager les variables cachées (les facteurs) dans un
ensemble de mesures ; partant du principe que si les données sont corrélées c'est parce qu'elles sont
liées à des facteurs qui leur sont communs.
• Les classifications : Ce sont des méthodes qui permettent de regrouper des individus ayant les
mêmes caractéristiques en classes. Permettant ainsi de traiter chaque classe avec des algorithmes
sensibles aux données 'aberrantes'. Dans cette optique, les méthodes de classification forment une
première étape du processus d'analyse.
3. STATISTICA, Statistics Glossary, Models for Data Mining [archive]
7
On distingue trois types de classifications :
- Le partitionnement (data clustering) : Elle vise à diviser un ensemble de données en

différents « paquets » homogènes, en ce sens que les données de chaque sous-ensemble
partagent des caractéristiques communes.
- La classification hiérarchique : On y trouve les méthodes ascendantes où on part des

individus qu'on agrège en classes, et les méthodes descendantes où on part du tout et par
divisions successives on arrive aux individus qui composent les classes.
- Le recouvrement à logique floue.
• Les associations : Elles consistent à rechercher les associations entre différents éléments. Utilisées
surtout en grande distribution pour analyser les produits simultanément achetés par un client ou ce
qu’on appelle analyse du panier d’achat.
• La corrélation : les Analyses de liens.
B. Méthodes prédictives :
Leur raison d'être est d'expliquer et/ou de prévoir un ou plusieurs phénomènes observables et
effectivement mesurés.
Concrètement, elles vont s'intéresser à une ou plusieurs variables de la base de données définies
comme étant les cibles de l'analyse. Par exemple, on utilisera ce type de méthode lorsque l'on
cherchera à comprendre pourquoi un individu a acheté un produit plutôt qu'un autre, pourquoi un
individu a répondu favorablement à une opération de marketing direct,…
En exploration de données prédictive, il y a deux types d'opérations : la discrimination qui s’intéresse

aux variables qualitatives et la régression qui s’intéresse aux variables continues.
3.2. Pourquoi tant d'algorithmes ?
Parce qu’il n’y a pas d’algorithme qui convient parfaitement à un objet ; c’est plutôt via la
combinaison de différents algorithmes qu’on arrive à avoir des gains significatifs. Encore faut-il être
en mesure de réaliser ces combinaisons facilement, ce que permettent les logiciels ateliers de Data
Mining, par opposition aux outils de statistiques classiques dans lesquels l'opération est beaucoup
plus délicate en pratique.
3.3. Chercher d'autres algorithmes, ou bien enrichir les données ?
Pour obtenir des résultats précis, il ne suffit pas de chercher des algorithmes très fins à partir de la
base de données ; mais plutôt partir d’algorithmes simples et enrichir la base de données par
d’autres informations. C’est le cas notamment de Google dont l'efficacité tient bien moins à son
algorithme de page rank qu'à la très grande quantité d'information qu’il peut corréler par croisement
des historiques de requête, de la correspondance et du comportement de navigation sur ses sites de
ses utilisateurs.
4. Logiciels :
Il n'y a pas de meilleurs logiciels que d'autres tout dépend de ce qu'on veut en faire .Les logiciels
commerciaux sont plus destinés aux entreprises, tandis que les logiciels libres sont destinés plus
particulièrement aux étudiants et à ceux qui veulent expérimenter des techniques nouvelles.
8
4.1. KXEN Analytic Framework5 :
Il s’agit d’un logiciel commercial de Datamining qui minimise les tâches fastidieuses et répétitives de
programmation et de préparation des données habituellement obligatoires et permet aux
spécialistes de la statistique et du datamining d’améliorer leur productivité et de se consacrer à la
compréhension et la valorisation de l’information.
KXEN Analytic Framework en proposant la génération automatique des modèles dans les langages
les plus répandus du marché (C, Visual Basic, Java, SAS, SQL,…) réduit de manière significative le délai
de mise en production des modèles et permet l’intégration du datamining dans les systèmes
d’informations des entreprises.
4.2. Tanagra6 :
TANAGRA est un logiciel libre de DataMining destiné à l’enseignement et à la recherche. C’est un

projet ouvert au sens qu'il est possible à tout chercheur d'accéder au code et d'ajouter ses propres
algorithmes pour peu qu'il respecte la licence de distribution du logiciel.
Tanagra procure une plate-forme de Data Mining facile d’accès, respectant les standards des logiciels
du domaine, notamment en matière d’interface et de mode de fonctionnement, et permettant de
mener des études sur des données réelles et/ou synthétiques.
Il propose également aux chercheurs une architecture leur permettant d'implémenter aisément les
techniques qu'ils veulent étudier, de comparer les performances des algorithmes. Tanagra se
comporte ainsi comme une plate-forme d'expérimentation.
Par ailleurs, il vise à diffuser une méthodologie possible d'élaboration de ce type de logiciel. L'accès
au code leur permettra de voir comment se construit ce type de logiciel, quels sont les écueils à
éviter, quels sont les principales étapes et outils d'un tel projet,… En ce sens, Tanagra est plus un
outil d'apprentissage des techniques de programmation.
Tanagra n'intègre pas en revanche, à l'heure actuelle, tout ce qui fait la puissance des outils
commerciaux du marché : multiplicité des sources de données, accès direct aux entrepôts de
données et autres datamarts, appréhension des données à problèmes (valeurs manquantes...), …
4.3. SAS : 7
Logiciel commercial offrant toutes les facettes du Data Mining dont le process est facilité par son
interface Homme-Machine bien conçue. SAS a été l'un des premiers éditeurs à s’intéresser au text
mining, c’est-à-dire à l’analyse de textes et de données non structurées telles que les pages Web, les
documents, les courriers électroniques, les images et autres informations non stockées dans une
base de données structurée.
4.4. Statictica 8 :
5
www.kxen.com
6
http://eric.univ-lyon2.fr
7
www.sas.com
8
www.statsoft.fr
9
Logiciel commercial de data mining intégrant des techniques statistiques et de réseaux de neurones
avancées.
La plate-forme STATISTICA Data Miner, offre une gamme d'outils complète et efficace pour
l'ensemble du processus de data mining . En effet, il augmente les chances de découvrir les éléments
cruciaux grâce à plus de 13.000 fonctions de gestion, d'analyse et de représentation graphique des
données telles que : Arbres de classification et régression, Règles d’asssociations,…
Statistica se base sur un ensemble d'algorithmes efficaces et ultra-optimisés, une interface directe
avec des bases des données distantes, une parfaite intégration avec l’architecture existante et le
Web et de larges possibilités d’extension.
4.5. Weka :
Weka(Waikato Environment for Knowledge Analysis) est un logiciel libre de data mining. C’est une
collection d'algorithmes d'apprentissage automatique créés pour effectuer des tâches de data
mining. Les algorithmes peuvent soit être appliqués directement à un ensemble de données soit
appelé de votre propre code Java. Weka contient des outils pour les pré-traitements des données, la
classification, la régression, le clustering, les règles d'association, et la visualisation.
Il est également bien adapté au développement de nouveaux schémas pour l'apprentissage
automatique.
4.6. Logiciel R :
R est un language de programmation et un environnement pour effectuer des calculs statistiques et

créer leurs graphiques. Un des atouts de R est la facilité avec laquelle des graphiques bien conçus de
qualité digne de publications peuvent être produits, y compris des symboles mathématiques et des
formules si besoin est. Egalement, ses extensions couvrent un très large champ et vont de la
statistique multivariée aux méthodes de ré-échantillonnage, de l'économétrie à la biométrie, des
modèles de régression sur séries chronologiques ou les modèles à équations simultanées, …
Autres logiciels : SPSS ; RapidMiner ; Knime ;…
10
Glossaire :
• Analyse des données Vs DataMining : Le DataMining, ou exploration de données chez les

francophones, se base sur un « tâtonnement » pour dégager un sens qu’on se sait pas au préalable.
Les données ne sont pas prédéfinies ; elles sont générées de façon naturelle( cas des supermarchés)
et on peut les exploiter par la suite. Le DataMining permet ainsi de donner du sens à notre
recherche.
Par contre, dans le cadre de l’analyse de données, on sait au préalable ce qu’on cherche ; on cherche
juste à en vérifier la validité.
• L’informatique décisionnelle désigne les moyens, les outils et les méthodes qui permettent de
collecter, consolider, modéliser et restituer les données, matérielles ou immatérielles, d'une
entreprise en vue d'offrir une aide à la décision et de permettre aux responsables de la stratégie
d'entreprise d’avoir une vue d’ensemble de l’activité traitée.
Ce type d’application utilise en règle générale un entrepôt de données pour stocker des données
transverses provenant de plusieurs sources hétérogènes et fait appel à des traitements par lots pour
la collecte de ces informations.
• Entrepôt de données (data warehouse) : stockage intermédiaire des données issues des
applications de production, dans lesquelles les utilisateurs finaux puisent avec des outils de
restitution et d'analyse. Concrètrement, il s'agit d'une collection de données thématiques (c'est à
dire orientées sujet : les informations sont assemblées par thème, contrairement aux modélisations
traditionnelles qui regroupent les informations par fonction, ce qui permet de passer d'une vision
verticale de l'entreprise à une vision transversale, beaucoup plus riche), intégrées (ce qui suppose
une forte normalisation des données et une bonne structuration du système d'information), non
volatiles (afin de conserver une traçabilité des informations et des décisions prises, les données
introduites dans le data warehouse ne peuvent être ni altérées, ni modifiées, ni supprimées, elles
deviennent partie intégrante de l'historique de l'entreprise... Ainsi, deux requêtes identiques, lancées
à plusieurs mois d'intervalle, donneront donc le même résultat), et historisées (actualisation de la
base à chaque nouvelle transaction, sans perte des données historiques), organisées pour le support
d'un processus d'aide à la décision).
• Magasin de donnée (data mart) : un sous-ensemble de l'entrepôt de données, qui ne contient que
les informations liées à un "métier" de l'entreprise (c'est à dire un ensemble de tâches homogènes au
sein de l'entreprise ou de l'un de ses départements - par exemple, au sein du département
commercial, il est possible de distinguer les métiers SAV, services consommateurs, force de vente,
etc.), alors que le data warehouse contient toutes les données décisionnelles de l'entreprise pour
tous les métiers. Plus "profilé" que ce dernier, il contient des informations plus ciblées et de haute
qualité (parfois de niveau critique) destinées à servir de support à la décision dans un domaine précis
(marketing, finances, production, ventes, etc.)
11
Le datamart est nécessairement relié au data warehouse qui le "nourrit" et les informations qu'il
contient peuvent avoir été générées avec des données issues de basse de production autres que
celles relevant du métier en question.
• Les réseaux de neurones : Un réseau de neurones artificiels est un modèle de calcul dont la
conception est très schématiquement inspirée du fonctionnement des neurones biologiques.
Les réseaux de neurones sont généralement optimisés par des méthodes d’apprentissage de type
probabiliste, en particulier bayésiens. Ils sont placés d’une part dans la famille des applications
statistiques, qu’ils enrichissent avec un ensemble de paradigmes permettant de générer des
classifications rapides, et d’autre part dans la famille des méthodes de l’intelligence artificielle
auxquelles ils fournissent un mécanisme perceptif indépendant des idées propres de l'implémenteur,
et fournissant des informations d'entrée au raisonnement logique formel.
12

Data Mining

Uploaded by

Document Information

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Data Mining

Uploaded by

Copyright:

Available Formats

Université Mohamed Premier

Ecole Nationale de Commerce et de Gestion

Intelligence économique et veille stratégique

BABA Nour el houda N° 236

LAMKADMI Asmae N° 311

Année universitaire 2010 – 2011

1. Qu’est ce que le Datamining ?......................................................................................................... 2

2. Datamining Vs Analyse des données: .............................................................................................. 2

II- Pourquoi : ............................................................................................................................................ 3

1. L’utilisation du data mining ............................................................................................................ 3

2. Secteurs d'activités utilisant le datamining .................................................................................... 3

3. Exemples d’application ................................................................................................................... 3

1. Recherche et groupes de réflexion ................................................................................................. 6

2. Conduite de projet Data Mining ..................................................................................................... 6

1. Qu’est ce que le Datamining ?

En gros, le datamining est :

 L’ensemble des techniques et méthodes;

2. Datamining Vs Analyse des données:

 Le DataMining, ou exploration de données chez les francophones, se base sur une

1. L’utilisation du data mining :

L'utilisation des techniques de data mining peuvent être observées pour :

2. Secteurs d'activités utilisant le datamining :

CRM 26.8 Assurance 10.3

Banque 19.2 Sciences 10.3

Santé/Ressources Humaines 13.1 Education 9.9

Détection de Fraude 12.7 Publicité 9.9

Finance 11.3 Web 8.9

Marketing direct 11.3 Médical 8

Télécommunication 10.8 Produits Manufacturés 8

 Utiliser le data mining pour éviter le churn.

 Bases de données des clients et des appels ;

 Fichiers des réclamations ;

 Données sur les nouveaux clients des concurrents ;

 Taux de retour des mailings ;

 Ciblage d’un mailling :

 Motorola : Détection de défaillance

Un procédé de fabrication de microprocesseurs comporte des centaines d’´etapes

 Gestion des ressources humaines :

 Le calcul de la valeur des employés grâce à des données analytiques.

1. Recherche et groupes de réflexion :

Ainsi d’autres conférences sur le data minig sont organisées comme :

2. Conduite de projet Data Mining :

Les principales étapes de cette méthodologie sont :

 Collecter des données ;

2. From Data Mining to Knowledge Discovery in Databases [archive]

 Autres méthodes de conduite de projet data mining :

3.1. Classement des algorithmes :

3. STATISTICA, Statistics Glossary, Models for Data Mining [archive]

- Le partitionnement (data clustering) : Elle vise à diviser un ensemble de données en

- La classification hiérarchique : On y trouve les méthodes ascendantes où on part des

- Le recouvrement à logique floue.

• La corrélation : les Analyses de liens.

En exploration de données prédictive, il y a deux types d'opérations : la discrimination qui s’intéresse

3.2. Pourquoi tant d'algorithmes ?

3.3. Chercher d'autres algorithmes, ou bien enrichir les données ?

TANAGRA est un logiciel libre de DataMining destiné à l’enseignement et à la recherche. C’est un

R est un language de programmation et un environnement pour effectuer des calculs statistiques et

Autres logiciels : SPSS ; RapidMiner ; Knime ;…

• Analyse des données Vs DataMining : Le DataMining, ou exploration de données chez les

You might also like