88 pages

Français

Statistique, data mining et scoring

Ontea - Stéphane Tufféry

Le téléchargement nécessite un accès à la bibliothèque YouScribe
Tout savoir sur nos offres

88 pages

Français

Le téléchargement nécessite un accès à la bibliothèque YouScribe
Tout savoir sur nos offres

A propos
Informations
Extrait

Description

Stéphane TufféryStatisticien - Data Miner - EnseignantDATA MINING - SCORINGSTATISTIQUE APPLIQUÉEAPPLICATION AU CRM04/07/20041© Stéphane Tufféry - Data Mining & Scoring - http://data.mining.free.frPlan du cours• Qu’est-ce que le data mining ?• A quoi sert le data mining ?• Les 2 grandes familles de techniques• Le déroulement d’un projet de data mining• Coûts et gains du data mining• Facteurs de succès - Erreurs à éviter• Informatique décisionnelle et de gestion• La préparation des données• Techniques descriptives de data mining• Techniques prédictives de data mining• Logiciels et consultants• CNIL et limites légales du data mining• Le text mining• Le web mining04/07/20042© Stéphane Tufféry - Data Mining & Scoring - http://data.mining.free.frPDF created with pdfFactory Pro trial version www.pdffactory.comTechniques prédictivesPoints forts et points faibles04/07/20043© Stéphane Tufféry - Data Mining & Scoring - http://data.mining.free.frTechniques prédictives de data mining :Classement - prédiction(généralités)04/07/20044© Stéphane Tufféry - Data Mining & Scoring - http://data.mining.free.frPDF created with pdfFactory Pro trial version www.pdffactory.comClassement & classification• La classification consiste à• Le classement consiste àregrouper les individus d’uneplacer chaque individu de lapopulation en un nombrepopulation dans une classe,limité de classes qui :parmi plusieurs classes• ne sont pas prédéfiniesprédéfinies, en fonction ...

Sujets

informatique

réseau

réseaux

Informations

Publié par	Ontea
Nombre de lectures	222
Langue	Français

Extrait

Stéphane Tufféry Statisticien - Data Miner - Enseignant

DATA MINING - SCORING STATISTIQUE APPLIQUÉE APPLICATION AU CRM

04/07/2004

©Stéphane Tufféry - Data Mining & Scoring -http://data.mining.free.fr

Plan du cours •Qu’est-ce que le data mining ? •A quoi sert le data mining ? •Les 2 grandes familles de techniques •Le déroulement d’un projet de data mining •Coûts et gains du data mining •de succès - Erreurs à éviterFacteurs •Informatique décisionnelle et de gestion •La préparation des données •Techniques descriptives de data mining •Techniques prédictives de data mining •Logiciels et consultants •CNIL et limites légales du data mining •Le text mining •Le web mining

04/07/2004

©Stéphane Tufféry - Data Mining & Scoring -http://data.mining.free.fr

PDF created with pdfFactory Pro trial versionwww.pdffactory.com

04/07/2004

Techniques prédictives Points forts et points faibles

©Stéphane Tufféry - Data Mining & Scoring -http://data.mining.free.fr

Techniques prédictives de data mining : Classement - prédiction (généralités)

04/07/2004

©Stéphane Tufféry - Data Mining & Scoring -http://data.mining.free.fr

PDF created with pdfFactory Pro trial versionwww.pdffactory.com

04/07/2004

©Stéphane Tufféry - Data Mining & Scoring -http://data.mining.free.fr

•

04/07/2004

©Stéphane Tufféry - Data Mining & Scoring -http://data.mining.free.fr

Le plac pop par pré cara indi expl Le clas et « et l est permettant d’affecter chaque individu à l’une ou l’autre des classes

Classement & classification classement consiste à•Laclassification consiste à er chaque individu de la regrouper les individus d’une ulation dans uneclasse,imlti éeodp alupoitcnl asseens i : nunbromeq mi plusieurs classes t pas u •prédéfinies dcétfiénriisetsi,q ueesn fdoen ctli’ionnd ivdideusnmea isso dnéterminées au cours quées comme variables de l’opération, icativcontrairement aux classes es du classement spelus séoduévfiennite,s il( « ys aian s »2•regroupent les individus s pr ayant des caractéristiques malades », par exemple), similaires et séparent les e résultat du classement individus ayant des un ensemble de règles caractéristiques différentes

•

Prédiction

Laprédictionconsiste à estimer • », expliquer àla valeur d’une variable continue (dite « « cible », « réponse », « dépendante » ou « exogène ») •en fonction de la valeur d’un certain nombre d’autres variables (dites « explicatives », « de contrôle », « indépendantes » ou « endogènes ») Cette variable « cible » est par exemple : •le poids (en fonction de la taille) •la taille des ailes d’une espèce d’oiseau (en fonction de l’âge) •le prix d’un appartement (en fonction de sa superficie, de l’étage et du quartier) •consommation d’électricité (en fonction de la températurela extérieure et de l’épaisseur de l’isolation)

PDF created with pdfFactory Pro trial versionwww.pdffactory.com

•

Classement et prédiction

Classement: la variable à expliquer estcatégorielle •on parle aussi declassification(dans l’école anglo-saxonne) ou deidtionscrimina

Prédiction: la variable à expliquer estcontinue •on parle aussi derégression •ou d’apprentissage supervisé(réseaux de neurones)

Scoring: classement appliqué à une problématique d’entreprise

04/07/2004

explicatives è êà expliquer

1 quantitative

n quantitatives (représentent des quantités ¹) 1 qualitative nominale

1 qualitative ordinale (au moins 3 gp) n quantitatives (représentent des mesures répétées d’une même quantité) 04/07/2004

©Stéphane Tufféry - Data Mining & Scoring -http://data.mining.free.fr

Tableau synoptique

1 quantitative n quantitatives 1 qualitative (covariable) (covariables) (facteur)

rég. linéaire simple

régression PLS2

ADL, régression logistique

régression logistique ordinale

rég. linéaire multiple, rég. robuste, PLS, arbres, réseaux de neurones régression PLS2, réseaux de neurones ADL, régress. logistique, arbres, réseaux de neurones, SVM régression logistique ordinale

ANOVA

MANOVA régression logistique régression logistique ordinale

n qualitatives (facteurs)

mélange

ANOVA, ANCOVA, arbres de arbres de décision, décision, réseaux de réseaux de neurones neurones MANOVA, MANCOVA, réseaux de réseaux de neurones neurones régression régression logistique, logistique, DISQUAL, arbres, réseaux arbres, réseaux de neurones de neurones régression régression logistique logistique ordinale ordinale modèle à modèle à mesures mesures répétées répétées

©Stéphane Tufféry - Data Mining & Scoring -http://data.mining.free.fr

PDF created with pdfFactory Pro trial versionwww.pdffactory.com

•

Techniques inductives et transductives Dans lestechniques inductives : •une phase d’apprentissage (phase inductive) pour élaborer un modèle, qui résume les relations entre les variables •et qui peut ensuite être appliqué à de nouvelles données pour en déduire un classement ou une prédiction (phase déductive)

Lestechniques transductives •ne comprennent qu’une seule étape (éventuellement réitérée), au cours de laquelle chaque individu est directement classé (ou objet d’une prédiction) par référence aux autres individus déjà classés •il n’y a pas élaboration d’un modèle

04/07/2004

• •

•

©Stéphane Tufféry - Data Mining & Scoring -http://data.mining.free.fr

k-plus proches voisins

La plus connue destechniques transductives Le classement (prédiction) de chaque individu s’opère en regardant, parmi les individus déjà classés, la classe desk individus qui sont les plus proches voisins (ou en calculant la moyenne dans le voisinage de la variable à prédire). La valeur deksera choisie en sorte d’obtenir le meilleur classement (prédiction) possible : •ce choix est la principale difficulté de cet algorithme ! Ainsi, dans l’exemple qui suit, l’individu «?» est classé en « 0 », car entouré en majorité de « 0 ».

04/07/2004

©Stéphane Tufféry - Data Mining & Scoring -http://data.mining.free.fr

PDF created with pdfFactory Pro trial versionwww.pdffactory.com

04/07/2004

k-plus proches voisins

1 0 0 0 0 1 0 1 0 1 0 0

1 1? 0 1 1 0 1

? "est classé en 0"

©Stéphane Tufféry - Data Mining & Scoring -http://data.mining.free.fr

Limites des méthodes transductives

• •

•

Une technique inductiverésume dans un modèle l’informationcontenue dans les données •ce qui permet d ’appliquer rapidementce modèle à de nouvelles données Une technique transductivemanipule l’ensemble des individusdéjà classés, pour tout nouveau classement •ce qui nécessite donc unegrande puissance de stockage et de calcul On utilise surtout les techniques inductives.

Une méthode transductive, comme les k-NN, peut être utilisée dans une étape préalable de détection et de mise à l’écart des individus hors norme, des « outliers ».

04/07/2004

PDF created with pdfFactory Pro trial versionwww.pdffactory.com

Méthodes inductives : schéma

::----:---:---:---:-----:---:---:---:-----:---:-::---:---------:---:---:: - 18 mois 6 mois aujourd’hui observation des observatio de la variables explicatives variable cible

Lemodèlesera par exemple une fonctionftelle que : Probabilité(variable cible = x) =fvariables explicatives)

04/07/2004

©Stéphane Tufféry - Data Mining & Scoring -http://data.mining.free.fr

Méthodes inductives : 4 étapes

• Apprentissage :construction du modèlesur un 1er échantillon pour lequel on connaît la valeur de la variable cible •Test :vérification du modèlesur un 2dahtn cénillo pour lequel on connaît la valeur de la variable cible, que l’on compare à la valeur prédite par le modèle •Si le résultat du test est insuffisant (d’après lamatrice de confusion), on recommence l’apprentissage. •Validation du modèlesur un 3eéchantillon, pour avoir une idée du taux d’erreur non biaisé du modèle •Application du modèleà l’ensemble de la population à scorer, pour déterminer la valeur de la variable cible de chaque individu.

04/07/2004

©Stéphane Tufféry - Data Mining & Scoring -http://data.mining.free.fr

PDF created with pdfFactory Pro trial versionwww.pdffactory.com

TOTAL

200

1800

Matrice de confusion

PDF created with pdfFactory Pro trial versionwww.pdffactory.com

©Stéphane Tufféry - Data Mining & Scoring -http://data.mining.free.fr

•

300

Taux d’erreur = (200+300) / 4000 = 12,5 %

valeur préditeè

1700

valeur réelleê A

•n = taille échantillon •k = nb de groupes •c = nb d’individus bien classés Suit un chi-2 à 1 degré de liberté •- 6,63 à 1 % - 3,84 à 5 %valeur critique : 10,8 à 0,1 % Ici on a : Q de Press = (4000 - 7000)²/4000 = 2250

Q de Press

•

QPress=

n-(c´k)2 n´(k-1)

Pour vérifier que le % d’individus correctement classés est significativement meilleur que par un classement aléatoire : le « Q de Press »

4000

TOTAL

04/07/2004

©Stéphane Tufféry - Data Mining & Scoring -http://data.mining.free.fr

•

Qualités attendues d’une technique 1/2 •La précision •

•

letaux d’erreurdoit être le plus bas possible La concision •les règles du modèle doivent être les plus simples et les moins nombreuses possible Des résultats explicites •les règles du modèle doivent être accessibles et compréhensibles La rapidité de calcul du modèle •c’est l’sitnegasaerpp (non sonapplication) du modèle qui peut être trop longue

04/07/2004

©Stéphane Tufféry - Data Mining & Scoring -http://data.mining.free.fr

Qualités attendues d’une technique 2/2 •La robustesse •

• •

être le moins sensible possible aux fluctuations aléatoires de certaines variables et aux valeurs manquantes •ne pas dépendre de l’échantillon d’apprentissage utilisé La diversité des types de données manipulées •tous les algorithmes ne sont pas aptes à manipuler les données catégorielles, discrètes et continues Les possibilités de paramétrage •dans un classement, il est parfois intéressant de pouvoir pondérer les erreurs de classement, pour signifier, par exemple, qu’il est plus grave de classer un client malade en « non-malade » que l’inverse

04/07/2004

©Stéphane Tufféry - Data Mining & Scoring -http://data.mining.free.fr

PDF created with pdfFactory Pro trial versionwww.pdffactory.com

•

04/07/2004

©Stéphane Tufféry - Data Mining & Scoring -http://data.mining.free.fr

nwww.pdffactory.com

versio

rial

ate

d wit

h p

dfFactory Pr

• •

L’ensemble des règles de découpage et d’association constitue lemodèle Tout nouvel individu qui tombe dans une de ces région est classé en conséquence La forme de ces régions dépend de la technique employée

PDF cr

Représentation graphique des domaines de classement

Toutes les techniques inductives de classement découpent l’espace des variables en régions, dont chacune est associée à une des classes parce qu’elle contient en majorité des individus de cette classe

•

©Sté

ata Mining & Scoring -http://data.mining.free.fr

phane Tufféry - D

004

7/2

04/0

Représentation graphique de domaines de classement

1 0 0

0 0 1 0 1

0 1

0 0

1 1 0 1

1 1? 0

?est classé en "0"

Arbre de d

écisio

0 0 1 0 1

1 0 0

0 0

0 1

1 1 0 1

1 1? 0

Réseau de neurones

?est classé en "0"

?est classé en "1"

Analyse discriminante

1 1? 0

1 1 0 1

0 1

0 0

1 0 0

0 0 1 0 1

Courbes du taux d’erreur en apprentissage et en test

taille de l'échantillon

donné es apprentissage

données de test et d'appli cation

taux d'erreur

04/07/2004

taille suffisa nte

odèle trop simp le

(B) B on modèle

Sur-apprentissage en régression

04/07/2004

PDF created with pdfFactory Pro trial versionwww.pdffactory.com

(A) M •

•

Modèle trop poussé dans la phase d’apprentissage : •il épouse toutes les fluctuations de l’échantillon d’apprentissage, •détecte ainsi de fausses corrélations, •et les extrapole à tort dans les phases de test et d’application. Le sur-apprentissage peut aussi venir d’une confusion des 2 périodes d’observation.