Plan du cours •Qu’est-ce que le data mining ? •A quoi sert le data mining ? •Les 2 grandes familles de techniques •Le déroulement d’un projet de data mining •Coûts et gains du data mining •de succès - Erreurs à éviterFacteurs •Informatique décisionnelle et de gestion •La préparation des données •Techniques descriptives de data mining •Techniques prédictives de data mining •Logiciels et consultants •CNIL et limites légales du data mining •Le text mining •Le web mining
Le plac pop par pré cara indi expl Le clas et « et l est permettant d’affecter chaque individu à l’une ou l’autre des classes
Classement & classification classement consiste à•Laclassification consiste à er chaque individu de la regrouper les individus d’une ulation dans uneclasse,imltiéeodpalupoitcnlasseensi:nunbromeqmi plusieurs classes t pas u •prédéfinies dcétfiénriisetsi,queesnfdoenctli’ionndivdideusnmeaissodnéterminéesaucours quées comme variables de l’opération, icativcontrairementauxclasses es du classement spelusséoduévfiennite,sil(«ysaians»2•regroupent les individus s pr ayant des caractéristiques malades », par exemple), similaires et séparent les e résultat du classement individus ayant des un ensemble de règles caractéristiques différentes
•
•
Prédiction
Laprédictionconsiste à estimer • », expliquer àla valeur d’une variable continue (dite « « cible », « réponse », « dépendante » ou « exogène ») •en fonction de la valeur d’un certain nombre d’autres variables (dites « explicatives », « de contrôle », « indépendantes » ou « endogènes ») Cette variable « cible » est par exemple : •le poids (en fonction de la taille) •la taille des ailes d’une espèce d’oiseau (en fonction de l’âge) •le prix d’un appartement (en fonction de sa superficie, de l’étage et du quartier) •consommation d’électricité (en fonction de la températurela extérieure et de l’épaisseur de l’isolation)
PDF created with pdfFactory Pro trial versionwww.pdffactory.com
•
•
•
Classement et prédiction
Classement: la variable à expliquer estcatégorielle •on parle aussi declassification(dans l’école anglo-saxonne) ou deidtionscrimina
Prédiction: la variable à expliquer estcontinue •on parle aussi derégression •ou d’apprentissage supervisé(réseaux de neurones)
Scoring: classement appliqué à une problématique d’entreprise
04/07/2004
explicativesèêà expliquer
1 quantitative
n quantitatives (représentent des quantités¹)1 qualitative nominale
1 qualitative ordinale (au moins 3 gp) n quantitatives (représentent des mesures répétées d’une même quantité)04/07/2004
ANOVA, ANCOVA, arbres de arbres de décision, décision, réseaux de réseaux de neurones neurones MANOVA, MANCOVA, réseaux de réseaux de neurones neurones régression régression logistique, logistique, DISQUAL, arbres, réseaux arbres, réseaux de neurones de neurones régression régression logistique logistique ordinale ordinale modèle à modèle à mesures mesures répétées répétées
PDF created with pdfFactory Pro trial versionwww.pdffactory.com
7
8
•
•
Techniques inductives et transductives Dans lestechniques inductives : •une phase d’apprentissage (phase inductive) pour élaborer un modèle, qui résume les relations entre les variables •et qui peut ensuite être appliqué à de nouvelles données pour en déduire un classement ou une prédiction (phase déductive)
Lestechniques transductives •ne comprennent qu’une seule étape (éventuellement réitérée), au cours de laquelle chaque individu est directement classé (ou objet d’une prédiction) par référence aux autres individus déjà classés •il n’y a pas élaboration d’un modèle
La plus connue destechniques transductives Le classement (prédiction) de chaque individu s’opère en regardant, parmi les individus déjà classés, la classe desk individusqui sont les plus proches voisins (ou en calculant la moyenne dans le voisinage de la variable à prédire). La valeur deksera choisie en sorte d’obtenir le meilleur classement (prédiction) possible : •ce choix est la principale difficulté de cet algorithme ! Ainsi, dans l’exemple qui suit, l’individu «?» est classé en « 0 », car entouré en majorité de « 0 ».
Une technique inductiverésume dans un modèle l’informationcontenue dans les données •ce qui permet d ’appliquer rapidementce modèle à de nouvelles données Une technique transductivemanipule l’ensemble des individusdéjà classés, pour tout nouveau classement •ce qui nécessite donc unegrande puissance de stockage et de calcul On utilise surtout les techniques inductives.
Une méthode transductive, comme les k-NN, peut être utilisée dans une étape préalable de détection et de mise à l’écart des individus hors norme, des « outliers ».
PDF created with pdfFactory Pro trial versionwww.pdffactory.com
12
Méthodes inductives : schéma
::----:---:---:---:-----:---:---:---:-----:---:-::---:---------:---:---:: - 18 mois 6 mois aujourd’hui observation des observatio de la variables explicatives variable cible
Lemodèlesera par exemple une fonctionftelle que : Probabilité(variable cible = x) =fvariables explicatives)
• Apprentissage :construction du modèlesur un 1er échantillon pour lequel on connaît la valeur de la variable cible •Test :vérification du modèlesur un 2dahtncénillo pour lequel on connaît la valeur de la variable cible, que l’on compare à la valeur prédite par le modèle •Si le résultat du test est insuffisant (d’après lamatrice de confusion), on recommence l’apprentissage. •Validation du modèlesur un 3eéchantillon, pour avoir une idée du taux d’erreur non biaisé du modèle •Application du modèleà l’ensemble de la population à scorer, pour déterminer la valeur de la variable cible de chaque individu.
•n = taille échantillon •k = nb de groupes •c = nb d’individus bien classés Suit un chi-2 à 1 degré de liberté •- 6,63 à 1 % - 3,84 à 5 %valeur critique : 10,8 à 0,1 % Ici on a : Q de Press = (4000 - 7000)²/4000 = 2250
Q de Press
•
QPress=
n-(c´k)2 n´(k-1)
Pour vérifier que le % d’individus correctement classés est significativement meilleur que par un classement aléatoire : le « Q de Press »
Qualités attendues d’une technique 1/2 •La précision •
•
•
•
letaux d’erreurdoit être le plus bas possible La concision •les règles du modèle doivent être les plus simples et les moins nombreuses possible Des résultats explicites •les règles du modèle doivent être accessibles et compréhensibles La rapidité de calcul du modèle •c’est l’sitnegasaerpp(non sonapplication)du modèle qui peut être trop longue
Qualités attendues d’une technique 2/2 •La robustesse •
• •
être le moins sensible possible aux fluctuations aléatoires de certaines variables et aux valeurs manquantes •ne pas dépendre de l’échantillon d’apprentissage utilisé La diversité des types de données manipulées •tous les algorithmes ne sont pas aptes à manipuler les données catégorielles, discrètes et continues Les possibilités de paramétrage •dans un classement, il est parfois intéressant de pouvoir pondérer les erreurs de classement, pour signifier, par exemple, qu’il est plus grave de classer un client malade en « non-malade » que l’inverse
L’ensemble des règles de découpage et d’association constitue lemodèle Tout nouvel individu qui tombe dans une de ces région est classé en conséquence La forme de ces régions dépend de la technique employée
PDF cr
e
Représentation graphique des domaines de classement
Toutes les techniques inductives de classement découpent l’espace des variables en régions, dont chacune est associée à une des classes parce qu’elle contient en majorité des individus de cette classe
PDF created with pdfFactory Pro trial versionwww.pdffactory.com
(A) M •
(C) M odèle trop c omplexe
•
Modèle trop poussé dans la phase d’apprentissage : •il épouse toutes les fluctuations de l’échantillon d’apprentissage, •détecte ainsi de fausses corrélations, •et les extrapole à tort dans les phases de test et d’application. Le sur-apprentissage peut aussi venir d’une confusion des 2 périodes d’observation.