Evaluation des classifieurs Christel Vrain LIFO (Laboratoire d'Informatique Fondamentale d'Orléans) Université d'Orléans KDD Problématique Beaucoup de structures peuvent être inférées des données. Déterminer quelles méthodes utiliser sur un problème particulier Evaluer comment marchent les méthodes et les comparer. KDD Apprentissage et test Mesure des performances d'un classifieur par un taux d'erreur. Erreur - Taux d'erreur Une erreur est faite sur une instance si le classifieur ne prédit pas correctement la classe de cette instance. Le taux d'erreur sur un ensemble d'instances est la proportion d'erreurs faites sur cet ensemble. Quel ensemble d'instances ? ? Utilisation d'un ensemble test (test set) qui n'a joué aucun rôle dans la construction du classifieur. Dans certains cas, besoin de régler des paramètres pour faire fonctionner le classifieur : ? Utilisation de 2 ensembles pour l'apprentissage - training data pour inférer la structure - validation data pour optimiser les paramètres KDD Apprentissage et test Mesure des performances d'un classifieur par un taux d'erreur. Quel ensemble d'instances ? Taux apparent d'erreur ou erreur de resubstitution Taux d'erreur sur l'ensemble d'apprentissage (training set). ? Un mauvais indicateur des performances en généralisation ? Utilisation d'un ensemble test (test set) qui n'a joué aucun rôle dans la construction du classifieur.
- rappel - taux de vrais positifs
- erreur en généralisation
- taux de succès réel sur la population
- taux d'erreur
- mauvais indicateur des performances en généralisation ?
- taux apparent d'erreur