Filtrage sémantique: Du résumé automatique à la fouille de textes

206 pages

Français

Découvre YouScribe en t'inscrivant gratuitement

Je m'inscris

Filtrage sémantique: Du résumé automatique à la fouille de textes , livre ebook

Hermès - Editions Lavoisier - Jean-Luc Minel

Découvre YouScribe en t'inscrivant gratuitement

Je m'inscris

Obtenez un accès à la bibliothèque pour le consulter en ligne
En savoir plus

206 pages

Français

Obtenez un accès à la bibliothèque pour le consulter en ligne
En savoir plus

A propos
Informations
Extrait

Description

Entreprises, administrations, laboratoires et services de développement sont aujourd'hui confrontés à un défi : gérer la masse de documents textuels électroniques qu'ils accumulent. Comment faire parvenir l'information à ceux qui sauront l'exploiter ? Comment résumer, extraire ou filtrer une information pertinente parmi toutes celles que contiennent les documents stockés ? Ces tâches sont d'autant plus complexes que la pertinence est liée aux fonctions et aux objectifs des différents agents. Cet ouvrage présente les méthodes fournissant des réponses opérationnelles à ce type de problèmes. La première partie décrit les principes et architectures sur lesquels se fondent les systèmes de résumé automatique en insistant sur les bouleversements que ce domaine a connu ces dernières années. La deuxième partie, consacrée au filtrage et à la fouille sémantique de textes, montre la nécessité d'utiliser la sémantique pour répondre aux objectifs spécifiques d'une tâche d'identification ou de recherche d'information. Des exemples d'applications et d'outils industriels, opérationnels ou en cours de développement, illustrent l'importance des travaux récents pour le traitement de l'information.
Introduction. Méthodes de résumé automatique.Les méthodes fondées sur la compréhension. Les méthodes par extraction. Les méthodes par apprentissage. Évaluer les systèmes de résumé automatique. Filtrage et fouille sémantique de textes. Les besoins en filtrage d'informations. Sum UM. Le projet FilText et la plate-forme ContextO. Étude d'outils industriels. Perspectives et applications. Conclusion.

Sujets

Informatique

Intelligence artificielle

Informations

Publié par	Hermès - Editions Lavoisier
Date de parution	01 décembre 2002
Nombre de lectures	326
EAN13	9782746227156
Langue	Français
Poids de l'ouvrage	43 Mo

Informations légales : prix de location à la page 0,0442€. Cette information est donnée uniquement à titre indicatif conformément à la législation en vigueur.

Extrait

Filtrage sémantique

REMERCIEMENTS Merci tout d’abord à Jean-Pierre Desclés qui a su, par sa confiance et ses nombreux conseils, guider mes recherches dans le domaine de l’informatique linguistique. Merci à l’équipe LaLICC, laboratoire du CNRS et de l’Université Paris-Sorbonne (Paris IV), notamment à toutes celles et tous ceux qui, depuis mon arrivée en 1993, ont contribué à l’élaboration de cet ouvrage. Merci aux étudiants du DEA « Mathématiques et informatique appliquées aux sciences humaines » et du DESS « Ingénierie de la langue et société de l’information » pour leurs questions, m’obligeant ainsi à mieux préciser certaines notions. Je remercie vivement J.-C. Pomerol qui a accueilli ma proposition d’ouvrage avec enthousiasme et m’a fait confiance pour mener à terme ce projet. Merci enfin aux enseignants-chercheurs du département du Traitement automatique du langage naturel de l’université de la République de Montevideo (Uruguay), Dina Wonsever, Javier Couto, Gustavo Cripino, pour leur accueil chaleureux et attentionné, ainsi qu’à tous les membres de cette université.

©LAVOISIER, 2002 LAVOISIER 11, rue Lavoisier 75008 Paris

Serveur web : www.hermes-science.com

ISBN 2-7462-0602-1

Catalogage Electre-Bibliographie

Minel, Jean-Luc Filtrage sémantique : du résumé automatique à la fouille de textes Paris : Hermès Science Publications, 2002 ISBN 2-7462-0602-1 RAMEAU : linguistique : informatique DEWEY : 006.6 : Méthodes informatiques spéciales. Autres applications 418 : Linguistique appliquée. Traduction

Le Code de la propriété intellectuelle n'autorisant, aux termes de l'article L. 122-5, d'une part, que les « copies ou reproductions strictement réservées à l'usage privé du copiste et non destinées à une utilisation collective » et, d'autre part, que les analyses et les courtes citations dans un but d'exemple et d'illustration, « toute représentation ou reproduction intégrale, ou partielle, faite sans le consentement de l'auteur ou de ses ayants droit ou ayants cause, est illicite » (article L. 122-4). Cette représentation ou reproduction, par quelque procédé que ce soit, constituerait donc une contrefaçon sanctionnée par les articles L. 335-2 et suivants du Code de la propriété intellectuelle.

Filtrage sémantique

du résumé automatique à la fouille de textes

Jean-Luc Minel

EXTRAIT DU CATALOGUE GÉNÉRAL

Multilinguisme et traitement de l’information, Frédérique SEGOND(dir.), 2002. Structuration de terminologie, HAMONT., NAZARENKOA. (dir.), 2002. Espaces numériques d’information et de coopération, C. SIMONE, N. MATTA, B. EYNARD(dir.), 2001. IHM et recherche d’information, Céline PAGANELLI(dir.), 2001. Ingénierie des langues, Jean-Marie PIERREL(dir.), 2001. Lexiques sémantiques, BOUILLONP., VIEGASE. (dir.), 2001. Logique pour le traitement de la langue naturelle –application à la langue française, Philippe DELSARTE, André THAYSE, 2001. Réingénierie des données et des documents pour le web, Jacques KOULOUMDJIAN (dir.), 2001. Traitement et contrôle de l’information, Peter STOCKINGER, 2001. L’archivage, Anne-Marie CHABIN(dir.), 2000. L’indexation, Jean-Michel JOLION(dir.), 2000. La recherche d’informations –du texte intégral au thésaurus, Philippe LEFÈVRE, 2000. Le management de l’archive, Anne-Marie CHABIN, 2000. Traitement automatique des langues pour la recherche d’information, Christian JACQUEMIN, 2000. Traitement automatique des noms propres, Denis MAUREL, Frantz GEUTHNER(dir.), 2000. Gestion des documents et gestion des connaissances, Gérard DUPOIRIER, Jean-Louis ERMINE(dir.), 1999.

Table des matières

Préface. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

Chapitre 1. Introduction. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.1. Pourquoi résumer ? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.2. Méthodes de résumé automatique . . . . . . . . . . . . . . . . . . . . . . . 1.2.1. Les méthodes fondées sur la compréhension . . . . . . . . . . . . . 1.2.2. Les méthodes par extraction . . . . . . . . . . . . . . . . . . . . . . . 1.2.3. Les méthodes par apprentissage . . . . . . . . . . . . . . . . . . . . . 1.3. Le filtrage sémantique d’informations . . . . . . . . . . . . . . . . . . . .

PREMIÈRE PARTIE. MÉTHODES DE RÉSUMÉ AUTOMATIQUE. . . . . . . . . . .

Chapitre 2. Les méthodes fondées sur la compréhension. . . . . . . . . . . . 2.1. Principes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.2. Modèle de Kintsch et van Dijk . . . . . . . . . . . . . . . . . . . . . . . . . 2.2.1. Microstructure et macrostructure . . . . . . . . . . . . . . . . . . . . 2.2.2. Schéma du discours . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.2.3. Mémoire à court et à long terme . . . . . . . . . . . . . . . . . . . . 2.2.4. Traitement d’un texte . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.3. L’approche d’Alterman . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.3.1. La représentation ECC (cohérence entre événements conceptuels) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.3.2. Etapes pour résumer un texte . . . . . . . . . . . . . . . . . . . . . . 2.4. Le système Topic . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.5. Synthèse sur l’approche par compréhension . . . . . . . . . . . . . . . . .

13 13 17 17 19 19 20

23 23 24 25 28 28 28 29

30 32 33 35

6 Filtrage sémantique

Chapitre 3. Les méthodes par extraction. . . . . . . . . . . . . . . . . . . . . . 3.1. Principes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.2. Sélection d’unités textuelles par calcul de score . . . . . . . . . . . . . . 3.3. Sélection d’unités textuelles fondée sur un calcul de similarité lexicale. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.4. Sélection d’unités textuelles basée sur le repérage de phrases prototypiques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.5. Sélection d’unités textuelles basée sur le repérage de chaînes lexicales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.6. Sélection par construction d’une structure pragmatiq ue . . . . . . . . . . 3.6.1. Système Brevidoc . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.6.2. Système proposé par Marcu . . . . . . . . . . . . . . . . . . . . . . . 3.7. Seraphin, un système de sélection fondée sur un étiquetage sémantique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.8. Synthèse sur les méthodes par extraction. . . . . . . . . . . . . . . . . . .

Chapitre 4. Les méthodes par apprentissage. . . . . . . . . . . . . . . . . . . . 4.1. Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.2. Principes des systèmes supervisés . . . . . . . . . . . . . . . . . . . . . . . 4.2.1. Choix du corpus et procédure d’annotation . . . . . . . . . . . . . . 4.2.2. Apprentissage des règles . . . . . . . . . . . . . . . . . . . . . . . . . 4.2.3. Validation des règles . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.3. Principes des systèmes non supervisés ou semi-super visés . . . . . . . . 4.4. Synthèse sur les méthodes par apprentissage . . . . . . . . . . . . . . . .

Chapitre 5. Evaluer les systèmes de résumé automatique. . . . . . . . . . . 5.1. Principes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.2. Les protocoles MLUCE et FAN . . . . . . . . . . . . . . . . . . . . . . . . 5.2.1. Le protocole FAN . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.2.2. Le protocole MLUCE . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.3. Le programme Tipster et son évaluation . . . . . . . . . . . . . . . . . . . 5.4. Le programme DUC . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.4.1. Les tâches à évaluer . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.4.2. Le jeu de test . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.4.3. L’évaluation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.5. Synthèse sur l’évaluation . . . . . . . . . . . . . . . . . . . . . . . . . . . .

37 37 38

47 51 52 55

58 65

67 67 68 69 72 73 75 78

81 81 84 85 87 89 90 91 91 92 93

Table des matières 7

DEUXIÈME PARTIE. FILTRAGE ET FOUILLE SÉMANTIQUE DE TEXTES. . . . .

Chapitre 6. Les besoins en filtrage d’informations. . . . . . . . . . . . . . . . 6.1. Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6.1.1. La recherche d’expressions définitoires . . . . . . . . . . . . . . . . 6.1.2. Le traitement des lettres de réclamation dans une ent reprise . . . . 6.1.3. La recherche de citations . . . . . . . . . . . . . . . . . . . . . . . . . 6.1.4. L’extraction des connaissances dans un texte . . . . . . . . . . . . . 6.1.5. L’analyse de la politisation de la parole . . . . . . . . . . . . . . . . 6.2. Filtrage ou extraction d’informations . . . . . . . . . . . . . . . . . . . . .

Chapitre 7. SumUM. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Horacio SAGGION 7.1. Objectifs du système SumUM . . . . . . . . . . . . . . . . . . . . . . . . . 7.2. Méthodologie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7.3. Modèle conceptuel et linguistique . . . . . . . . . . . . . . . . . . . . . . . 7.4. Implantation de SumUM . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7.4.1. Interprétation du texte . . . . . . . . . . . . . . . . . . . . . . . . . . . 7.4.2. Sélection indicative . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7.4.3. Sélection informative . . . . . . . . . . . . . . . . . . . . . . . . . . . 7.4.4. Génération indicative . . . . . . . . . . . . . . . . . . . . . . . . . . . 7.4.5. Génération informative . . . . . . . . . . . . . . . . . . . . . . . . . . 7.5. Exemple détaillé de génération de résumé . . . . . . . . . . . . . . . . . . 7.6. Evaluation du système . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7.7. Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

Chapitre 8. Le projet FilText et la plate-forme ContextO. . . . . . . . . . . 8.1. Objectifs du projet FilText . . . . . . . . . . . . . . . . . . . . . . . . . . . 8.2. Architecture de FilText . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8.3. La méthode d’exploration contextuelle . . . . . . . . . . . . . . . . . . . . 8.3.1. Principes de l’exploration contextuelle. . . . . . . . . . . . . . . . . 8.3.2. Langage de description des indicateurs et des indice s . . . . . . . . 8.3.3. Langage Ljava . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8.4. Plate-forme logicielle ContextO . . . . . . . . . . . . . . . . . . . . . . . . 8.4.1. Architecture logicielle de ContextO . . . . . . . . . . . . . . . . . . 8.4.2. Exemples d’agents spécialisés . . . . . . . . . . . . . . . . . . . . . . 8.5. Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

97 97 98 99 100 101 103 106

111

111 112 113 113 114 115 116 117 118 118 120 120

123 123 126 128 128 134 136 140 142 145 157

8sémantique Filtrage

Chapitre 9. Etude d’outils industriels. . . . . . . . . . . . . . . . . . . . . . . . 9.1. Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9.2. Pertinence . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9.3 Summarist . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9.4. Option « AutoSummarize » de Microsoft Office . . . . . . . . . . . . . . 9.5. InXight Summarizer . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9.6. Extractor et Copernic Summarizer . . . . . . . . . . . . . . . . . . . . . . 9.7. Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

Chapitre 10. Perspectives et applications. . . . . . . . . . . . . . . . . . . . . . 10.1. Les systèmes de résumé multidocument . . . . . . . . . . . . . . . . . . 10.2. Projet Régal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10.2.1. Cadre scientifique . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10.2.2. Deux approches pour repérer les structures thémati ques . . . . . 10.3. Projet Watson . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10.4. Projet Vigie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10.5. Le système Semantext . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

Conclusion. . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . . . . . .

Bibliographie. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

Index. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

159 159 159 162 163 164 164 165

167 167 169 170 170 176 177 179

183

187

201