Résumé

La fouille de textes est une activité combinant traitements informatiques et données linguistiques avec comme objectif principal l’extraction et l’organisation automatique des informations présentes dans les textes. Deux familles de méthodes permettent d’atteindre ce but : celles à base de connaissances d’experts et celles reposant sur un apprentissage automatique supervisé. Une campagne d’évaluation consiste à confronter les systèmes développés par plusieurs équipes sur un même jeu de données et en un temps limité. Créé en 2005 à l’image des campagnes anglo-saxonnes, le défi fouille de textes (DEFT) est aujourd’hui la seule campagne d’évaluation francophone en fouille de textes. Cet ouvrage rassemble les méthodes utilisées lors des différentes éditions du défi. Les thématiques relèvent de la classification de documents en genres et thèmes, de la fouille d’opinions et de l’identification de la période de parution d’un document.

Sommaire

PREMIÈRE PARTIE. INTRODUCTION. Chapitre 1. Expérimentations et évaluations en fouille de textes : un panorama des campagnes DEFT - Cyril GROUIN et Dominic FOREST. DEUXIÈME PARTIE. LES CAMPAGNES EN GENRES ET THÈMES. Chapitre 2. Détecter les ruptures thématiques dans les discours : synergie entre supervision et non-supervision - Alain LELU et Martine CADOT. Chapitre 3. Léquipe du GRDS au DEFT2006 : Indexo-II - Lyne DA SYLVA, Graham RUSSELL, Yves MARCOUX et Frédéric DOLL. Chapitre 4. Pré-traitements classiques ou par analyse distributionnelle : application aux méthodes de classification automatique déployées pour DEFT2008 - Eric CHARTON, Nathalie CAMELIN, Rodrigo ACUNA-AGOST, Rémi LAVALLEY, Rémy KESSLER et Silvia FERNANDEZ. TROISIÈME PARTIE. LES CAMPAGNES EN FOUILLE DOPINIONS. Chapitre 5. Classification dopinions et convergence des techniques symboliques, statistiques et distributionnelles - Luca DINI, Sigrid MAUREL, Paolo CURTONI et Beata DOBRZYNŽ SKA. Chapitre 6. DEFT2009 : essais doptimisation dune procédure de base pour la tâche 1- Yves BESTGEN. Chapitre 7. Détection de la subjectivité et catégorisation de textes subjectifs par une approche mixte symbolique et statistique - Matthieu VERNIER, Laura MONCEAUX et Béatrice DAILLE. QUATRIÈME PARTIE. LES CAMPAGNES DIACHRONIQUES. Chapitre 8. Datation dun article de journal par analyse lexicale et statistique - Pierre ALBERT, Flora BADIN, Maxime DELORME, Nadège DEVOS, Sophie PAPAZOGLOU et Jean SIMARD. Chapitre 9. Système du LIA pour la campagne DEFT2010 - Stanislas OGER, Mickael ROUVIER, Nathalie CAMELIN, Rémy KESSLER, Fabrice LEFÈVRE et Juan-Manuel TORRES-MORENO. Chapitre 10. Apprentissage supervisé et paresseux pour la fouille de textes - Christian RAYMOND et Vincent CLAVEAU. Chapitre 11. Méthodes pour larchéologie linguistique : datation par combinaison dindices temporels - Anne GARCÍA-FERNANDEZ, Anne-Laure LIGOZAT, Delphine BERNHARD et Marco DINARELLI. Index.

Caractéristiques

Editeur : Hermes Science

Auteur(s) : Stéphane CHAUDIRON, Cyril GROUIN, Dominic FOREST

Collection : Systèmes d'information et organisations documentaires

Publication : 21 novembre 2012

Edition : 1ère édition

Intérieur : Couleur, Noir & blanc

Support(s) : eBook [PDF], Contenu téléchargeable [PDF], Text (eye-readable) [PDF]

Contenu(s) : PDF

Protection(s) : Marquage social (PDF)

Taille(s) : 3,1 Mo (PDF)

Langue(s) : Français

Code(s) CLIL : 3290

EAN13 eBook [PDF] : 9782746288362

EAN13 (papier) : 9782746238367

Ouvrages du même auteur

Ouvrages dans la même collection

--:-- / --:--