UNIGE document Doctoral Thesis
previous document  unige:30032  next document
add to browser collection
Title

Modèles automatiques de questions / réponses pour les sciences biomédicales

Author
Directors
Defense Thèse de doctorat : Univ. Genève, 2012 - Sc. 4519 - 2012/12/29
Abstract Les professionnels du domaine sont confrontés à un déluge de données textuelles, et ont besoin d'outils au-delà des moteurs de recherche classiques pour traiter toute l'information disponible. Les systèmes de Question/Answering (Q/A) ont pour fonction, à partir d'une question posée en langage naturel, de fournir à l'utilisateur non pas des documents susceptibles de contenir les réponses, mais directement des réponses extraites de ces documents. De tels systèmes utilisent la Recherche d'Information pour retrouver dans la littérature des documents pertinents, puis l'Extraction d'Information pour extraire de ces documents les réponses potentiellement attendues par l'utilisateur. Ce mémoire étudie un système de Q/A à travers l'hypothèse centrale suivante : d'un point de vue statistique, la littérature biomédicale est si abondante que des méthodes simples de Recherche et d'Extraction d'Information employées dans des systèmes de Q/A peuvent exploiter cette redondance d'information et s'avérer aussi efficaces que des méthodes plus complexes. Un état de l'art présente le domaine de la biomédecine à travers ses spécificités, les différentes bases de données et ontologies disponibles, les différents moteurs de recherche, et les différents classifieurs pour extraire des concepts du texte. Le troisième chapitre présente les détails communs aux chapitres expérimentaux et les données d'évaluation. Le premier des trois chapitres expérimentaux s'intéresse à la catégorisation automatique de texte. Trois approches différentes sont évaluées : appariement naïf (Rabin-Karp), appariement morphosyntaxique (EAGL) et appariement par apprentissage (k-NN). L'approche par apprentissage fournit les meilleurs résultats avec des performances entre 2 et 3 fois supérieures pour la GO, et entre 1.5 et 2 fois supérieures pour le MeSH. Le deuxième des trois chapitres expérimentaux s'intéresse, dans le système de Q/A, à l'extraction de réponses. Les trois approches étudiées dans le chapitre précédent sont reprises et évaluées de façon extrinsèque. Pour les réponses MeSH, il est montré qu'une combinaison de deux méthodes simples produit des performances équivalentes à la catégorisation par apprentissage pour l'extraction de réponses, alors que cette méthode était supérieure aux deux autres pour une tâche d'annotation. Ce résultat confirme l'hypothèse centrale. Ce constat n'est en revanche pas fait pour les réponses GO. Le dernier des trois chapitres expérimentaux compare le moteur de recherche booléen par défaut (Pubmed) avec un moteur vectoriel plus complexe (Terrier) qui retourne les documents par score de similarité avec la requête. Pour fournir des réponses MeSH, une sensible amélioration des performances du système est montrée avec Terrier. Pour fournir des réponses GO, les deux moteurs montrent en revanche des performances quasi-identiques. Dans ces travaux, les performances du système de Q/A se sont montrées plus dépendantes des méthodes d'Extraction d'Information que des méthodes de Recherche d'Information. Les approches statistiques sur lesquelles EAGLi s'appuient, bien que n'étant pas biomimétiques, ont encore de l'avenir devant elle.
Identifiers
URN: urn:nbn:ch:unige-300322
Full text
Thesis (4.3 MB) - public document Free access
Structures
Citation
(ISO format)
GOBEILL, Julien. Modèles automatiques de questions / réponses pour les sciences biomédicales. Université de Genève. Thèse, 2012. https://archive-ouverte.unige.ch/unige:30032

326 hits

442 downloads

Update

Deposited on : 2013-09-30

Export document
Format :
Citation style :