Dimedrik Feudjieu

Résolution d’anaphores nominales avec les
séparateurs à vastes marges sur les arbres
syntaxiques

Dimedrik Feudjieu- Paulin Melatagia Yonta;
Département d’informatique, Université de Yaoundé I, Cameroun
Sorbonne Université, IRD, UMMISCO, F-93143, Bondy, France

RÉSUMÉ. La résolution de coréférence est la tâche qui consiste à trouver toutes les expressions qui réfèrent à la même entité dans un texte. Elle est importante pour un grand nombre d’applications du TALN qui impliquent une compréhension du langage naturel. Cependant, la connaissance syntaxique est très importante pour la résolution des groupes nominaux et est traditionnellement capturée en termes de vecteurs de caractéristiques sélectionnées et définies heuristiquement. Dans cet article nous proposons un modèle basé sur les séparateurs à vastes marges et les méthodes à noyaux appliqués sur des arbres syntaxiques (plus faciles à construire et plus riches en informations nécessaires à la résolution d’anaphores nominales). De cette façon, nous évitons les efforts liés au décodage de ces arbres en vecteurs de caractéristiques. Le modèle obtenu après entraînement a été testé sur un sous-ensemble du corpus semEval task 1, les F-mesures sur les différentes métriques d’évaluation des systèmes de résolution de coréférence sont respectivement 48.36% pour le MUC, 49.53% pour le BLANC, 86.99% pour le BCUB et 78.96% pour le CEAF.

ABSTRACT. Coreference resolution is the task of finding all expressions that refer to the same entity in a text. It is an important step for a lot of NLP applications that involve natural language understanding.
However syntactic knowledge is important for noun phrase resolution and is traditionally represented in terms of features vector selected and defined heuristically. In this paper we propose a model based on support vectors machine and kernel methods, applied to syntax trees (easier to construct and richer in information needed to resolve nominal anaphors). In this way, we avoid the effort involved in decoding these trees into feature vectors. The model obtained after training has been tested on a subset of the semEval task 1 corpus. The F-measures on the different evaluation metrics for the coreference resolution systems are respectively 48.36% for the MUC, 49.53% for the BLANC, 86.99% for the BCUB and 78.96% for the CEAF.

MOTS-CLÉS : Résolution de coréférence, Méthodes à noyaux, Séparateur à vastes marges, Arbre syntaxique

KEYWORDS : Coreference resolution, Kernels methods, Support vector machine, Syntaxic tree

Video short presentation