User Tools

Site Tools

Agence Nationale de la Recherche

internships-2016-ligm-m2-2

Développement d'outils d'enrichissement d'un lexique d’expressions polylexicales du français


Contexte du stage

Une des tâches fondamentales du traitement automatique des langues est de développer des analyseurs produisant automatiquement une représentation linguistique d'un texte donné en entrée: ex. segmentation lexicale, étiquetage grammatical, analyse syntaxique, analyse sémantique, … Les stages proposés ci-dessous concernent la segmentation lexico-sémantique et, en particulier, l'identification des expressions polylexicales, qui forment des combinaisons de mots avec un certain degré d'idiomaticité. Ces expressions sont très fréquentes et extrêmement variées. Par exemple, pomme de terre, prendre en grippe, alors que, en effet, en dépit de, … Elles posent de sérieux problèmes pour les applications du traitement automatique des langues comme la traduction automatique. Cette proposition de stage se place dans le cadre du projet ANR PARSEME-FR qui vise à intégrer ce type d’expressions au sein d’analyseurs syntaxiques à grande échelle. Ce stage pourra éventuellement se poursuivre en thèse.

Objectifs

L'identification des expressions polylexicales passe en général par la consultation de ressources lexicales riches. Il existe un certain nombre de telles ressources pour le français. Cependant, celles-ci sont souvent incomplètes en termes de couverture, de propriétés syntaxico-sémantiques, et ne sont pas toujours directement exploitables pour les outils du TAL.

L’objectif du stage est de développer des outils permettant:

  1. d'agréger plusieurs lexiques dans un cadre unifié
  2. de les enrichir (semi-)automatiquement en termes de propriétés morphologiques, syntaxiques et sémantiques

Le stagiaire recruté sera en collaboration étroite avec des linguistes du LIGM. Il travaillera également en collaboration avec des chercheurs de l’équipe BdTln du Laboratoire d’informatique de l’Université François-Rabelais.


Candidater

Profil du candidat:

  • Master 2 en TAL ou linguistique informatique
  • bonnes compétences d’un langage de script (ex. python ou perl)

Les candidatures doivent être envoyées par mail à Mathieu.Constant@u-pem.fr. Le dossier de candidature contiendra un cv, une lettre de motivation, et, éventuellement, la recommandation d'un enseignant.

internships-2016-ligm-m2-2.txt · Last modified: 2015/12/09 23:14 by matthieu.constant