User Tools

Site Tools

Agence Nationale de la Recherche

internships-2016-ligm-m2-1

Reconnaissance d'expressions polylexicales verbales et apprentissage profond


Contexte du stage

Une des tâches fondamentales du traitement automatique des langues est de développer des analyseurs produisant automatiquement une représentation linguistique d'un texte donné en entrée: ex. segmentation lexicale, étiquetage grammatical, analyse syntaxique, analyse sémantique, … Les stages proposés ci-dessous concernent la segmentation lexico-sémantique et, en particulier, l'identification des expressions polylexicales, qui forment des combinaisons de mots avec un certain degré d'idiomaticité. Ces expressions sont très fréquentes et extrêmement variées. Par exemple, pomme de terre, prendre en grippe, alors que, en effet, en dépit de, … Elles posent de sérieux problèmes pour les applications du traitement automatique des langues comme la traduction automatique. Cette proposition de stage se place dans le cadre du projet ANR PARSEME-FR qui vise à intégrer ce type d’expressions au sein d’analyseurs syntaxiques à grande échelle. Ce stage pourra éventuellement se poursuivre en thèse.

Objectifs

L'objectif de ce stage est d’incorporer dans un outil d’identification d'expressions polylexicales des techniques d’apprentissage profond (ou deep learning), afin d’améliorer ses performances. Dans un premier temps, les techniques seront mises au point pour le français, la langue de travail du projet PARSEME-FR. Puis, elles seront adaptées à un certain nombre de langues européennes avec, pour objectif, à moyen terme de participer à la compétition internationale sur la reconnaissance d’expressions verbales qui se tiendra dans le cadre de l’action européenne COST PARSEME entre 2016 et 2017. L’un des enjeux importants du stage sera de mettre en oeuvre des méthodes d’apprentissage profond tenant compte d’informations linguistiques provenant de lexiques.

Le stagiaire recruté sera amené à collaborer avec des chercheurs de l’équipe Alpage de l’INRIA et du laboratoire Lattice.


Candidater

Profil du candidat:

  • Master 2 ou école d'ingénieur en informatique ou TAL
  • très bonnes compétences de programmation objet (Java ou C++),
  • bonnes connaissances des techniques d'apprentissage, notamment le deep learning

Les candidatures doivent être envoyées par mail à Mathieu.Constant@u-pem.fr. Le dossier de candidature contiendra un cv, une lettre de motivation, et, éventuellement, la recommandation d'un enseignant.

internships-2016-ligm-m2-1.txt · Last modified: 2015/12/09 23:04 by matthieu.constant