User Tools

Site Tools

Agence Nationale de la Recherche

job-2016-ligm-alpage-phd-fr

L'ATILF recrute un doctorant en traitement automatique des langues.

Intégrer les expressions polylexicales au coeur de l’analyse syntaxique et sémantique statistique

  • Candidatures acceptées jusqu'à ce que le poste soit pourvu
  • Domaine: traitement automatique des langues
  • Lieu: ATILF, Université de Lorraine
  • Encadrant: Matthieu Constant
  • Co-encadrant: Marie Candito (Univ. Paris Diderot et INRIA)
  • Durée: 3 ans, octobre 2016 à septembre 2019
  • Rémunération: environ 1700 € par mois
  • Financement: bourse CNRS, Projet ANR PARSEME-FR
  • Mots-clés: expressions polylexicales, analyse syntaxique, analyse sémantique, apprentissage profond

Contexte

Le sujet de thèse proposé ci-dessous se situe dans le domaine du traitement automatique des langues à la croisée des chemins entre informatique et linguistique. Il s’intéresse plus particulièrement au traitement des expressions polylexicales qui forment des combinaisons de mots avec un certain degré d'idiomaticité. Ces expressions sont très fréquentes et extrêmement variées. Par exemple, *pomme de terre*, *prendre en grippe*, *alors que*, *en effet*, *en dépit de*, … Repérer des expressions polylexicales en contexte constitue un pas essentiel pour l'analyse syntaxique et pour l'analyse sémantique, et plus généralement pour des applications de traitement automatique des langues comme la traduction automatique. Cette proposition de thèse de doctorat se place dans le cadre du projet ANR PARSEME-FR qui vise à intégrer ce type d’expressions au sein d’analyseurs syntaxiques et sémantiques à grande échelle.


Profil

  • Master en informatique ou traitement automatique des langues
  • Bonne connaissance du Français et de l'anglais, une autre langue serait un plus
  • Intérêt pour la linguistique et compétence en technologie des langues
  • Capacité à travailler indépendamment et en équipe

Candidature

Les candidats devront envoyer les pièces suivantes en français ou en anglais, au format pdf à Mathieu Constant (Prenom.Nom@u-pem.fr) et Marie Candito (Prenom.Nom@linguist.univ-paris-diderot.fr)

  • CV
  • Lettre de motivation
  • Bulletin de notes de la Licence et du Master
  • Lettre de recommandation (serait un plus)

Institutions d'accueil

Affiliation principale

Affiliation secondaire

Description scientifique

Cette thèse consiste à revisiter l’analyse syntaxique et sémantique statistique à l’aune des expressions polylexicales. Plus précisément, elle se placera dans le cadre de l’analyse en dépendances en temps linéaire.

La prise en compte des expressions polylexicales à grande échelle constitue un défi pour l’analyse linguistique de textes, essentiellement du fait de leur non-compositionnalité, i.e. de l'irrégularité, totale ou partielle, dans la manière dont se composent leurs éléments, que ce soit au niveau lexical, morpho-syntaxique ou sémantique. En outre, il existe un continuum entre expressions entièrement figées (cordon bleu) et expressions presque libres (déficit budgétaire). Une grande majorité des expressions sont en réalité partiellement compositionnelles (rendre visite, vin blanc) nécessitant donc une représentation non-atomique. En préalable, il s’agira donc de mettre au point une nouvelle représentation lexicale, syntaxique et sémantique qui permette un traitement satisfaisant de ce type d’expressions en particulier. Étant donné cette nouvelle représentation, il s'agira ensuite de mettre au point de nouveaux algorithmes d'analyse syntaxique automatique intégrant les expressions polylexicales ainsi représentées. La priorité sera donnée à un système qui réalise conjointement à la fois la reconnaissance des expressions polylexicales et l'analyse syntaxique globale, de manière à ce que les deux tâches puissent s'informer mutuellement. En outre, les expressions polylexicales représentant en général des unités sémantiques, un prolongement naturel d'un tel système joint est de proposer la construction d'un graphe sémantique pour une phrase.

Le ou les analyseurs développés tenteront de combiner deux caractéristiques souvent antagoniques: rapidité et exactitude. Pour garantir la meilleure exactitude possible, les systèmes développés pourront s’appuyer sur des techniques d’apprentissage profond (deep learning) et sur de larges ressources lexicales afin de favoriser la couverture en expressions polylexicales. L’implantation d’un système joint, prédisant les différents niveaux d’analyse simultanément, peut permettre à l’analyseur de bénéficier d’informations linguistiques plus riches au moment de l’analyse. Bien que mieux informés, les systèmes joints amplifient l’ambiguïté parfois artificiellement. Une piste possible est d'ajouter un ensemble de contraintes réduisant l’espace de recherche. Enfin, nous souhaiterions que les systèmes proposés garantissent une complexité en temps linéaire ou quasi-linéaire, afin de pouvoir envisager raisonnablement l’analyse de grandes masses de données textuelles.

Cette thèse s'effectuera en collaboration avec Joakim Nivre (Univ. Uppsala, Suède), dans le cadre de l'action européenne COST PARSEME.


Bibliographie

job-2016-ligm-alpage-phd-fr.txt · Last modified: 2016/06/14 21:41 by matthieu.constant