Représentation multi-vues et classification de documents par des réseaux de
neurones profonds
Par Dylan Silva, Responsable Marketing
Résumé :
Un document, tel un CV, un contrat ou une notice d’utilisation, peut être perçu de
différentes manières, appelées vues : une mise en forme typographique et dispositionnelle, un
contenu (avec une syntaxe et une sémantique) associé aux éléments de cette mise en forme, une
terminologie, des images, des tableaux. Ces données sont multimodales, car les vues contiennent
des informations de natures différentes (texte, image, etc.). Tous ces éléments permettent de définir
des modèles de documents, c’est-à-dire un ensemble de caractéristiques qui regroupent des
documents sous une même étiquette, par exemple un CV.
L’objectif de cette thèse est de proposer des approches basées sur des réseaux de neurones
profonds pour identifier automatiquement le modèle d’un document à partir de l’ensemble des vues
qui le décrivent. Il s’agira dans un premier temps de calculer une représentation numérique
(embedding) adaptée aux données multimodales afin d’extraire les informations pertinentes des
documents. D’autre part, il s’agira de développer des algorithmes de clustering capables de regrouper
automatiquement les documents d’un même type, en utilisant les embeddings de chaque vue, afin de
définir les modèles.
Étapes :
● Analyse bibliographique portant sur les méthodes de représentation de documents
multimodaux par les réseaux de neurones profonds et sur les approches de clustering
adaptées aux données multi-vues.
● Proposition d’une architecture de réseau de neurones profonds pour la représentation
vectorielle, sous forme d’embeddings, des différentes vues décrivant un document, en
prenant en compte la langue dans laquelle il a été écrit.
● Construction de réseaux de neurones non supervisés pour le clustering des documents à
partir des embeddings des vues.
● Évaluation des résultats.
Mots-clés : traitement automatique de documents, machine learning, apprentissage de représentation, clustering multi-vue et multimodal, modèles multilingues.
Laboratoire : LORIA, Université de Lorraine
Entreprise : Ostendi
Lieu : Nancy, France
Durée : 3 ans
Salaire :
● Mensuel net >1900€.
● Contribution transport/repas d’environ 250 € par mois sur 11 mois.
● Prise en charge à 50 % de la mutuelle santé.
Le ou la candidat(e) doit détenir :
● Un diplôme de Master en Informatique ou un diplôme d’ingénieur avec une spécialisation en
Informatique.
● De solides connaissances en apprentissage automatique, notamment en deep-learning, en
représentation vectorielles et en clustering.
● Une expérience dans l’analyse de textes ou de documents serait appréciée.
● De solides compétences en programmation, en particulier en Python, et être familier avec les
bibliothèques les plus courantes en apprentissage automatique et en deep learning.
● Une très bonne maîtrise de l’anglais.
Pour candidater : envoyer les documents suivants à parisa.rastin@univ-lorraine.fr
● Curriculum Vitae ;
● Lettre de motivation ;
● Notes de Master ou équivalent ;
● Tout autre document jugé utile pour enrichir le dossier de candidature (lettres de
recommandation, articles scientifiques, rapport de master).
Date limite d’envoi des candidatures : 31/07/2023
Pour tout renseignement, contacter :
● Yannick Toussaint ( yannick.toussaint@loria.fr )
● Parisa Rastin ( parisa.rastin@univ-lorraine.fr )
● Guénaël Cabanes ( guenael.cabanes@lipn.univ-paris13.fr )