Stage ingénieur Data Science / Text-mining pour le Contrôle Qualité H/F

  • Segula
  • Trappes, France
  • avr. 26, 2018
Stage

Description

Métier

Ingénieur/Consultant - Informatique embarquée / Industrielle

Date de publication

avr. 26, 2018

Sous-Domaines

Ingénieur/Consultant

Mission

SEGULA AERONAUTQUE (SIMRA) effectue des missions de contrôle qualité pour de grands constructeurs aéronautiques, tant dans le domaine civil que militaire. Lors des inspections, l'opérateur effectue des relevés sur les pièces à vérifier, par observation visuelle, et par mesure précise à l'aide d'instruments spécifiques. Les résultats de ces mesures sont consignés dans des rapports manuscrits contenant la description des opérations effectuées, les défauts rencontrés et les actions proposées. Le volume de rapport est très conséquent (environ 60 par semaine, par opérateur) et l'historique des rapports est disponible et existe depuis plusieurs années. Bien que la structure du document soit la même pour tous, le contenu du texte est non structuré et rédigé par des opérateurs multiples. L'objectif du stage est de contribuer à la conception d'une solution de traitement automatique de texte, afin d'automatiser le contrôle qualité. Il y a trois volets dans ce stage : - tester et valider un outil de reconnaissance de caractères manuscrits (OCR) efficace pour l'extraction de texte depuis des documents numérisés (pdf) ; - procéder à la reconnaissance de séquences de texte grâce à des méthodes actuelles (Chaine de Markov, Réseaux de Neurones etc...) ; - utiliser des méthodes statistiques pour identifier les informations importantes contenues dans l'historique des documents et classifier les pièces en fonction des descriptions contenues dans le rapport. Il s'agit de mettre en œuvre des techniques de fouille de données textuelles (ou text-mining) statistiques, de traitement automatique du langage naturel (TALN) et d'analyse sémantique afin de retrouver les évènements présents dans les textes pour constituer une base de connaissance. Un événement est une combinaison d'informations, comme par exemple : une date, un type de défaut, la criticité du défaut, le fournisseur de la pièce défectueuse, la mesure incriminée et une action de remédiation (pièces à écarter ou à conserver...). Certaines de ces informations peuvent être corroborées par des informations disponibles dans d'autres parties du système d'information (historique des pièces défaillantes lors du montage…) ou par l'expérience des opérateurs. Des documents peuvent ne contenir aucune des informations recherchées alors que d'autres documents peuvent en contenir plusieurs qu'il ne faudra pas mélanger.

Profil

De formation bac +5 avec une spécialisation en informatique et Data Science, vous êtes à la recherche d'un stage de fin d'études. Vous avez des connaissances en modélisation des connaissances, en techniques de fouille de textes, et en text-mining de type Traitement Automatique du Langage Naturel et d'Analyse Sémantique (TF/IDF, Word2vec etc…). Pour ce stage, l'environnement de développement sera : Anaconda Python, Pandas, NLTK.