Ingénieur-e d’études en traitement de données textuelles (H/F)

     
Employer
Published
WorkplaceParis, Ile-de-France, France
Category
Position

Description

CNRS - Portail emploi recrutement

  • Français
  • English


  • Portail > Offres > Offre UPR841-BRUBON-002 - Ingénieur-e d'études en traitement de données textuelles (H/F)

    Ingénieur-e d’études en traitement de données textuelles (H/F)

    Faites connaître cette offre !

    Informations générales

    Référence : UPR841-BRUBON-002
    Lieu de travail : AUBERVILLIERS
    Date de publication : samedi 19 octobre 2019
    Type de contrat : CDD Technique/Administratif
    Durée du contrat : 12 mois
    Date d’embauche prévue : 1 février 2020
    Quotité de travail : Temps complet
    Rémunération : Entre 2 139 ¤ (expérience 20 ans) bruts mensuels
    Niveau d’études souhaité : Bac+3
    Expérience souhaitée : 1 à 4 années

    Missions

    La personne retenue participera à l’élaboration d’un corpus représentatif du latin médiéval (environ 100 millions de mots) dans le cadre du projet ANR "Velum" (Visualisation, exploration et liaison de ressources innovantes pour le latin médiéval). Certains documents sont déjà disponibles dans un format texte, d’autres non.

    Activités

    La personne recrutée, en étroite collaboration avec l’équipe du projet, aura pour tâches principales de :
    - numériser, océriser et corriger des documents non disponibles au format texte ;
    - encoder en masse la structure des documents (titres, livres, chapitres, vers des poèmes, etc.), et corriger le résultat de cet encodage ;
    - annoter en masse les documents (lemmatisation, marquage morphosyntaxique), et corriger le résultat de cette annotation ;
    - préparer et mettre en place des procédures de reconnaissance des entités nommées sur les documents.
    Elle sera également chargée de : - mener une veille sur la lemmatisation et la reconnaissance des entités nommées des langues anciennes.
    - développer un modèle d’évaluation des outils utilisés.

    Compétences

    Connaissances : - Bonne connaissance de la langue latine.
    - Notions de linguistique de corpus.
    Compétences techniques :
    - Bonne connaissance du langage XML, et des outils de traitement XML (XSLT, Oxygen, etc.)
    - Connaissance des outils d’OCR (PoCoTo, Transkribus, etc.) et de PoS-Tagging (Treetagger, etc.)
    - Notions de traitement des données linguistiques (Python, Perl, etc.)

    Contexte de travail

    L’Institut de recherche et d’histoire des textes se consacre à la recherche fondamentale sur les manuscrits médiévaux et les imprimés anciens. La personne recrutée sera affectée à la section de lexicographie de l’IRHT (Comité Du Cange - Institut de France - Paris 6e). Cette section a pour missions :
    - la recherche en sémantique historique du latin médiéval ;
    - la rédaction du dictionnaire européen du latin médiéval ("Novum Glossarium Mediæ Latinitatis").
    Elle compte une Ingénieure d’études (IE 50%), un Ingénieur de recherche (IR) et une Directrice de recherche émérite, sous la responsabilité d’un IR, porteur du projet ANR Velum, qui sera le responsable de la personne recrutée.

    Contraintes et risques

    Compte tenu de la taille restreinte de l’équipe, et des multiples activités de ses membres, qui les amènent à de fréquents déplacements (en France et à l’étranger), la personne recrutée devra faire preuve d’une grande autonomie dans son travail.

    Web

    In your application, please refer to myScience.fr and reference JobID 17480.

    Related News



    This site uses cookies and analysis tools to improve the usability of the site. More information. |