ANF Corpus Istex - L’infrastructure Istex au service de la constitution et de l’analyse de corpus textuels
5 - 7 novembre 2025 Nancy (France)
Présentation
La fouille de textes (ou TDM pour text and data mining) regroupe des techniques d’exploration et d’analyse automatique de grands ensembles de documents textuels. Elle permet d’identifier des motifs, de découvrir de nouvelles connaissances et d’appuyer la prise de décision. La qualité du corpus utilisé est essentielle pour garantir la pertinence et la fiabilité des résultats obtenus. C’est précisément autour de ces enjeux que s’articule cette Action Nationale de Formation (ANF), qui vise à développer les compétences nécessaires pour constituer un corpus documentaire de qualité et pour l'analyser grâce à des outils de fouille de textes.
Cette ANF s’inscrit dans le programme de développement de compétences sur le traitement d’ingénierie documentaire, à savoir la constitution d’un corpus de données, sa curation ainsi que l’enrichissement des données, la diffusion et la valorisation de ce corpus. Elle propose un programme complet et diversifié comprenant des conférences, cours, ateliers et mises en situation.
Qu’est-ce qu’Istex ?
Istex est une infrastructure adossée à l'Inist-CNRS poursuivant deux objectifs : (i) rendre disponibles des publications scientifiques multilingues et multidisciplinaires ; (ii) faciliter la constitution, l'exploration et l'analyse de corpus construits à partir de ces documents. Elle regroupe aujourd’hui plus de 30M de publications scientifiques internationales et propose plusieurs outils facilitant la constitution de corpus documentaires (Istex Search) et l’exploration ou l’analyse de ces corpus (Lodex, Istex TDM, Istex Loterre, etc.).
Profils et objectifs
Cette ANF s'adresse aux professionels de l’IST, aux chercheurs, doctorants, ingénieurs d'appui à la recherche qui souhaitent se former à la constitution et à l’analyse de corpus à partir de l’offre de services de l’infrastructure Istex. La formation permettra aux participants :
de comprendre la / les méthode(s) de collecte de données et les défis que suppose la constitution de corpus de plusieurs milliers de documents (cohérence thématique, suppression du silence / bruit) ;
de découvrir le contenu du réservoir Istex et de comprendre l'intérêt des enrichissements proposés par l’Inist (ex. standardisation en TEI, détection d’entités nommées) ;
d’acquérir des bases en fouille de textes (ex. formats appropriés, pré-traitements nécessaires, traitements linguistiques minimaux : tokenisation, lemmatisation) et d’apprendre à manipuler des outils open source (ex. Lodex, Cortext) ;
de tirer parti au quotidien des avancées conceptuelles, méthodologiques et techniques en fouille de textes sans pour autant être expert.
L’ANF Corpus Istex, organisée par le CNRS et le réseau Renatis, complète l’ANF boîte à outils (B@O) qui aura lieu les 1 et 2 octobre 2025 (toutefois la participation à l'ANF B@O n'est pas un prérequis).
Prérequis
L’ANF Corpus Istex s’adresse à toute personne souhaitant exploiter les ressources Istex pour la recherche, qu’elle soit novice ou expérimentée dans la manipulation de corpus et l’analyse de données textuelles.
En amont de cette formation, vous pouvez consulter plusieurs tutoriels relatifs à des outils manipulés pendant l’ANF via la plateforme pédagogique Callisto :