Corpus Istex - L’infrastructure Istex au service de la constitution et de l’analyse de corpus textuels>

Programme > Cours magistraux

Jeudi 6 novembre 2025 | Salle Mercure du bâtiment de la délégation Centre-Est

Présentation d’Istex (9h00 - 10h30)
[Accès au support partie 1 ] [Accès au support partie 2]

Émeline Caule & Stéphanie Grégorio
Ingénieures, Inist (UAR 76, CNRS)

Résumé : La plateforme Istex constitue un réservoir de plus de 30 millions de publications scientifiques accessibles à la communauté de l'enseignement supérieur et de la recherche. Par sa mise à disposition de documents en texte intégral, homogénéisés, enrichis et nettoyés, cette ressource représente un matériau de choix pour réaliser des travaux de fouille de textes à des fins de recherche scientifique. En outre, elle est associée à toute une gamme de services conçus autour de l'API Istex afin de simplifier et de développer son exploitation, notamment par l’aide à la constitution et au téléchargement de corpus volumineux, grâce au nouvel outil Istex Search, et par l'exploration et l’enrichissement de ces corpus à l'aide d'un outil dédié au traitement et à la visualisation de données (Lodex).

Présentation du TDM (10h45 - 13h00)
[Accès au support]

Léo Gaillard
Ingénieur, Inist (UAR 76, CNRS)

Résumé : Face à l'augmentation de la production scientifique, il est crucial de s’appuyer sur des outils automatisés pour exploiter efficacement cette masse d’information. Cette intervention propose une introduction au Text and Data Mining (TDM), une approche essentielle pour exploiter efficacement cette masse croissante d'informations. Nous aborderons les enjeux scientifiques, techniques et éthiques liés à la fouille de textes, ainsi que les évolutions du cadre légal. L’exposé illustrera également certaines possibilités offertes par le TDM (classification automatique, extraction d’entités nommées...) en donnant un aperçu des principales méthodes mobilisées (TAL, machine learning...). Enfin, un focus sera fait sur les services développés à l’Inist sur la fouille de textes : des web services utilisables par des non experts sur leurs propres corpus scientifiques.

Alexandre Hannud Abdo
Ingénieur, LISIS (UMR 9003 Université Gustave Eiffel-CNRS-INRAE-ESIEE Paris)

Résumé : Si le langage est à la base des systèmes de production de connaissance, étudier d’un regard quantitatif sa représentation par excellence — le texte — permet d’ouvrir ou d’approfondir de nombreuses portes d’enquête, quelle que soit notre discipline ou activité. Le TDM, de l’anglais « text and data mining », désigne un ensemble versatile d’approches qui combinent représentations textuelles et traitement informatique. De leur diversité et adaptabilité, elles se prêtent à l’étude d’un large éventail de thématiques : la langue, les organisations, les médias, la littérature etc. Selon le contexte d’usage, elles viennent à l’aide d’un travail qualitatif ou donnent une réponse quantitative, et servent à la démonstration du connu ainsi qu’à la découverte de l’inconnu. On retrouvera des usages en biologie autant qu’en sociologie, en science politique comme en sémiotique, et bien sûr en bibliométrie et linguistique. Cette présentation en survol de la diversité des approches et applications associées au TDM tient à fournir une compréhension des principales questions méthodologiques et épistémiques associées. Des exemples concrets pour illustrer ces questions seront tirés de travaux accompagnés au sein de la plateforme Cortext, avec une présentation de la démarche de mutualisation de méthodes dans l’application Cortext Manager.

Vie privée | Accessibilité : non conforme

Programme > Cours magistraux

Présentation d’Istex (9h00 - 10h30)[Accès au support partie 1] [Accès au support partie 2]

Présentation du TDM (10h45 - 13h00)[Accès au support]

Présentation d’Istex (9h00 - 10h30)
[Accès au support partie 1 ] [Accès au support partie 2]

Présentation du TDM (10h45 - 13h00)
[Accès au support]