Atelier théorique

Julien Schuh et Cyril Bruneau

Machine et deep learning appliqués aux SHS

DOI:10.34847/nkl.cfc0cmys

29 mars 2021 · 14h-16h · online

Réseau de neurones

Réseau de neurones

Présentation

Julien Schuh et Cyril Bruneau ont animé un atelier théorique sur les méthodologies et les outils de machine et deep learning dans le cadre de recherches sur les archives et les contenus patrimoniaux. La présentation s’est appuyée sur les cas d’étude du projet ModOAP pour illustrer les principes généraux de ces méthodologies.

 

Vidéo

Voir la donnée sur nakala.fr

 

Minutes de l'atelier

FPLab Atelier 29 mars 2021

Machine et deep learning appliqués aux SHS, avec Julien Schuh et Cyril Bruneau

MODOAP Modèles et outils d’apprentissage profond - modoap.huma-num.fr/

production d’outils réutilisables pour l’exploration de corpus

2 constats:

Projets existants en SHS ne mettent pas à disposition des outils. L’objectif n’est pas d’inventer de nouveaux outils, mais de le democratiser en les insérant dans une chaine complète de traitement

Production d’outils pour un projet, outils souvent peu réutilisable (nécessite un fort investissement avec ingé/Développeur)

principe: proposer une boite à outils en ML/DL

  1. Outils pour interroger des bases de type Gallica
  2. Outils qui peuvent réaliser certaines tâches et qui peuvent être repetées sur d’autres corpus (ex. decter les illustrations dans des documents)
  3. Mise en valeur des données traitées en proposant des visualisation et des modèles

L’objecti est de permettre la comparaison des corpus

Les modèles et les chaines de traitements sont conservés et réutilisables,

Plusieurs fonds (sous-projets, fonds non documentés et opaques)

Projet low tech : serveurs jupyter melant code et texte

Outils

Détection d’illustrations

détecter et segmenter les illustrations dans des pages de mag/journaux https://modoap.huma-num.fr/outils-realises/

Entrainement suppose une phase d’annotation : annotation manuelle

fichier d’entrainement (500 exemples) issu du zoning effectué/fourni par Gallica.

Plusieurs modèles sont nécessaires (temps d’entrainement très long)

l’entrainement a lieu sur des formats image (jpg)

Questions

Classification automatique d’images

Possibilité d’appliquer des étiquettes aux images : binaire, multi-étiquette Chaque image peut avoir plusieurs étiquettes

détection de doublons VS détection de similarités suppose des modèles différents.

Modoap ne recrée pas les architectures, elles testent et adaptent des modèles existants.

Calcul de similarité entre images

Détection de doublons

Questions de recherche:

les outils permettent de montrer la systématisation de la diffusion d’objets graphiques en Europe entre revues

PixPlot (du DH Lab Yale https://dhlab.yale.edu/projects/pixplot/) url pour Kagan ?

Classification automatique de textes

choix d’annoter sur un texte segmenté au niveau du paragraphe

Les objectifs sont :

Détection d’entités nommées

Modélisation thématique

Types d’analyse avec detection textuelle :

Questions

Marta S.: quid des corpus nativement numériques (Wikipédia, réseaux sociaux ?) - on reste sur des dynamiques de réappropriation. les corpus anciens sont également des objets culturels pris dans ces dynamiques de circulation

Claire Clivaz : Je m’intéresse toujours aux cas limite: avez-vous repéré une anaphore qui n’a pas été listée? Et si oui, est-il possible d’entraîner la machine pour les cas limites, ambigus, etc. ?

Cédric : comment vous envisagez d´intégrer des approches de data science à des questionnements historiographiques ou épistémologique plus traditionnels (par exemple autour de l´etude du document historique)? est ce que c´est une question que vous vous posez pendant le projet

L’objectif est également d’inverser la manière de réaliser ce type d’analyse : partir de l’objet et non de l’interet statistique

Ne pas partir de la statistique pour produire des grilles d’interprétation, pourquoi ne pas modéliser des formes d’interprétations, hypotheses sur les objets pertinents selon les formes d’interprétation

Retour aux événements