Atelier théorique

INA

Faire de la recherche avec les archives audiovisuelles

DOI:10.34847/nkl.adf5t966

3 mai 2021 · 14h-15h30 · online

Archives INA

Archives INA

Présentation

L’interdisciplinarité, les dynamiques exploratoires et expérimentales sont des leviers essentiels du renouvellement des pratiques de recherche. Au travers de projets orientés « données » et « outillage » de la recherche, cette séance présentera de nouvelles approches et instrumentations pour l’exploitation scientifique des collections audiovisuelles et numériques de l’INA.

 

Vidéos

Première partie

Voir la donnée sur nakala.fr

Seconde partie

Voir la donnée sur nakala.fr

 

Déroulé de la séance

Claude Mussou (Responsable de l’Ina Thèque) : Introduction

Laetitia Larcher (chargée de mission documentation à l’INA) : Les sources disponibles pour la recherche

Cecile Meadel et David Doukan : Gender Equality Monitor, égalité et parité Hommes/Femmes dans les médias

Le projet Gender Equality Monitor, financé par l’ANR, porte sur l’étude des différences de représentation et traitement des femmes et des hommes dans les médias audiovisuels. Fondé sur un corpus de documents échantillonnés sur une période de plus de 80 ans, il mobilise des chercheurs en intelligence artificielle (analyse du signal, TAL…) ainsi que des équipes de recherche dans les domaines des STIC et des SHS. L’articulation de méthodes quantitatives et qualitatives devrait aboutir à des résultats susceptibles d’éclairer le débat public sur les enjeux d’égalité et de parité Hommes/Femmes.

Matteo Treleani et Olivier Buisson : Crossing Borders Archives et l’outil Snoop, quelles images symboliques de l’Europe dans les médias audiovisuels ?

Le projet ANR CROBORA souhaite tracer les réutilisations d’archives audiovisuelles dans les récits médiatiques portant sur la construction de l’Union Européenne. CROBORA fait l’hypothèse que les logiques circulatoires à l’œuvre dans la médiatisation des images du passé contribuent à la constitution d’une mémoire européenne construite autour d’un nombre limité d’images symboliques. Le projet s’appuie sur des corpus d’archives de l’INA et de la Rai ainsi que sur des outils développés à l’INA de détection d’images similaires .

Jean Carrive et Franck Mazuet : ANTRACT, un corpus historique à l’épreuve de la transdisciplinarité.

ANTRACT est un projet financé par l’ANR. Il porte sur l’analyse de la collection des Actualités Françaises conservée à l’INA. Ce corpus de presse filmée qui couvre une période de près de 25 années n’a jamais fait l’objet d’une analyse systématique. Dans une approche transdisciplinaire, le projet propose de nouvelles modalités et pratiques de recherche appliquées à ce corpus historique. Au service de questions de recherche en histoire sociale, politique ou culturelle, cette approche se fonde sur des outils innovants d’analyse de l’image et du son, de transcription automatique de la parole ou de textométrie.

 

 

Vidéo

Voir la donnée sur nakala.fr

 

Minutes de l'atelier

FPLab - Atelier théorique - 3 mai 2021

INA, Faire de la recherche avec les archives audiovisuelles

Intervenants:

Introduction par Claude Mussou

Mobilisation des collarborateurs de l’INA vers de nouvelles approches d’études et d’exploration des corpus de l’INA

Séance sur des projets et des outils innovants, exploratoires.

Video: Archives inscrites sur des médias technologiques qui ont nécessité des instrumentations particulières d’inscription (Bachimont)

Emergence des humanités numériques. accompagnement de la recherche à partir d’outils innovants, y compris IA, DLearning.

Laetitia Larcher : périmètre des sources et des fonds disponibles pour la recherche

Fonds Télé, Radio et Web documentation écrite et collections audiovisuelles d’institutions

19M d’heures de radio et télévision 40K objets web 34K films de cinéma

Pluri-médias revul historique de 70 ans (télévision), 80 ans (radio)

documentation écrite: monographies, documents déposés, travaux universitaires, périodiques spécialisés, archives écritures, etc. Remise en perspective des fonds audio-visuels

Métadonnées annexes et accompagnement

Accompagnement:

Gender Equality Monitor, égalité et parité Hommes/Femmes dans les médias

David Doukhan - ingénieur de recherche à l’ina, ML applkiqué à l’audio/vidéo Cécile Maedel: laboratoire .; sociologie des usages

Projet GEM:

concilier les approches manuelles avec les approches automatiques.

Gradient Volume/automatiques - Manuel/complexité

mais complexité devient rapidement subjectif (interprétation)

Manuel : couteux en ressources humaines, suppose des échantillonage qui introduisent des biais

Automatique:

trouver le bon compromis entre ces deux approches.

Verrous scientifique et technologiques

Equipe Carism

contexte sanitaire amène à repenser le projet

constat initial : femmes dans des positions de témoignages individuels et profane. Figure de la temun (?)

3 corpus:

Analyse transdisciplinaire: les incrustations

1900 personnes analysées

Chaîne de traitement

détecter les zones d’incurstation regroupement OCR sur les bandeaux (pas toujours efficace)

Constitution de documents partagés (GG drive) préremplis automatiquement nom, prénom, description,

intervention manuelle : - correction des contenus textes - codage genre, domaine (parmi 9), autorité symbolique (+/-)

Pour chaque incrustation : 20sec d’intervention humaine experte.

Sur 24h de BFM, 130 incrustations : 40min d’expertise humaine.

permet d’analyser des grands volumes grace à une première analyse automatique.

Résultat :

Biais d’échantillonnage

seule l’exhaustivité permet d’éviter certains biais (ex: taux de présence des femmes doublée d’un jour à l’autre sur FR2)

GMMP

Pourquoi faire intervenir l’INA Objectif: faire parler autrement ces données 3 questions additionnelles: - question de l’autorité - utilisation de la langue inclusive (parler de manière inclusive) - est ce que les codeurs considèrent que les personnes appartiennent aux catégories ethno-racisées.

Projet Crobora - Matteo Treleani

Crossing Borders Archives

Constat préliminaire: présence d’archives AV dans l’espace numérique. constitue notre mémoire collective. Les images sont répétées et façonnées par les contextes dans lesquels elles apparaissent. analyse des redondances d’une meme images dans plusieurs environnements.

Système complexe de médiation qui déterminerait la circulation. analyse des logiques d’autorité dans ces circulations: humaines, interfaces, dynamiques culturelles, etc.

3000 sujets télévisés utilisant des images d’archives de la construction européenne

mise en place d’une bdd pour comprendre ces réusages

projet s’appuie des outils de l’INA, dont Snoop.

Olivier Buisson, chercheur à l’INA, développe un moteur de recherche.

“vérité terrain” ou corpus

Snoop: modélisation de catégories/concept (ici tigre)

Utilisation de Signatures pour retrouver les redondances/occurrences de certaines images

Dans ces archives, sont présentes des images illustratives. déjà indexées/documentées par les documentalistes de l’INA.

Autres images de raccord, illustratives, non-indexées.

Antract - analyse transdisciplinaire des actualités filmées (1945-69)

Les Actualités Françaises: actualités filmées et diffusées dans les cinemas juqu’à l’arrivée de la télévision en 69.

Corpus: 1262 journaux (1 par semaine), 20232 sujets, tapuscrits des commentaires, notices documentaires

thématiques:

documentation très riche: notices, tapuscrit des voix off, description de l’image plan par plan.

Franck Mazuet (réalisateur documentaire): thèse en cours sur les Actualités françaises.

au-delà de la grammaire: pourquoi cette grammaire et comment ? qui a filmé, comment, dans quelles conditions ? en quoi y a t il une standardisation formelle de ces images.

exploite l’identification des plans et la textométrie

montre les connexions de la mise en scene des actualités avec une volonté politique sociale ou culturelle, dépendant des techniciens autour de la production de ces sujets.

Questions

Claude Mussou: dimension exploratoire à la fois des pratiques SHS, mais aussi des algorithmes

Outil de transcription automatiques de la parole: outil du laboratoire Lium (https://lium.univ-lemans.fr/lium/lst/), en collaboration avec le LIA. un des meilleurs outils de l’état de l’art.

Outils de l’INA en Open Source - page github.com/ina-foss

Ina Speech segmenter : détecte un signal audio et distingue les bruits, les voix d’hommes, de femmes.

https://larevuedesmedias.ina.fr/

il n’existe pas de catalogue des sources du DL web

Utilisation du DL Web pour Crobora

Retour aux événements