Atelier théorique
Archives INA
L’interdisciplinarité, les dynamiques exploratoires et expérimentales sont des leviers essentiels du renouvellement des pratiques de recherche. Au travers de projets orientés « données » et « outillage » de la recherche, cette séance présentera de nouvelles approches et instrumentations pour l’exploitation scientifique des collections audiovisuelles et numériques de l’INA.
Première partie
Seconde partie
Claude Mussou (Responsable de l’Ina Thèque) : Introduction
Laetitia Larcher (chargée de mission documentation à l’INA) : Les sources disponibles pour la recherche
Cecile Meadel et David Doukan : Gender Equality Monitor, égalité et parité Hommes/Femmes dans les médias
Le projet Gender Equality Monitor, financé par l’ANR, porte sur l’étude des différences de représentation et traitement des femmes et des hommes dans les médias audiovisuels. Fondé sur un corpus de documents échantillonnés sur une période de plus de 80 ans, il mobilise des chercheurs en intelligence artificielle (analyse du signal, TAL…) ainsi que des équipes de recherche dans les domaines des STIC et des SHS. L’articulation de méthodes quantitatives et qualitatives devrait aboutir à des résultats susceptibles d’éclairer le débat public sur les enjeux d’égalité et de parité Hommes/Femmes.
Matteo Treleani et Olivier Buisson : Crossing Borders Archives et l’outil Snoop, quelles images symboliques de l’Europe dans les médias audiovisuels ?
Le projet ANR CROBORA souhaite tracer les réutilisations d’archives audiovisuelles dans les récits médiatiques portant sur la construction de l’Union Européenne. CROBORA fait l’hypothèse que les logiques circulatoires à l’œuvre dans la médiatisation des images du passé contribuent à la constitution d’une mémoire européenne construite autour d’un nombre limité d’images symboliques. Le projet s’appuie sur des corpus d’archives de l’INA et de la Rai ainsi que sur des outils développés à l’INA de détection d’images similaires .
Jean Carrive et Franck Mazuet : ANTRACT, un corpus historique à l’épreuve de la transdisciplinarité.
ANTRACT est un projet financé par l’ANR. Il porte sur l’analyse de la collection des Actualités Françaises conservée à l’INA. Ce corpus de presse filmée qui couvre une période de près de 25 années n’a jamais fait l’objet d’une analyse systématique. Dans une approche transdisciplinaire, le projet propose de nouvelles modalités et pratiques de recherche appliquées à ce corpus historique. Au service de questions de recherche en histoire sociale, politique ou culturelle, cette approche se fonde sur des outils innovants d’analyse de l’image et du son, de transcription automatique de la parole ou de textométrie.
Intervenants:
Mobilisation des collarborateurs de l’INA vers de nouvelles approches d’études et d’exploration des corpus de l’INA
Séance sur des projets et des outils innovants, exploratoires.
Video: Archives inscrites sur des médias technologiques qui ont nécessité des instrumentations particulières d’inscription (Bachimont)
Emergence des humanités numériques. accompagnement de la recherche à partir d’outils innovants, y compris IA, DLearning.
Fonds Télé, Radio et Web documentation écrite et collections audiovisuelles d’institutions
19M d’heures de radio et télévision 40K objets web 34K films de cinéma
Pluri-médias revul historique de 70 ans (télévision), 80 ans (radio)
documentation écrite: monographies, documents déposés, travaux universitaires, périodiques spécialisés, archives écritures, etc. Remise en perspective des fonds audio-visuels
Accompagnement:
David Doukhan - ingénieur de recherche à l’ina, ML applkiqué à l’audio/vidéo Cécile Maedel: laboratoire .; sociologie des usages
Projet GEM:
Gradient Volume/automatiques - Manuel/complexité
mais complexité devient rapidement subjectif (interprétation)
Manuel : couteux en ressources humaines, suppose des échantillonage qui introduisent des biais
Automatique:
trouver le bon compromis entre ces deux approches.
contexte sanitaire amène à repenser le projet
constat initial : femmes dans des positions de témoignages individuels et profane. Figure de la temun (?)
3 corpus:
1900 personnes analysées
détecter les zones d’incurstation regroupement OCR sur les bandeaux (pas toujours efficace)
Constitution de documents partagés (GG drive) préremplis automatiquement nom, prénom, description,
intervention manuelle : - correction des contenus textes - codage genre, domaine (parmi 9), autorité symbolique (+/-)
Pour chaque incrustation : 20sec d’intervention humaine experte.
Sur 24h de BFM, 130 incrustations : 40min d’expertise humaine.
permet d’analyser des grands volumes grace à une première analyse automatique.
Résultat :
seule l’exhaustivité permet d’éviter certains biais (ex: taux de présence des femmes doublée d’un jour à l’autre sur FR2)
Pourquoi faire intervenir l’INA Objectif: faire parler autrement ces données 3 questions additionnelles: - question de l’autorité - utilisation de la langue inclusive (parler de manière inclusive) - est ce que les codeurs considèrent que les personnes appartiennent aux catégories ethno-racisées.
Crossing Borders Archives
circulation des objets audiovisuels dans le paysage médiatique
Constat préliminaire: présence d’archives AV dans l’espace numérique. constitue notre mémoire collective. Les images sont répétées et façonnées par les contextes dans lesquels elles apparaissent. analyse des redondances d’une meme images dans plusieurs environnements.
Système complexe de médiation qui déterminerait la circulation. analyse des logiques d’autorité dans ces circulations: humaines, interfaces, dynamiques culturelles, etc.
3000 sujets télévisés utilisant des images d’archives de la construction européenne
mise en place d’une bdd pour comprendre ces réusages
projet s’appuie des outils de l’INA, dont Snoop.
Olivier Buisson, chercheur à l’INA, développe un moteur de recherche.
“vérité terrain” ou corpus
Snoop: modélisation de catégories/concept (ici tigre)
Utilisation de Signatures pour retrouver les redondances/occurrences de certaines images
Dans ces archives, sont présentes des images illustratives. déjà indexées/documentées par les documentalistes de l’INA.
Autres images de raccord, illustratives, non-indexées.
Les Actualités Françaises: actualités filmées et diffusées dans les cinemas juqu’à l’arrivée de la télévision en 69.
Corpus: 1262 journaux (1 par semaine), 20232 sujets, tapuscrits des commentaires, notices documentaires
thématiques:
documentation très riche: notices, tapuscrit des voix off, description de l’image plan par plan.
Franck Mazuet (réalisateur documentaire): thèse en cours sur les Actualités françaises.
au-delà de la grammaire: pourquoi cette grammaire et comment ? qui a filmé, comment, dans quelles conditions ? en quoi y a t il une standardisation formelle de ces images.
exploite l’identification des plans et la textométrie
montre les connexions de la mise en scene des actualités avec une volonté politique sociale ou culturelle, dépendant des techniciens autour de la production de ces sujets.
Claude Mussou: dimension exploratoire à la fois des pratiques SHS, mais aussi des algorithmes
Outil de transcription automatiques de la parole: outil du laboratoire Lium (https://lium.univ-lemans.fr/lium/lst/), en collaboration avec le LIA. un des meilleurs outils de l’état de l’art.
Outils de l’INA en Open Source - page github.com/ina-foss
Ina Speech segmenter : détecte un signal audio et distingue les bruits, les voix d’hommes, de femmes.
https://larevuedesmedias.ina.fr/
il n’existe pas de catalogue des sources du DL web
Utilisation du DL Web pour Crobora