Atelier théorique
Gérald Kembellec
Dès la phase initiale des projets de recherche, les organismes de financement imposent une réflexion sur la collecte, la modélisation, production, le stockage et la valorisation des données de la recherche. Gérald Kembellec propose de voir cette contrainte comme l’opportunité d’anticiper les questions liées aux données des projets de recherche, en effet leur qualité et leur structuration permettront une exploitation et une ré-exploitation maximales.
Il illustre son propos au travers d’exemples pratiques de projets en cours, en Histoire ou Histoire de l’art. Cet atelier est l’occasion de discuter la posture maïeutique interdisciplinaire, point de départ d’une modélisation robuste – elle-même garante de la réalisation d’un corpus de qualité. Il termine par la question de l’exposition, de l’ouverture et la diffusion des données de la recherche : les enjeux et méthodes.
Gérald Kembellec est MCF en sciences de l’information et de la communication au CNAM (Paris) et actuellement chargé de recherche au département des Humanités Numériques de l’Institut Historique Allemand (IHA, Paris). Ses thématiques de prédilection sont l’accès aux données liées au sein des dispositifs info-communicationnels et les systèmes de recommandations. Il aime exercer ces thématiques sur le terrain des humanités.
Retour sur le premier projet en HN qui a amené à travailler le sujet de la modélisation de données
injonction au DMP depuis 2019, dès le montage de projet:
LE DMP comme un outil pour formaliser ces aspects: formulaire en ligne.
COnsidérer le DMP comme une étape constructive pour son projet :
transfert des méthodes d’une discipline à une autre, mais avec une finalité inscrite dans sa propre discipline. travailler à plusieurs, mais y trouver de la matière et de l’intérêt à sa propre discipline
!= transdisciplinarité: travailler avec une vision discontinue entre discipline (co-construction d’objet)
Interdisciplinarité:
Les HN sont par nature interdisciplinaires.
Objet de recherche: penser un phénomène, observé depuis une ou plusieurs disciplines
démarche d’écoute de l’autre, et démarche de maïeutique
enrichissement scientifique mutuel
méthode socratique d’échange : interroger les autres pour exprimer leurs connaissances, leurs points de vue. écouter et reformuler, séries de boucles itératives
questionner, écouter, retranscrire (sous forme schématique), confronter et négocier les points de vue
outil SyMoGIH http://symogih.org/ (labo LARHRA): système pour comprendre les liens (sémantiques) entre acteurs de l’histoire et tous les concepts d’histoire (lieux, actions, objets, faits, etc.)
considérer que cette modélisaiton permet de prendre du recul sur son objet.
mocodo.wingi.net : logiciel permettant de modéliser un objet de recherche facilement sans se préoccuper de la modélisation de la base de données.
Modélisation comme une transcription conceptuelle d’un objet de recherche. Ce n’est pas nécessairement (ou pas encore) une pratique informatique.
du modèle au dispositif:
FUD, Heurist, OmekaS, NakalaPress,
Histoire de l’art, SIC, Sociologie
Corpus de critiques d’art
approche monographique des critiques
documentation et modélisation des échanges pour comprendre les demandes des acteurs
du modèle aux interfaces répondant aux besoins usagers, mais aussi à la réalité des modèles documentaires et informatiques
prosopographie: analyser les acteurs par leurs caractéristiques
1ere modélisation trop simpliste par rapport au besoin des chercheurs en HA.
la maïeutique pour faire émerger un modèle plus complexe, ex: prise en compte de personnes, pseudo, collectif, etc.
granularité pour :
réconcilier des pratiques (formats) avec des exigences de documentation
systématiques: ETL, API
voir openLink Structured Data Sniffer: http://osds.openlinksw.com
science annexe de l’histoire: observation des personnes dans leur milieu (à la sociabilité identifque)
ex, projet de Lamassé/Cohamé (?): les universitaires au moyen-âge
la modélisation des données en amont a permis de faire ressortir des éléments prosopographiques : salons, sociétés syndicats, oeuvres, critiques, pseudo, formations, distinctions, profession des parents, etc.
utilisation de notices d’autorité (ISNI, wikidata) pour faire du raisonnement par graphe
PCLanglais: http://vintagedata.org/divers/reseauCritiquesArt/
les données étaient déjà traitées (thèse, master), mais aussi ISNI (référentiel d’autorité).
pas de lien aux sources des données
avec le recul, à quel point l’effort poussé de modélisation et de contraintes posées sur l’outil est-il à l’usage rentable pour le chercheur, comparé à un stockage dans une BD peut-être moins contrainte (type NoSQL typiquement) mais disposant d’un langage de requête avancé
À l’usage, certains éléments n’ont pas pu être modélisés et donc n’ont pas pu être intégrés
Evolution avec le principe du datalake et de son traitement pour des données structurées
voir papier sur BD SCM
Claude Mussou: dimension quanti est toujours complétée par un retour aux sources et aux documents
Valérie: Comment intégrez-vous le suivi de la maintenance de la plateforme, les mises à jours continuent-elles dans cette ressource ou est-ce un projet considéré comme terminé?
BDD figée, phase d’exploitation
Données archivées sur Zenodo
Utilisation de micro-données (schema.org) plutôt que du RDFA
Palimpseste de descriptions
https://ontome.dataforhistory.org/