Acquisition des données et documentation

Le processus d'acquisition des données est une partie essentielle du projet. L'identification des institutions, la recherche d'objets correspondant à la portée du projet, l'établissement de partenariats avec les institutions a été faite en amont. Cette documentation fournit un aperçu des processus établis par l'équipe d’EyCon pour rassembler les données présentées actuellement sur la plateforme.

L’identification des matériaux qui vont former la base initiale au cœur du projet s’est faite autour de plusieurs critères spécifiques. Le support des images peut être de divers formats: des albums photographiques, des fonds de photographies en vrac, des livres ainsi que des journaux et magazines. Les formats propres aux photographies sont divers: il peut s’agir de tirages argentiques, d’aristotypes à gélatines citrates, de vues stéréoscopiques - ou bien de photographies re-publiées dans des journaux.

Les barrières temporelles ont été décidées comme débutant en 1880 et s’achevant à la fin de la Première Guerre mondiale: tous les matériaux inclus dans le corpus se situent entre ces deux repères. Des considérations géographiques ont aussi été partie prenante de l’identification des sources en essayant le plus largement possible de dé-européaniser la représentation des conflits, dans le but de faire découvrir des fonds encore peu montrés ni diffusés et donc peu connus de la communauté de chercheurs et, plus généralement, du public. Le sujet même des documents doit être le conflit, la guerre mais sont aussi intéressantes et conservées pour la création de la base de données les photographies représentant des situations de vie pendant le conflit - les photographies étant liées au conflits coloniaux. 

L’acquisition proprement dite des photographies est une étape qui continue tout au long du projet pour enrichir de façon notable les connaissances et rapprocher des contenus comparables. Le partenariat avec certaines institutions nous ont permis d’avoir le privilège d’obtenir de manière directe les fichiers et leurs métadonnées les plus riches possibles associées selon les contrats préétablis. 

Concernant les bibliothèques où les contenus sont diffusés numériquement en ligne, il est possible de récupérer toutes les données via les API de recherche et de récupération. Pour cela, il faut définir les termes de recherche qui correspondent aux matériaux recherchés. Ceux-ci ne sont pas forcément caractérisés de la même manière ni par le même vocabulaire d’une institution à une autre. Le nom des conflits est parfois éludé, comme celui des troupes en action, ce qui complique la recherche par terme. Il a donc été nécessaire de fouiller à la main les bibliothèques numériques pour identifier les marqueurs de recherche qui nous ont permis de récupérer automatiquement les matériaux correspondants à nos critères (sujet, dates, lieux). 

Le troisième type d'acquisition qui est faite est permise par la numérisation de documents détenus par des institutions ou bien achetés dans le cadre du projet. Ces documents constituent des documents inédits qu’il semblait indispensable de publier et de donner à voir. Dans ce cadre, des stagiaires internes au projet EyCon ont permis de mettre en œuvre un important effort de numérisation et de création de métadonnées riches et détaillées. Un processus d’océrisation adapté et associé au travail de numérisation permettant l'utiloisation des matériaux pour le projet et la communauté pour permettre la création automatique des textes numériques a été mis en place pour augmenter la quantité de données numériques. 

Plusieurs institutions permettent au projet d’utiliser, de diffuser librement dans le cadre du projet Eycon - et à toutes fins scientifiques - les documents numériques transmis: C’est le cas de la Contemporaine, le Service Historique de la Défense, la Bibliothèque Nationale de France,  des Archives Nationales, des Archives Nationales d’Outre-Mer, de la National Library of Scotland. Les documents transmis par l’Imperial War Museum permettent l’utilisation en prenant bien compte les considérations éthiques derrière la tonalité des photographies utilisées, et ce  pendant une période de 10 ans après la fin du projet. Aussi, les images publiées sont marquées par le filigrane de l’institution. C’est aussi le cas pour les images transmises par l’ECPAD et dont la publication ne peut être que des documents en basse définition. 

Dans le dessein de créer une base de données homogène et la plus riche et détaillée possible, toutes les métadonnées récoltées sont normalisées au format EAD. Ce format a été choisi car il permet une plus grande liberté dans le l’ajout d’informations et de leurs statuts - il est prévu, dans ce cadre, de permettre d'identifier la source de chaque donnée produite. EyCon préserve les structures et les données produites par les institutions participantes afin de refléter la manière dont chaque institution enregistre, stocke et présente ses propres données. Un format Dublin Core plus général sera créé ensuite pour permettre une re-diffusion des données à une plus grande échelle. Les métadonnées recueillies étaient elles de formes diverses: certaines en XML, d’autres sous format Excel - pour d’autres documents encore, aucune métadonnée n’avait été produite. Une normalisation au format XML-EAD permet aussi une interopérabilité des données, ainsi que de les lier au format JSON qui constituera le format de résultats des calculs opérés sur les documents, et facilitera leur analyse. 

Les métadonnées sont de plus en plus créées automatiquement : via l’OCRisation des documents mais surtout grâce aux résultats des outils de vision par ordinateur. En effet, l’analyse de mise en page des journaux, magazines et albums notamment va permettre d’enrichir les légendes associées aux images extraites. La mise en relation des images va aussi permettre aux métadonnées pré-existantes de s’auto-compléter, tout en conservant l’historique de chaque information. Aussi, la détection d’objets va permettre d’enrichir le descriptif de contenu des photographies, et ainsi d’enrichir les possibilités de recherche pour l’utilisation de la base.

Ce sont ces riches métadonnées qui permettent au moteur de recherche (SolR) de moissonner les informations et étendre les possibilités d’exploration du corpus. C’est aussi à partir des descripteurs utilisés que sera créée une ontologie propre au projet, basée sur des ontologies existantes (ICONCLASS en premier lieu, malgré ses dissonances avec les enjeux humains du projet - ontologies basées sur un point de vue Ouest européocentré). Les informations essentielles sont conservées pour chaque document: le créateur/photographe, la date de création, la provenance (l’institution d’origine), une description du document, l’OCR des informations écrites, le type de document, ses dimensions, les légendes créées, les données de production,  ainsi que la granularité de chaque document. 

La forme de la base de données a été pensée via la granularité des documents recueillis. En effet, dans le but de conserver au maximum les informations initiales des documents physiques, la modèle de données est basé sur le détail des formats en distinguant bien les fonds, les parties de fonds (albums photographiques, numéros de périodiques, livres), les pages de chaque document ainsi que les photographies extraites de chaque page. Pour permettre facilement la reconnaissance des documents dans le vaste catalogue créé pour le projet, chaque document est caractérisé par un identifiant unique utilisé dans toutes les étapes de conservation des données: de la conservation physique des fichiers au recensement dans les métadonnées. Les règles de nommage sont basées sur le type de document (al : album, np: journaux, book: livre, pho: photos), suivi de l’identifiant attribué à chaque document (et définis dans un référentiel), suivi du numéro de la page, du numéro de la photographie extraite, ainsi que du format (.JPG pour les images - .XML et .JSON pour les fichiers de données correspondants). Grâce à ces règles, les noms de fichiers/ID ont été standardisés de manière à ce qu'aucun conflit ne puisse survenir lors des calculs et de la mise en relation. 

 


 

La base de données est stockée sur une ‘Huma-Num Box’ dédiée au projet, et sa publication se fait grâce à OmékaS et tous les plugins utiles au visionnage, à la recherche et à la documentation. Pour ce qui est des matériaux uniques créés dans le cadre du projet (on pense aux numérisations réalisées), un dépôt sur Nakala permettra la pérennité des données. De manière plus générale, l’acquisition, la modification et la normalisation des données à grande échelle est faite via des outils créés spécifiquement pour le projet en Python.

La base de données et sa diffusion ont pour but de répondre globalement aux principes des données FAIR propres aux usages des humanités numériques : « faciles à trouver, accessibles, interopérables et réutilisables ». Le but est de permettre une plus grande visibilité de matériaux inconnus et peu exploités. Dans ce cadre, la transformation des documents au format IIIF est prévue pour la publication finale du projet, à l’été 2023. 

 

Préc. Suivant