Pierre Choffé : « La mise en ligne de la Correspondance générale de Napoléon Bonaparte, un travail d’uniformisation et d’enrichissement, tout en conservant les documents originaux » (mai 2022)

Partager

À l’occasion de la mise en ligne de la Correspondance générale de Napoléon Bonaparte, période 

Propos recueillis par Marie de Bruchard le 16 mai 2022

► Accéder au site de Napoleonica® les archives

Pierre Choffé : « La mise en ligne de la <i>Correspondance générale</i> de Napoléon Bonaparte, un travail d’uniformisation et d’enrichissement, tout en conservant les documents originaux » (mai 2022)
© Pierre Choffé

Napoleon.org – Pouvez-vous nous présenter Logilab ?

Pierre Choffé – Fondée il y a un peu plus de 20 ans, Logilab est une société de développement, de conseil et de formation en informatique, comptant une vingtaine de personnes. Nous sommes spécialisés dans l’informatique scientifique et le traitement de données.
Nos clients sont aussi bien de grandes entreprises (Engie, Total) que des acteurs du monde culturel ou de la recherche, avec des projets d’envergure tels que les portails data.bnf.fr ou France Archives.
Nous sommes un acteur du logiciel libre qui, depuis sa création, promeut ce modèle de développement sociétal. Depuis quelques années, dans la continuité de cet engagement, nous travaillons aussi à l’ouverture et au partage des données.

Napoleon.org – Quels étaient les défis de la mise en ligne d’un corpus historique comme la Correspondance de Napoléon Ier ?

Pierre Choffé – Par rapport aux autres collections du site, la particularité de ce corpus est d’avoir été créé d’abord pour l’édition papier. Le support fourni était donc des documents de traitement de texte (Microsoft Word) sur lesquels nous avons travaillé en nous appuyant sur les contenus et les styles pour automatiquement créer des pages HTML (le contenu visible sur le site en ligne) et extraire les métadonnées (titre, date, destinataire, lieu, et bien d’autres « données sur les données »). Les métadonnées sont cruciales car elles permettent de caractériser chaque lettre et ouvrent donc des possibilité comme une recherche pertinente et la mise en œuvre de filtres.

La dimension temporelle du corpus apporte son lot de difficultés : il faut donner à comprendre à la machine que le Général Berthier et le Général de brigade Berthier sont une seule et même personne, que Jouan et Juan-les-Pins sont un seul et même lieu, et que les lettres de la maman de Napoléon (qui ne savait pas écrire) sont de la main d’un autre. Il y a donc un travail d’uniformisation et d’enrichissement, tout en conservant les documents originaux. L’essentiel est réalisé automatiquement mais certaines corrections doivent être effectuées à la main.

L’objectif qui nous a guidé tout au long du projet était de créer un outil performant tout en restant le plus simple possible d’utilisation pour le personnel de la Fondation. Aujourd’hui, nous pensons avoir réussi car la Fondation peut, de façon autonome, créer et mettre en ligne de nouvelles collections, leur contenu et leurs métadonnées.

© Pierre Choffé/Logilab
© Pierre Choffé/Logilab

Napoleon.org – Concrètement, comment marche le site napoleonica.org ? Pouvez-vous nous donner un aperçu du langage, et des interactions avec le moteur de recherche…

Pierre Choffé – Le site est écrit avec le langage de programmation Python pour le côté serveur, et le langage de programmation JavaScript / React pour la partie qui est exécutée dans le navigateur. Sur le serveur, les informations sont sauvegardées dans une base de données PostgreSQL, une base parmi les plus performantes à ce jour, et le code logiciel repose sur la bibliothèque CubicWeb, un outil logiciel libre créé par Logilab, qui permet d’avoir une « vue métier » des informations issues de la base et donc de simplifier grandement leur manipulation et leur extraction.

En ce qui concerne le contenu textuel, il est rédigé dans le format Markdown, un format brut très simple à comprendre et à écrire. Ce format est notamment utilisé dans les outils de Wikipedia. Bien que très simple, il permet de décrire des mises en forme très riches qui n’ont rien à envier aux traitements de texte classiques.

© Pierre Choffé/Logilab
© Pierre Choffé/Logilab

Napoleon.org – Comment envisagez-vous les prochaines évolutions des archives en ligne ?

Pierre Choffé – Depuis plus de 10 ans, nous avons développé de nombreux outils de publication et de valorisation de données culturelles, bibliographiques ou archivistiques. Nous avons donc de nombreuses suggestions pour enrichir le site Napoleonica® les archives et nous avons commencé à les présenter à la Fondation.

Il faut souligner que le site, dans sa version actuelle, contient des données correctement structurées s’appuyant sur un modèle robuste, ce qui permet d’envisager de nombreuses évolutions : mettre à disposition les données brutes dans des formats structurés, relier automatiquement certaines informations (personnes, lieux, etc.) vers ces mêmes informations sur d’autres sites (Wikipedia, etc.), ce qui permet des enrichissements croisés, offrir des visualisations statistiques ou cartographiques des données, publier les données du site dans le web des données liées (web sémantique).

Partager