Napoleonica® les archives et le web sémantique

Auteur(s) : CAYROL Olivier
Partager

Olivier Cayrol, directeur adjoint de Logilab, entreprise spécialisée dans le développement informatique qui a collaboré avec la Fondation Napoléon pour la mise en place de son nouveau site de Napoleonica® les archives, nous explique ce qu’est le web sémantique : une notion capitale pour l’avenir du croisement des données sur Internet, qui intéresse directement les sites d’archives en lignes.

Napoleonica® les archives et le web sémantique
Molécule d'arginine, métaphore pour la disposition des agrégateurs de données interconnectés
els cette molécule d'acide aminé, dans le web sémantique © shimadzu.fr/

Toute étude historique commence par une phase de récolte d’informations et de données. Cette importance première des données sur lesquelles vont se bâtir les raisonnements et les analyses se retrouve d’ailleurs dans tous les domaines de la connaissance. Dès lors, un des moyens de promouvoir un sujet ou une période historique est de faciliter la récolte des informations en les mettant à disposition dans des formats aisément exploitables.

Le site Napoleonica® les archives en est un excellent exemple : diverses collections de lettres ont été transcrites dans un format textuel numérique et sont mises à disposition sur le web. Les techniques informatiques actuelles permettent cependant d’aller beaucoup plus loin que ce premier palier de mise à disposition sous une forme brute. Les lettres sont écrites à une date et en un lieu donnés, par une personne qui en est l’auteur et à l’intention d’une personne qui en est destinataire ; les lettres peuvent évoquer d’autres personnes, d’autres lieux, des événements, etc.
Toutes ces informations peuvent, bien sûr, être extraites à partir des lettres par un lecteur mais des programmes informatiques (rangés sous la vaste dénomination d’Intelligence Artificielle) ont aujourd’hui la capacité d’en extraire automatiquement une majeure partie.

Ces informations complémentaires qui ont été extraites sont conservées avec le texte des lettres et permettent par exemple d’afficher des filtres lors de la recherche d’un document sur le site Napoleonica® les archives. Il est évident qu’une chercheuse ou un chercheur sera très intéressé par la récupération des informations complémentaires en plus du texte des lettres afin de pouvoir lui-même mener facilement ses propres analyses et recoupements. La mise à disposition de l’ensemble de ces données dans un format ouvert permettant des manipulations à l’aide d’outils informatiques est donc un gain certain pour les personnes étudiant cette correspondance numérisée.
Cet ensemble de données est plus complexe qu’un simple tableau ; il s’agit de lettres liées à de multiples personnes, de multiples lieux, etc. On parlera donc d’un graphe d’informations, sorte de toile interconnectant entre eux de multiples éléments, chaque élément disposant de diverses caractéristiques (nom, prénom, coordonnées géographiques, etc.)

Publier directement un graphe d’informations va donc grandement aider les chercheuses et chercheurs. Il est cependant possible de les aider davantage en choisissant judicieusement le nom de la caractéristique qui désigne le nom, le prénom ou la latitude, ou bien le nom de la relation entre une lettre et sa personne destinataire.
Il existe, en effet, des standards, qu’on appelle ontologies, regroupant des termes servant à désigner des caractéristiques ou des relations dans un domaine de connaissance particulier (par exemple en anatomie, en musique, en histoire, etc.). Utiliser de tels standards pour créer le graphe d’informations qu’on met à disposition va, bien évidemment, contribuer à sa compréhension rapide, car toutes les définitions des termes seront partagées et déjà connues par les chercheuses et chercheurs qui n’auront pas besoin de passer par une étape de traduction.

L’ensemble de la démarche décrite ci-dessus aboutit à la publication sur le web non seulement de pages consultables dans un navigateur, ce qu’on appelle le web classique ou web des documents, mais aussi la publication de données brutes sous forme d’un graphe exprimé dans des standards, ce qu’on appelle le web sémantique ou web des données. Il est possible dans un tel graphe d’informations de pointer vers des éléments d’un graphe publié à un autre endroit du web (tout comme le web classique permet de pointer vers des documents hébergés par un autre site web ).
Grâce à ces références externes, on voit émerger peu à peu un immense graphe de données mondial décrivant et interconnectant des données brutes. Dans le cas présent, on peut ainsi imaginer que le graphe d’informations décrivant les lettres et leurs informations complémentaires puisse pointer vers des documents numérisés mis à disposition par les Archives Nationales, vers des pages Wikipedia présentant des personnages historiques, ou même vers des lettres issues de correspondances mises en ligne par d’autres institutions.

Le web sémantique est aujourd’hui un atout majeur pour la promotion des contenus historiques et culturels. La Bibliothèque nationale de France, les Archives de France et d’autres institutions renommées publient des informations ouvertes et standards dans ce cadre. Pour les chercheuses et chercheurs, le web sémantique est un outil numérique très puissant qui révolutionne leur approche et permet des analyses jusqu’ici difficilement accessibles par manque de temps et de ressources.
Par ailleurs, il leur est possible de participer à l’enrichissement du graphe mondial d’informations en publiant leurs propres résultats dans le Web sémantique, que ces résultats aient été obtenus par des raisonnements automatiques sur le graphe (qu’on appelle des inférences) ou par la production classique de nouvelles connaissances.

Olivier Cayrol
Mai 2022

Partager