Le web sémantique pour faciliter l’accès au patrimoine numérisé tout au long de sa vie

Si chacun perçoit les atouts du web sémantique, ce dernier nécessite un saut technologique et en matière d’usages qui le cantonne trop souvent aux géants du Ecommerce et des réseaux sociaux. Ceux-ci en tirent profit au quotidien pour améliorer leur niveau de recommandation vers des données présentes sur leur site. Le secteur de la valorisation patrimoniale ne devrait pas tarder à l’utiliser également pour permettre l’enrichissement permanent des objets muséaux numérisés. C’est en tout cas le souhait de Steny Solitude, Pdg de Perfect Memory une start-up française en pointe dans ce domaine qui teste actuellement un tel dispositif auprès du musée de Wallonie sa solution d’enrichissement sémantique.

Dans les coulisses du web, l’année écoulée a été l’occasion d’une bataille acharnée entre Google et Amazon autour du référencement et du web sémantique adapté au Ecommerce. Il faut dire qu’en 2013 quand Google a commencé à remplacer son dispositif de référencement par mots clefs (Adwords) par un principe de PLA (Product Listing Ads) afin de favoriser sa plateforme Google Shopping, le géant du Ecommerce Amazon avait rétrogradé à la sixième page des recherche en quelques semaines. Après un bras de fer mémorable, Amazon avait cédé en se pliant à la nouvelle manière de travailler des robots de Google. Désormais, que ce soit en matière de Ecommerce ou de contenus plurimédia, les algorithmes du moteur de recherche planétaire ne se contentent plus seulement de scanner des mots clés, mais également d’analyser de manière fine la structuration des pages d’un site web et les liens  sémantiques à l’intérieur de celui-ci et entre les documents qui le compose. Comme le souligne Steny Solitude, Pdg de Perfect Memory : « Aujourd’hui, n’importe quel site web, s’il veut bénéficier d’un référencement naturel (sans achat de mots clés) de qualité doit raconter une histoire originale autour de ses produits ou contenus. On assiste à une véritable élévation du niveau de qualité du référencement visant à rééquilibrer les choses entre grands et petits acteurs du web».

Dans ce contexte, de grandes manœuvres entre les géants du web, les petites start-ups comme Perfect Memory cherchent à tirer leur épingle du jeu en proposant à la fois d’améliorer les nouveaux modes de référencement naturels tels que les proposent désormais Google et les autres, mais aussi de fournir des plateformes DAM (Digital Asset Management) distribuées en mode SaaS permettant à un site web de concevoir une expérience de recherche pour ses visiteurs plus riche et sur-mesure en matière de recherche des contenus. « On assiste à une montée en puissance des plateformes DAM comme la nôtre, constate Steny Solitude, notamment dans le monde de la télévision depuis que la plateforme VOD Netflix a réussi une percée spectaculaire dans le public du fait de la puissance de son moteur de recommandation et de son savoir-faire en matière d’écoute et d’exploitation des retours de ses clients. Nous quittons l’ancien temps qui reposait sur des bases de données relationnelles avec mots clés et recherche à plat. Désormais, nous sommes en mesure de proposer à des clients de toute taille de réaliser des bases de données Linked Open Data et des graphes sémantiques propres à leur domaine d’activité avec un catalogue de données associées suivant les standards internationaux en train de s’installer dans le paysage ».

Ainsi donc, Perfect Memory travaille actuellement avec Cap Gemini sur une plateforme d’enrichissement sémantique de l’ensemble des productions audiovisuelles françaises destinées à l’exportation pour le compte de l’organisme public TVFI (TV France International). Concernant la muséographie, la start-up clermontoise a encore un peu de mal à convaincre les institutions archivistiques ou grands musées nationaux qui pourraient vouloir agréger leurs bases de données existantes déjà présentes sur le web à sa solution sémantique en mode SaaS ou via une API.

Pour Steny Solitude, « les technologies du web sémantique sont mûres, mais les institutions patrimoniales hésitent face à un retour sur investissement en termes de nouveaux usages encore mal compris. Le web sémantique n’est pas simplement une histoire de Front end sur le web à la portée de la moindre agence de web design. Ce sont vraiment les bases de données elles-mêmes qui doivent être structurées de manière différente, afin de rendre possible l’entrée dans les données de plein de manières différentes. En outre, avec les bases de données sémantiques il faut accepter le principe de données vivants qui s’enrichissent à 80 à 90 % via les contributions d’autres personnes que celles qui ont créé l’objet numérique. Notre approche est inspirée de ce que font Twitter, Facebook ou Amazon qui ont redéfini la manière de concevoir des solutions informatiques agiles à tous les niveaux du développement, y compris pour ce qui concerne la structuration des données devenue évolutive.  Il ne s’agit donc pas simplement de faire de l’intégration continue et du développement agile de site web, mais de mettre en place des outils et protocoles permettant de monitorer un graphe sémantique en temps réel, afin qu’il reste stable et cohérent tout en sachant qu’il va être enrichi de liens nouveaux par les utilisateurs à chaque minute qui passe. Concernant une collection patrimoniale par exemple, l’intégration de toute nouvelle métadonnée concernant une oeuvre nécessitera non seulement l’ajout de mots clés lié à son créateur, mais aussi de vérifier les associations que va entretenir son auteur avec d’autres auteurs du même mouvement artistique, d’un mouvement connexe, opposé… »

Dans le registre patrimonial, Perfect Memory propose généralement à ses clients de raccorder leurs collections numérisées à une ontologie définie ensemble qui va permettre à l’institution muséale d’occuper un terrain nouveau sur le web et ainsi d’élargir son territoire de marque. Les cas de figurer concernant l’existant sont variables, allant de la reprise d’une base de données existantes, à un thesaurus quand il y existe déjà ou même à une base de données déjà structurées au format RDF qu’il va être possible d’enrichir sur le plan sémantique à la volée via une interface d’utilisation particulièrement intuitive, adaptée à des non-informaticiens. L’enrichissement s’effectue alors autant à partir de données endogènes émanant de l’institution elle-même que via des sources extérieures. Dans ce cadre, il est aussi parfois nécessaire de réconcilier les manières de renseigner les données associées à un objet numérique, en créant des « uper-ontologies » capables de générer des points d’entrée dans la base simples et transverses. Ainsi, depuis deux ans, Perfect Memory a eu l’occasion de tester ce type de process avec le Musée de la Fédération de Wallonie de Bruxelles qui dispose de la plateforme DAM de Perfect Memory en interne et peaufine désormais l’interface graphique des utilisateurs finaux.

La Fédération de Walonie veut un outil très intuitif et spontanée qui favorise la sérendipicité dans ses contenus avec des tunnels de parcours sémantiques, mais aussi une navigation simultanée par mots clés et associations de mots clés. « Nous souhaitons aller jusqu’à provoquer l’étonnement chez les visiteurs, explique Jean-Louis Blanchart, directeur de la Délégation générale à la numérisation des patrimoines culturels de la Fédération Wallonie-Bruxelles. C’est pourquoi nous avons décidé d’utiliser la plateforme de Perfect Memory, qui est à même d’organiser les liens entre les objets et de suggérer des raccourcis non envisagés ou inattendus ». Cécile Gonfroid Directrice Générale de la RTBF souligne de son côté : « Nous n’avons pas terminé de balayer le champ du possible qu’ouvre une solution basé sur le linked Opendata, mais nous notons déjà la profond modification du rapport à l’archive qu’elle entraine pour un média comme la RTBF. Il ne fait aucun doute pour nous que les nouveaux usages des contenus sur le web nécessitent autant  en interne que vis-à-vis de de notre audience des outils évolutifs comme ceux de Perfect Memory ».


Les étapes clés d’un projet de web sémantique

  1. Définition des ontologies utilisateurs
  2. Numérisation des œuvres et objets muséaux ou reprise de la base de données existante
  3. Connexion des œuvres les unes aux autres, avec l’auteur, le lieu, les thématiques associés, les liens sémantiques
  4. Mise en place d’un schéma de liens heuristiques
  5. Mise en place d’un moteur de recherche

Les termes du web sémantique

  • Ontologie : A l’origine domaine philosophique de la « science de l’être en tant qu’être », une ontologie est, selon l’entendement du Web sémantique, un ensemble structuré de savoirs. Une ontologie définit les termes employés pour décrire et représenter un domaine de connaissance. On distingue généralement deux entités globales au sein d’une ontologie. La première, à objectif terminologique, définit la nature des éléments qui composent le domaine de l’ontologie en question, un peu comme la définition d’une classe en programmation orientée objet définit la nature des objets que l’on va manipuler par la suite. La seconde partie d’une ontologie explicite les relations entre plusieurs instances de ces classes définies dans la partie terminologique. Ainsi, au sein d’une ontologie, les concepts sont définis les uns par rapport aux autres (modèle en graphe de l’organisation des connaissances), ce qui autorise un raisonnement et une manipulation de ces connaissances.
  • OWL (Web Ontology Language): Le World Wide Web Consortium (W3C) a mis sur pieds, en Novembre 2001, le groupe de travail « WebOnt », chargé d’étudier la création d’un langage standard de manipulation d’ontologies web, l’OWL. OWL est, tout comme RDF, un langage XML profitant de l’universalité syntaxique de XML. Fondé sur la syntaxe de RDF/XML, OWL offre un moyen d’écrire des ontologies web. OWL est un langage d’ontologies qui apporte à l’utilisateur la capacité de décrire des classes et des propriétés et de faire des comparaisons des propriétés et des classes : identité, équivalence, contraire, cardinalité, symétrie, transitivité, disjonction, etc. Ainsi, OWL offre aux machines une plus grande capacité d’interprétation du contenu web que RDF et RDFS, grace à un vocabulaire plus large et à une vraie sémantique formelle.
  • Métadonnée : Une métadonnée est une information permettant de décrire une autre information, quels qu’en soient la nature et le support.
  • XML (eXtensible Markup Language) : Recommandation du W3C depuis le 10 février 1998, le langage XML connait depuis ses débuts un succés indéniable. Défini comme un métalangage facilitant l’élaboration de langages à balises spécialisés, il propose des normes strictes pour la syntaxe et la structure des données d’un document qui rendent son utilisation aisée et favorise le développement d’analyseurs syntaxiques.
  • RDF (Resource Description Framework) : Le RDF permet de présenter les données et métadonnées de manière normée sous forme de graphes de triplets. Chaque collection de triplets est composée d’un sujet, un prédicat et un objet. Un ensemble de tels triplets est appelé un graphe RDF. Ceci peut être illustré par un diagramme composé de noeuds et d’arcs dirigés, dans lequel chaque triplet est représenté par un lien noeud-arc-noeud. Dans un tel graphe, chaque triplet représente l’existence d’une relation entre les choses symbolisées par les noeuds qui sont joints.

About author

Marc Bourhis
Marc Bourhis 178 posts

IstoryLab est un site de partage d'informations que je suis amené à récolter dans le cadre de mon activité consacrée à l'innovation numérique dans les domaines de la préservation et de la valorisation des patrimoines, de la médiation culturelle sur le web ou sous forme d'applications mobiles, in situ dans les musées ou les lieux touristiques ... Ces informations vous permettrons, je l'espère, de décrypter les nouveaux scénarii d'usage des innovations numériques.

You might also like

Le tourisme numérique surfe sur le inbound marketing

L’inbound marketing trouve un débouché efficace dans le tourisme numérique, car il permet de mettre au goût du jour la promotion d’un territoire, en s’appuyant sur le storytelling et le marketing

La pré-production d’une application de visite

Identifier le périmètre du projet Pour vous aider à identifier les contours d’un projet d’application mobile dont le principal atout sera d’offrir une expérience unique à l’utilisateur en situation de

Régles de base de la conservation des archives audiovisuelles numérisées

La numérisation et la dématérialisation des contenus a engendré en quelques années une décorrélation entre le contenu et son support de stockage ainsi que l’émergence de nombreuses transformations opérées sur

Leave a Reply