3. Mutualiser les métadonnées d’autorité. l’exemple d’IDREF (Sudoc) comme projet de mutualisation de référentiels

Soumis par cvigneault le mer 04/01/2017 - 16:25

 

 

Étapes et bénéfices d’une démarche collaborative : le réseau Sudoc et les métadonnées d’autorité


Cette contribution traite de la mutualisation des métadonnées d’autorité. La thématique est illustrée par IdRef, à la fois véhicule et moteur de cette mutualisation à partir du point d’origine qu’est le Sudoc (pour Système universitaire de documentation). Une dimension de l’entreprise de mutualisation y est particulièrement mise en évidence : les enjeux techniques sont intriqués avec les défis organisationnels. Dans le contexte technologique actuel, les démarches collaboratives interinstitutionnelles sont rendues à la fois plus simples : le partage d’outils et de données n’a jamais semblé aussi aisé et rapide ; mais aussi plus complexes : ils mettent à l’épreuve les compétences et les pratiques individuelles et collectives.

Mutualiser les métadonnées, telle est la raison d’être de l’ABES. Le Sudoc est la colossale entreprise qui met en cohérence, au niveau national, les énergies et les compétences en matière de signalement documentaire. Ce réseau d’activités recouvre à la fois le catalogue collectif éponyme, la plate-forme de catalogage partagé mise à disposition des catalogueurs et des établissements documentaires de l’enseignement supérieur structurés en réseau(x). Faire bénéficier la communauté de ses membres du travail de chacun reposait sur l’idée simple et efficace que la description d’une ressource documentaire peut servir à toutes les bibliothèques qui en font l’acquisition. Nul besoin de répéter l’opération, dès lors que le résultat du travail d’un catalogueur peut être mis à disposition de tous les catalogueurs du réseau.

Le périmètre des données mutualisées porte sur les métadonnées descriptives qui ont une fonction bibliographique et doivent permettre de trouver, d’identifier et enfin d’accéder au document. Les métadonnées descriptives se composent de deux familles de données : les données bibliographiques et celles d’autorité, toutes deux traditionnellement structurées en notices. Les premières identifient et décrivent l’édition d’un document physiquement entre les mains du catalogueur ; les secondes décrivent une forme retenue (avec d'éventuelles variantes de formes) d’entités intervenant dans les documents et permettent de gérer les points d’accès des notices bibliographiques. Cela prend la forme de liens unilatéraux des notices bibliographiques vers les notices d’autorité.

Ces données d’autorité sont quotidiennement utilisées dans l’activité de catalogage, elles appartiennent aux coulisses du catalogue. Rassemblées en autant de jeux de données que de type d'entités (personnes, collectivités, familles, sujets, lieux, titres uniformes), ces données sont élevées au rang de données de référence (ou référentiels*) auxquelles des bases documentaires viennent adosser la description de leurs ressources. Elles servent à attribuer les bons documents au bon auteur, à enrichir et normaliser l'indexation des documents pour qu'ils puissent être visibles pour l'utilisateur, et à faciliter le travail des professionnels de l'information-documentation.

La valeur d’usage de ces données trouve dans l’activité professionnelle catalographique suffisamment de pertinence pour que la décision ait été prise, dès l’origine, de placer le Sudoc sous contrôle d’autorités. Aussi, au cœur de la mutualisation ayant donné naissance au Sudoc, se trouvent les données bibliographiques. Il n’était pas prévu que les données d’autorité en viennent à déborder le cadre initial déjà large du Sudoc et à relancer le mouvement de mutualisation au-delà.

Ce sont des facteurs exogènes qui ont fait croître la valeur d’échange des données d’autorité. Ces facteurs correspondent aux nouveaux utilisateurs potentiels des données d’autorité, le paysage documentaire institutionnel national (avec son effet de miroir entre la sphère Culture et la sphère Enseignement supérieur), les initiatives internationales d’envergure, l’évolution technologique liée au Web et l’horizon d’un Web de données ouvertes et liées.

De nouveaux utilisateurs au sein des réseaux de l’ABES


Voilà dix ans, apparut le problème suivant : comment permettre à des catalogueurs extérieurs au réseau et aux outils Sudoc d’être des utilisateurs des données d’autorité produites par les catalogueurs Sudoc ? En l’occurrence, il fallait trouver une solution qui permette aux catalogueurs de Calames11.et de STAR22.de mieux travailler avec les autorités du Sudoc – mieux les interroger, les modifier ou les créer avec une interface assistée.

La dimension technique du problème est manifeste et revêt une importance majeure. Elle induit, tout d’abord, la nécessité d’en passer par une étude de faisabilité visant à examiner l’existence de solutions et à tester une mise en œuvre opérationnelle. Cette phase est déterminante car s’il y a loin d’une idée de mutualisation à son inscription dans des pratiques, il y a un écart supplémentaire à franchir lorsque ces pratiques doivent passer par un outil : il n’est pas gagné d’avance de parvenir à élaborer cet outil de manière à ce qu’il véhicule l’idée de mutualisation et façonne les pratiques dans cet esprit.

De plus, cette phase d’étude, bien souvent exaltante, est aussi pleine d’incertitudes. En chemin, comme on peut s’y attendre, apparaissent des opportunités qui peuvent bouleverser les plans initiaux. Dans notre cas, le périmètre des seules données d’autorité a été, à son tour, débordé : en répondant aux questions relatives aux autorités, ont également été entrevues des questions et des réponses à certaines problématiques bien plus larges, relatives au système d’information de l’ABES dans son ensemble et à l’interopérabilité dans le contexte du Web en général.

La solution Identifiants et référentiels (IDREF)

L’application en ligne IdRef, mise en production en 2010, a été développée par l’ABES, pour mutualiser les données d’autorité dans la sphère de l’enseignement supérieur et de la recherche.

IdRef se définit comme un objet à plusieurs facettes : c’est une base de notices d’autorité identifiées de façon unique et pérenne, et rassemblées en référentiels ; c’est un site web librement accessible pour rechercher, consulter et rebondir vers des catalogues de ressources documentaires ; c’est un outil professionnel full web pour produire des données d’autorité ; c’est un portail d’accès aux données ouvertes sous licence Etalab et réutilisables par de multiples moyens (Application Programming Interface [API] d’interconnexion directe machine à machine, Webservices, entrepôt OAI) ; c’est enfin un « interprète » des données en de multiples formats standards pour les humains et pour les machines (html, xml, rdf, json).

Le premier pilier de la réussite d’IdRef réside dans sa technologie dédiée nativement à l’interconnexion avec des applications tierces. Cette vocation est effective grâce à la légèreté de la solution technique offerte33.aux bases « clientes ». Elle est renforcée par son caractère universel : l’interconnexion est possible quelles que soient la base et ses caractéristiques techniques. Enfin, elle est complète : l’initialisation, le branchement et la synchronisation sont d’une grande simplicité et par conséquent peu coûteux à court comme à long terme.

Le second pilier est la mise à disposition de référentiels. Les données propagées par IdRef sont par nature des données de liens qui, de plus, ont été rassemblées par les bibliothèques en ensembles structurés d’informations constituant un cadre commun à partager. Alimentés et maintenus bien avant l’invention d’Internet, ces jeux de données sont riches de liens et d’identifiants qui sont parmi les technologies essentielles du Web de données.

Ainsi, la mission d’IdRef se confond avec sa fonction : des bases hétérogènes, construites et administrées en silos, peuvent être reliées par une passerelle d’interopérabilité et par les données que celle-ci véhicule ; ces données sont caractérisées par leur capacité à tisser des liens tant au sein des données en base que vers les données extérieures et dont les niveaux de granularité, les formats ou les modèles peuvent alors être très divers.

Construction d’un réseau de contributeurs et bénéfices de la mutualisation

Depuis 2010, IdRef a construit peu à peu son réseau de contributeurs : chronologiquement, après Sudoc, il y eut d’abord Calames et STAR, puis STEP44.et theses.fr55..

Ce premier cercle est composé des réseaux et des applications gérés par l’ABES. Les pratiques collaboratives portant sur les référentiels créent des bénéfices dans quatre domaines convergents :
  • la réalisation d’une économie de production par la mise en commun du travail de chacun des partenaires. L’outil commun permet l’enrichissement au profit de tous du volume des données disponibles. Il assure aussi une mise en cohérence des pratiques ;
  • l’amélioration de la qualité et de la fiabilité des données corrélée à l’agrégation des expertises, qu’elles soient de nature spécialisée ou encyclopédique. Dans l’idéal, le jeu gagnant-gagnant prend la forme d’un emboîtement des forces et des faiblesses respectives de chacun qui permet de tirer l’ensemble des partenaires vers un travail de plus haute qualité ;
  • l’accroissement de l’efficacité des référentiels par l’optimisation de leurs performances en matière de contrôle et de valorisation des données qui leur sont liées. Un cercle vertueux se met ainsi en place ;
  • la facilitation de la réutilisation active un processus de décloisonnement à l’égard de nouveaux acteurs attirés par la quantité et la qualité des données. Confluences et convergences sont donc rendues possibles et ouvrent des perspectives d’exploitations croisées élargies à des métiers et des besoins dépassant la sphère documentaire.

Dans le contexte technologique du Web, la dynamique de mutualisation des référentiels a donc des effets puissants : elle possède le potentiel de faire émerger de nouveaux usages et de nouveaux acteurs, largement extra-documentaires. Au premier rang des usages émergents se trouve l’identification fiable, unique et pérenne. Qui, quoi, où, quand, etc. ? Les référentiels organisent les entités répondant à ces questions, à la fois structurantes de l’intelligibilité et accessibles à tous, en jeux de données ordonnés et cohérents. Ils permettent donc l’identification des entités invoquées dans toute activité, l’univocité se mettant au service de l’interopérabilité.

C’est ainsi qu’un second cercle de contributeurs d’IdRef s’est construit progressivement. Il se compose de partenaires variés dans leurs missions ou leur organisation : le réseau Accès doctorat unique et mutualisé (ADUM)66.de gestion des écoles doctorales, le Laboratoire de recherche historique Rhône-Alpes (LARHRA) spécialisé en histoire moderne et contemporaine, la plate-forme ORI-OAI de gestion de la production numérique institutionnelle, ou encore Persée, portail d’accès libre et gratuit à des publications scientifiques numérisées. La variété des partenaires reflète des degrés d’implication variés. Certains partenaires effectuent des corrections, des enrichissements et des créations de données. D’autres disséminent les identifiants dans leur SI et les utilisent comme pivot d’interopérabilité entre leurs différentes applications.

L’évolution de la fonction du correspondant autorités Sudoc

Le rapprochement avec ces acteurs non-documentaires a eu des effets au sein des acteurs documentaires. Une conséquence organisationnelle intéressante est le renouveau de la fonction du correspondant autorités, interlocuteur de l’ABES dans les BU. Expert ès données d’autorité et ès problématiques de catalogage, ce correspondant voit sa fonction traditionnelle revisitée par les enjeux actuels de visibilité des productions scientifiques des établissements universitaires. Les fonctions de ce professionnel, sensibilisé et compétent sur les questions d’identification fiable des auteurs et d’attribution fidèle de leurs publications, tendent à se déplacer vers les services à la recherche mis en place par les bibliothèques : archives institutionnelles, pages de chercheurs, bibliométries. Ce qui nécessite une réflexion nouvelle de la part de l’ABES en termes d’accompagnement et d’animation du réseau dédié aux autorités.

Le projet IdRef s’est ainsi enrichi d’une dimension supplémentaire : la promotion de son offre de services en matière de données d’autorité et l’accompagnement sur les différentes implémentations possibles. Cet impératif est né de l’échec de certaines démarches auprès de partenaires potentiels et de l’apparition d’initiatives internationales, non dénuées d’une forme de concurrence. IdRef est partie prenante des trois plus importants projets à ce jour : VIAF77., ISNI88.et ORCID99.. Le point essentiel de ces évolutions est qu’en donnant une telle publicité aux données d’autorité et à leur aptitude à l’identification, ces initiatives ont ouvert le périmètre d’action et multiplié la visibilité des données d’autorité. Elles rendent plus stratégique encore leur mutualisation et donc la construction d’un réseau de partenaires qu’il est le plus souvent nécessaire de convaincre et d’accompagner.

 

Extension du domaine de la mutualisation documentaire : le fichier national d’autorité


Prenant racine dans le terreau documentaire, les phénomènes exposés ci-dessus ont des répercussions à l’échelle nationale. En France, on compte deux grands établissements publics chargés de la coordination et de la diffusion des référentiels de bibliothèques : la BnF et l'ABES. Au sein de leur réseau respectif, chaque opérateur assure la coordination de la production de référentiels. Des ponts existent puisque la base des autorités du Sudoc s’est constituée originellement à partir des données de la BnF ; elles utilisent toutes deux le référentiel d’indexation matière RAMEAU et des liens actifs et publics sont faits entre les deux jeux de données.

Cette forme de mutualisation existante, entre les deux opérateurs, se prolonge avec un projet de fichier national d’autorité, piloté par la BnF et l’ABES. Ce projet, qui est d’emblée ouvert à des établissements aux besoins autres que documentaires, en est au stade de l’étude de préfiguration avec l’objectif d’expérimenter conjointement la coproduction de leurs référentiels respectifs au sein d’une même plate-forme.

Ce projet comporte des enjeux techniques certains. IdRef a permis d’en exposer la nature et la teneur. D’aspect bien plus original, la dimension organisationnelle exigera, elle, une forte dose de créativité. En effet, pour mener à bien le projet, outre l’outil répondant aux spécifications techniques, il faudra apporter des réponses à des questions qui en sont aujourd’hui dénuées :

  • le financement dans ses différentes phases : des prémices du projet au service en vitesse de croisière ;
  • la gouvernance interinstitutionnelle et les différents niveaux de participation ;
  • la maintenance de l’outil informatique et ses inévitables évolutions ;
  • l’administration scientifique des données, l’animation des réseaux de contributeurs et les services aux utilisateurs.

Il est trop tôt pour savoir si ce projet sera mené à son terme. Notons cependant que tous les ingrédients semblent présents et que les bénéfices attendus devraient permettre de lever obstacles et craintes. Remarquons que les autorités n’ont pas de frontières a priori et qu’il est donc possible d’imaginer un espace francophone rassemblant les besoins documentaires belges, suisses voire québécois. De même, espérons des convergences vertueuses entre les acteurs publics et privés de l’édition. D’où une question pour conclure : qu’est-ce qui pourrait limiter la propagation des bienfaits de la mutualisation des référentiels ?

 

 
1.

Calames : base documentaire des archives et manuscrits de l’enseignement supérieur.

2.

STAR : application pour le signalement et l’archivage des thèses de doctorat soutenues.

3.

Solution en javascript ou sous forme de Webservice, au choix.

4.

STEP : application pour le signalement des thèses de doctorat en préparation.

5.

theses.fr : moteur de recherche des thèses de doctorat françaises mis en place par l’ABES en 2011.

7.

VIAF (pour Virtual International Authority File, en français, fichier virtuel international d’autorité) est un projet commun de plusieurs bibliothèques nationales dont l'objectif est de valoriser les fichiers d'autorité par leur appariement accessible sur le Web.

8.

ISNI (pour International Standard Name Identifier) est un code international normalisé servant à identifier les personnes et les organismes dont l’agence internationale ISNI est l’autorité d’enregistrement ISO.

9.

ORCID (pour Open Researcher and Contributor ID) est plus destiné à l’identification des contributeurs des domaines de la recherche.