Décentralisation des données de la recherche

D'aucuns s'inquiètent de l'usage que peux être fait de la mesure des publications d'articles scientifiques et de leur audience. Ces usages peuvent aller de la sociologie et de l'histoire des sciences à… la quantifications néo-managériales ou au marketing académique.

Faut-il donc refuser de transmettre ses publications, métadonnées seules ou avec document consultable à une plate-forme les centralisant ? HAL est ce type de plate-forme, avec pour mission l'accès libre. Accès libre ou fermé n'enpêche pas la centralisation et les craintes qui peuvent l'accompagner.

Comment alors accepter ce “moissonnage” exhaustif, à destination de certains usages et à la fois garder l'autorité sur l'usage qui en est fait ? On peut penser aux modalités techniques suivantes :

une organisation publie des articles. Elle ne les offre pas en consultation mais chacun des auteurs transmets infos et fichiers à l'agrégateur de manière indépendante. Le gain pour l'institution comme pour chacun des auteurs consiste dans un meilleur signalement et une meilleure accessibilité de son travail.
l'agrégateur (tel que Hal) remplit ses missions de signalement, de mise en consultation et de mesures, avec la plus grande exhaustivité possible.

Imaginons l'infrastructure alternative suivante :

l'institution possède et déploie de son côté un CMS de consultation de ses publications (idéalement une application libre, dont le développement et la maintenance est mutualisé entre toutes les institutions de recherche, y compris les agrégateurs publiques. L'institution devient autonome en termes de signalement/consultation de son travail auprès des chercheurs/lecteurs.
l'institution transmets ses sources à un ou plusieurs agrégateurs qui ont pour mission un signalement exhaustif, une consultation et la fouille de données dans un corpus plus large voire complet, ainsi que le mesure des usages sur ces données.

Les données étant consultées à la fois chez l'institution et chez l'agrégateur, une mesure d'usage exhaustive demande que l'institution transmette ses données d'usage à l'agrégateur qui les ajoutera aux siennes.

Imaginons alors que l'institution se trouve en désaccord avec l'exploitation faite par l'agrégateur de ces données et mesures. L'institution étant autonome sur le plan du signalement et de la consultation de ses travaux elle a peu ou pas à perdre en coupant les protocoles d'échange avec l'agrégateur : fin de la transmission des sources et des mesures d'usages en provenance de sa propre plate-forme. Elle peut cependant poursuivre cet échange avec d'autres agrégateurs ou des institutions proches en termes de discipline, notamment pour une accessibilité depuis l'étranger, etc.

Certes elle ne pourra pas supprimer les articles et mesures déjà transmises. L'agrégateur pourra pendant un certain temps extrapoler sur ces données. Mais cela ne pourra pas durer sans dévaluer complètement la mission “mesure d'usages” de l'agrégateur en question. Cela sera d'autant plus vrai que toutes les institutions source pourront emboîter le pas à la première et assécher complètement l'agrégateur.

Quelles technologies pour transmettre et échanger fichiers, messages (commentaires) et données (métadonnées, mesures d'usage).

Git ou équivalent : permet la gestion et la fusion de version. Ce logiciel permet par exemple de fusionner d'éventuels changements apportés au fichier par l'agrégateur et par l'éditeur. D'un côté l'éditeur peut devoir corriger une coquille ou enrichir une structuration XML, alors que l'agrégateur de son côté aura les moyens d'enrichir une bibliographie d'article avec des DOI (c'est le cas de Cairn, du cléo, de Erudit.org, etc.), travail pour lequel l'éditeur n'a ni compétences ni outils.
un dépôt Git permettrait aussi de mutualiser les métadonnées. Fichiers .txt, .xml.
les mesures d'usage : .csv
Activitypub : fédération de commentaires. Ok.

Décentralisation des données de la recherche

Outils de la page