Ceci est une ancienne révision du document !
Table des matières
Décentralisation des données de la recherche
D'aucuns s'inquiètent de l'usage que peux être fait de la mesure des publications d'articles scientifiques et de leur audience. Ces usages peuvent aller de la sociologie et de l'histoire des sciences à… la quantifications néo-managériales ou au marketing académique.
Faut-il donc refuser de transmettre ses publications, métadonnées seules ou avec document consultable à une plate-forme les centralisant ? HAL est ce type de plate-forme, avec pour mission l'accès libre. Accès libre ou fermé n'enpêche pas la centralisation et les craintes qui peuvent l'accompagner.
Comment alors accepter ce “moissonnage” exhaustif, à destination de certains usages et à la fois garder l'autorité sur l'usage qui en est fait ? On peut penser aux modalités techniques suivantes :
- une organisation publie des articles. Elle ne les offre pas en consultation mais chacun des auteurs transmets infos et fichiers à l'agrégateur de manière indépendante. Le gain pour l'institution comme pour chacun des auteurs consiste dans un meilleur signalement et une meilleure accessibilité de son travail.
- l'agrégateur (tel que Hal) remplit ses missions de signalement, de mise en consultation et de mesures, avec la plus grande exhaustivité possible.
Imaginons l'infrastructure alternative suivante :
- l'institution possède et déploie de son côté un CMS de consultation de ses publications (idéalement une application libre, dont le développement et la maintenance est mutualisé entre toutes les institutions de recherche, y compris les agrégateurs publiques. L'institution devient autonome en termes de signalement/consultation de son travail auprès des chercheurs/lecteurs.
- l'institution transmets ses sources à un ou plusieurs agrégateurs qui ont pour mission un signalement exhaustif, une consultation et la fouille de données dans un corpus plus large voire complet, ainsi que le mesure des usages sur ces données.
Les données étant consultées à la fois chez l'institution et chez l'agrégateur, une mesure d'usage exhaustive demande que l'institution transmette ses données d'usage à l'agrégateur qui les ajoutera aux siennes.
Imaginons alors que l'institution se trouve en désaccord avec l'exploitation faite par l'agrégateur de ces données et mesures. L'institution étant autonome sur le plan du signalement et de la consultation de ses travaux elle a peu ou pas à perdre en coupant les protocoles d'échange avec l'agrégateur : fin de la transmission des sources et des mesures d'usages en provenance de sa propre plate-forme. Elle peut cependant poursuivre cet échange avec d'autres agrégateurs ou des institutions proches en termes de discipline, notamment pour une accessibilité depuis l'étranger, etc.
Certes elle ne pourra pas supprimer les articles et mesures déjà transmises. L'agrégateur pourra pendant un certain temps extrapoler sur ces données. Mais cela ne pourra pas durer sans dévaluer complètement la mission “mesure d'usages” de l'agrégateur en question. Cela sera d'autant plus vrai que toutes les institutions source pourront emboîter le pas à la première et assécher complètement l'agrégateur.
Quelles technologies pour transmettre et échanger fichiers, messages (commentaires) et données (métadonnées, mesures d'usage).
- Git ou équivalent : permet la gestion et la fusion de version. Ce logiciel permet par exemple de fusionner d'éventuels changements apportés au fichier par l'agrégateur et par l'éditeur. D'un côté l'éditeur peut devoir corriger une coquille ou enrichir une structuration XML, alors que l'agrégateur de son côté aura les moyens d'enrichir une bibliographie d'article avec des DOI (c'est le cas de Cairn, du cléo, de Erudit.org, etc.), travail pour lequel l'éditeur n'a ni compétences ni outils.
- un dépôt Git permettrait aussi de mutualiser les métadonnées. Fichiers .txt, .xml.
- les mesures d'usage : .csv
- Activitypub : fédération de commentaires. Ok.
Faites ce que je dis...
Pourquoi les chercheurs qui prônent l'ouverture (accès gratuit car travail produit et financé par le salaire universitaire et les fonds publics de recherche), les communs, la fin de l'Auteur avec un grand A et les licences libres publient-ils des ouvrages payants, en leur nom propre (et non dans celui de leur groupe ou labo de recherche) et sous copyright ?
Il faut revoir soit la théorie, soit la pratique, en tout ou partie. Il y a un petit souci de cohérence. Espérons que les droits d'auteur sont reversés à l'université…
Wikipedia n'a pas de rédaction donc Wikipedia n'est pas une source (2)
Petites précision par rapport au billet précédant :
Par auteur il faut aussi entendre rédaction, d'où mon changement dans le titre de ce billet. On peut attribuer sa confiance à une source morale par le biais de la confiance accordée non pas aux auteurs proprement dits mais à sa rédaction. On ne sait pas exactement qui a écrit un article donné mais on sait qu'il a reçu l'aval de sa rédaction dont la raison d'être est précisément de définir des critères de qualité, justesse, méthode, etc (notions trop complexes pour ne pas les mettre entre parenthèses dans un billet si court).
WP n'a pas plus de rédaction qu'elle n'a d'auteurs. Par contre elle a une fondation, Wikimedia, laquelle a des orientations (libre, collaboratif, etc…). Ces orientations sont détachées de la notion de crédibilité du contenu (simplement parce que ça n'est pas son objet), ce pourquoi le lecteur ne peut pas baser sa confiance sur Wikimedia.
La confiance est une relation. Or sur le plan de la confiance le lecteur de WP n'a personne avec qui créer cette relation. Elle ne peut donc être source de confiance.
Wikipedia n'a pas d'auteurs donc WP n'est pas une source.
Une petite réflexion au sortir du séminaire Construction de l'autorité numérique (URFIST-ENC, Paris) et de la présentation
Wikipédia et les liens unissant confiance, crédibilité et autorité des sources
par Gilles Sahut (université de Toulouse).
Au sujet de ses résultats d'enquête montrant le manque de confiance dans Wikipedia auprès des élèves allant du secondaire au master, j'évoque l'absence de sources, au sens d'auteurs identifiés. Gilles Sahut me répond que la source est Wikipedia elle-même, que les lecteurs citent bien WP comme leur “source”.
Pour aller plus loin il faut distinguer :
- source géographique, au sens de localisation, d'origine : “ça vient de là”,
et
- source de confiance : “je fais référence en matière de crédibilité”.
Selon cette distinction, certes WP est une source au sens “géographique” du terme, et cité comme telle pas ses lecteurs. Mais est-ce “source de confiance” ?
Dans WP, à moins d'en connaître les arcanes, les lecteurs n'identifient pas d'auteurs physiques : l'“auteur” WP est non apparent a prime abord, collectif et peu documenté (IP, pseudo, peu ou pas d'infos de références). La plupart des lecteurs de WP lisent donc des articles “sans auteurs”.
Or selon le modèle confiance/crédibilité/autorité présenté par Sahut la confiance se construit notamment sur la fiabilité de la source, de l'auteur (fiabilité = crédibilité à long terme → autorité)1)
Et est-ce que ça n'est pas la fiabilité des auteurs (sources physiques) qui fait la fiabilité de la source morale (Wikipedia, Le Monde, La revue unetelle…), comme ce sont les documents qui font la fiabilité de l'auteur ? Dans ce cas, WP n'ayant pas d'auteurs identifiables auxquels accorder de la fiabilité peut-elle devenir une source de confiance ?
Dans ce sens je réitère mon affirmation : WP n'a pas de sources (auteurs identifiés auxquels les lecteurs peuvent attribuer de la fiabilité) et ne peut donc pas elle-même être une source (au sens de “source de confiance” et selon le modèle établi aujourd'hui de l'attribution de la confiance).
C'est le résultat d'un choix éditorial qui fait aussi tout l'intérêt de WP à différents titres et ne préjuge en rien de sa justesse.
Ok, Google, ne me calcule pas
L'expression “(ne pas) calculer quelqu'un” s'emploie pour dire (ne pas) remarquer, ignorer, snober quelqu'un, volontairement ou pas.
Au cours de la séance du 4 décembre du séminaire “Éditorialisation et écritures numériques” a été évoquée, ce qui n'est pas nouveau, la question de la calculabilité de nos comportements et par voie de conséquence de notre “identité” sur le web. Dans le numérique, environnement de calcul, nous sommes toujours calculés, toujours remarqués, toujours identifiés.
Où l'on regrette de ne pas être plus souvent snobés…