Bibliothèques universitaires et usage de la bibliométrie dans l’évaluation de la performance de la recherche

Chiriac, Emanuela

doi:https://doi.org/10.7202/1089191ar

Introduction

Cet article propose une revue narrative autour des enjeux de la bibliométrie évaluative dans le but de cerner le rôle que les bibliothèques universitaires en général, et celles québécoises en particulier, seraient appelées à jouer dans l’analyse des performances de la recherche institutionnelle. Il débute par une mise au point terminologique, avant d’exposer, à travers des études de cas et une recension des écrits, les défis techniques, méthodologiques et organisationnels de l’évaluation quantitative. L’auteure met l’emphase sur les sciences sociales et humaines qui présentent de multiples particularités en termes d’habitudes de publication, d’indexation et d’usage. À partir des données d’observation, quelques recommandations et mises en garde sont avancés, notamment au sujet de la micro-évaluation.

La bibliométrie évaluative : fondements historiques

Le terme bibliométrie, forgé par le britannique Alan Pritchard en 1969, fait référence à « l’application des mathématiques et des méthodes statistiques aux livres et autres médium de communication [scientifique] » (Pritchard, 1969). La même année, l’auteur russe Nalimov lançait le terme scientométrie, pour désigner l’application de mesures quantitatives à l’ensemble des activités scientifiques et à tous les champs de recherche. Les deux termes sont aujourd’hui employés comme des synonymes, alors que la bibliométrie, tournée uniquement vers la communication écrite, apparaît plutôt comme un sous-ensemble de la scientométrie. De la même manière, la technométrie – analyse des brevets – est parfois assimilée à la scientométrie (Gingras, 2016).

Les premiers index bibliométriques ont fait leur parution bien avant que la terminologie mentionnée soit consacrée, mais ils restent sectorielles : la biologie et la chimie se sont munies de leurs répertoires respectifs au début du xx^e siècle (Rostaing, 1996). En 1955, Eugene Garfield avance le projet d’un index scientifique unifié, mobilisé par deux concepts fondateurs : (a) l’importance de faire ressortir l’association des idées (et donc la recherche interdisciplinaire) dans la science et (b) l’utilité pour la recherche d’un recensement, à base de citations, de l’ensemble des publications (notes critiques y comprises) d’un domaine ; un tel index facilitera la tâche de la nouvelle génération de chercheurs et leur évitera de citer des publications frauduleuses ou contestées (Garfield, 1955). Introspection sociologique de la science et historiographie documentaire embrassent dans un élan presque alchimique les méthodes quantitatives – en plein essor elles aussi dans les années 1960 – et convergent vers un champ de recherche à part entière : la scientométrie (de Solla Price, 1986). À la même époque, de nombreux pays, en commençant par les États-Unis, réclamaient des indicateurs de recherche et de l’innovation nécessaires à l’élaboration des plans stratégiques de développement[1]. Cette quête de normalisation a contribué à l’avènement de la bibliométrie comme discipline académique (Gingras, 2016). La bibliométrie est aujourd’hui un champ bien établi, avec ses lois (Lotka, Bradford, Zipf), ses revues (Social Studies of Science, Scientometrics, etc.), ses conférences et ses sociétés savantes (Society for Social Sciences Studies, International Society for Scientometrics and Informetrics).

Dans une optique plus moderne, la bibliométrie a comme objet d’étude l’interaction entre personnes (auteurs, lecteurs, etc.) et documents (articles, livres, rapports, etc.). Elle implique l’observation, la classification et le comptage de toutes ces actions (soumission des manuscrits, relecture, édition / publication, accès et téléchargement, achat, lecture, citation, commentaires, etc.) (Furner, 2014).

Selon Donthu et collab. (2021), « l’analyse bibliométrique est utile pour déchiffrer et cartographier l’accumulation des connaissances scientifiques et l’évolution des différentes disciplines traditionnelles, en donnant un sens à de grands volumes de données non structurées » (traduction libre). Cette définition fait ressortir deux caractéristiques essentielles de la bibliométrie : premièrement, elle s’applique, comme toute autre méthode statistique, à des grands ensembles de données, représentatifs de la dynamique des sciences ; deuxièmement, la bibliométrie implique des aptitudes d’analyse et un choix judicieux d’outils de visualisation.

La bibliométrie évaluative, quant à elle, se définit comme l’intersection de deux champs distincts : bibliométrie et évaluation de la recherche. La mission de ce champ hybride est de fournir les critères (les techniques) pour bâtir des classements qui permettront, à leur tour, de justifier la distribution des ressources ou récompenses aux auteurs qui ont contribué à ce classement ou aux établissements auxquels ces auteurs sont affiliés. Les gestionnaires d’universités s’y remettent pour décider des embauches et des promotions, tandis que les organismes subventionnaires en prennent fondement dans la distribution des fonds aux départements, programmes ou projets de recherche les plus prometteurs.

L’évaluation de la recherche est elle-même un sous-domaine de l’évaluation, discipline distincte qui s’intéresse aux variables (qualités, attributs), ainsi qu’aux méthodes de normalisation et d’opérationnalisation de ces variables, de manière à ce qu’elles puissent être utilisées pour faire des comparaisons entre les mesures prises dans des contextes différents, à des périodes différentes (Furner, 2014).

Van Leeuwen (2005) définit la bibliométrie évaluative ou la micro-évaluation en opposition avec la bibliométrie descriptive, cette dernière étant initiée par une administration nationale avec pour dessein de soupeser l’avancement de la recherche du pays respectif dans une perspective comparative, internationale. La bibliométrie descriptive, synonyme de macro-bibliométrie, ne s’appliquerait pas aux petites entités (universités, groupes de recherche, départements, etc.), car son niveau d’agrégation de données est trop général pour être prêté à une micro-évaluation.

Les chercheurs ont été évalués depuis que l’édition scientifique a pris forme, dans la deuxième moitié du xvii^e siècle. Trois siècles durant, les publications ont été scrutées par les pairs (collègues et compétiteurs), de par l’initiative des comités éditoriaux, avant qu’elles ne soient mises en circulation. Le processus de relecture gagne en importance proportionnellement avec l’augmentation du nombre de revues, au xix^e siècle, mais il est institutionnalisé au début du siècle suivant, avec la création des organismes publics de financement de la recherche (en France est créé, en 1901, le premier fonds de recherche, suivi, en 1936, par la parution du CNRS ; en 1916 apparaît le Conseil National de Recherche du Canada ; en 1950, aux États-Unis, la National Science Foundation). À cette époque, les demandes de subvention étaient analysées par des comités dont les membres délibéraient en face-à-face ou bien par des tierces parties. Critiquées pour leur subjectivisme, ces évaluations délibératives font place à des méthodes quantitatives, issues de la bibliométrie, à partir des années 1970. C’est la période qui marque aussi les débuts de l’évaluation individuelle des chercheurs. Le rendement fondé sur des critères quantitatifs paraissait plus démocratique qu’un référencement collégial (réseau personnel) ou un choix arbitraire des gestionnaires académiques. Cette transition a été favorisée par la création des premières bases de données de citations, initiative de l’Institute for Scientific Information (ISI) – Science Citation Index (SCI), Social Science Citation Index (SSCI) et Arts & Humanities Citation Index (AHCI)[2] – publiés en ligne en 1997 sous le nom de Web of Science (Gingras, 2016).

Le premier protocole d’évaluation et le plus notoire est celui britannique – Research Assessment Exercice (RAE) –, mis en application dès 1986 par le Higher Education Funding Council for England (HEFCE) et basé uniquement sur des indicateurs de performance scientifique, voir le nombre de publications dans les revues à meilleur impact. En 1996, sous la pression de la communauté scientifique, les conseils de recherche de la Grande-Bretagne admettent que l’impact sociétal immédiat de la recherche est difficile à mesurer et consentent dès lors à une évaluation éminemment qualitative : des comités d’experts sont alors chargés d’analyser les activités de recherche des universités et des groupes de recherche selon les particularités disciplinaires et en fonction de certaines variables socio-économiques (par exemple, nombre de chercheurs et d’étudiants des cycles supérieurs, nombre de diplômés, budget alloué). Cette méthode d’évaluation aura des répercussions positives sur la production scientifique locale, car elle semble faire augmenter le nombre de publications dans les revues à haut facteur d’impact (Moed, 2007). Un protocole semblable, qui combine délibération qualitative et indicateurs de performance scientifique (informed peer-reviewed) sera aussi adopté au Pays-Bas, en France, en Australie et au Canada (Colwell etal., 2012). Aujourd’hui, des agences gouvernementales d’évaluation existent partout au monde, du Canada jusqu’en Australie et du Danemark jusqu’en Afrique du Sud (Gingras, 2016).

L’octroi des subventions de recherche à partir des critères quantitatifs et la pratique des récompenses financières que certains gouvernements accordent aux chercheurs ayant publié dans de revues à haut impact ont été à l’origine des graves dérives dans le milieu éditorial : cartels de citations, répartition du même objet d’étude sur plusieurs articles (salami publishing), autorat fantôme, autorat honorifique (guest-author), pression de la part des éditeurs pour citer leurs propres revues (citation trawling). Les pratiques d’évaluation en lien avec le financement des universités ont entraîné des effets à long terme comme le détournement des objectifs des chercheurs ou la modification de leurs habitudes de publication. La dynamique de la production scientifique s’est moulée dans les priorités publiques du développement et de l’innovation (Wouters, 2014 ; Wouters etal., 2019).

La bibliométrie évaluative utilise généralement deux repères : (a) la productivité, équivalente au nombre d’articles publiés par une entité (chercheur, groupe, secteur disciplinaire) et (b) l’impact ou le degré d’usage de ces publications, associé communément au nombre de citations qu’elles en ont reçues. La fiabilité de l’évaluation repose sur la revendication d’une corrélation positive entre ces deux variables et la qualité de la recherche. Or, le raisonnement sous-jacent à cette pratique est que des variables inobservables (performance, impact de travaux scientifiques) puissent être quantifiées par des variables observables et donc mesurables (nombre d’articles ou de citations, entre autres). (Larivière etal., 2018).

Peu d’études se sont penchées sur les carences théoriques et méthodologiques de l’évaluation quantitative de la recherche (Bornmann etal., 2008 ; Moed, 2007). Leurs mises en garde sont aujourd’hui de véritables postulats de la bibliométrie évaluative :

Les corpus de publications et de citations ne répertorient pas de manière uniforme tout type de publication et tout champ disciplinaire. Comparer donc les citations d’un auteur dont les publications y sont indexées avec les citations d’un auteur dont les publications n’y sont pas, n’est pas une méthode valide.
Les citations ne sont pas distribuées uniformément parmi les publications. Utiliser la moyenne (référence au facteur d’impact) comme indicateur de performance d’un chercheur est donc inapproprié.
Certains champs ou disciplines attirent un grand nombre de citations simplement parce que la communauté qui les représente est large et très productive (sciences de la santé, ingénierie, sciences naturelles). Utiliser les citations comme indicateur pour comparer la productivité des champs ayant différents rythmes de production et de citation n’est pas une méthode valide.

Un aspect encore moins étudié est celui normatif, voire éthique, de l’évaluation. Peu de scientomètres ont abordé la déontologie applicable aux évaluations et implicitement aux évaluateurs. On recommande ici la grille de contrôle fournie par Furner (2014). Elle comporte deux sets de critères :

une dimension intrinsèque, qui réfère à la qualité des données, exprimée en : fiabilité, complétude, consistance et absence du biais.
une dimension extrinsèque, reliée à la finalité de l’évaluation, qui se vérifie par : pertinence, efficacité (rapidité), accessibilité, clarté et transparence.

Quant aux évaluateurs, ils doivent faire preuve d’impartialité, d’honnêteté, de respect, et, surtout, de justice distributive. Il nous reste à préciser que les critères mis de l’avant par Furner s’inspirent du code éthique des statisticiens.

Pour une performance contextualisée

La globalisation du marché académique est certainement une des explications entourant les débats et les initiatives d’évaluation en lien avec les classements des universités (Maclean, Research Infosource, Shanghai, QS, Times Higher Education, etc.). Dans un contexte de mobilité et de déclin démographique, certaines universités comptent sur leur classement pour attirer des étudiants étrangers et pour obtenir des subventions de recherche. Les universités canadiennes ont adhéré aux différents systèmes de classement et ont façonné leurs politiques de recherche en conséquence. Toutefois, le manque d’uniformité, de consistance et de transparence de leur méthode de calcul a soulevé des critiques. Tel fut le cas du classement inopiné de l’Université d’Alexandrie parmi les meilleures au monde dans la liste QS de 2010, suivi d’une descente en 601^e place l’année suivante (Gingras, 2014).

Selon Larivière et collab. (2018), l’évaluation de l’activité de recherche repose sur trois variables : les intrants de la recherche, les extrants et l’impact. Alors que cette approche tripartite reconnaît l’importance des incitatifs à la recherche, voire des ressources (notamment ressources humaines et monétaires) investies en amont, elle ne semble pas prendre en considération le contexte socio-économique des établissements de recherche, par exemple la capacité démographique à attirer des étudiants, la mobilité des chercheurs et des étudiants, le nombre de collèges et de leurs finissants, les débouchés économiques pour les finissants, les éventuels compétiteurs (d’autres universités proches géographiquement et offrant les mêmes programmes d’études). Ce contexte est pourtant relié intrinsèquement aux intrants, car les ressources sont généralement réparties en fonction du nombre d’étudiants inscrits aux cycles supérieurs, du nombre des chercheurs et des projets de recherche. Les figures 1 et 2 démontrent que le nombre d’étudiants inscrits aux cycles supérieurs dans les 18 universités québécoises ne change pas sensiblement dans le temps : l’Université de Montréal, l’Université Laval, McGill, l’UQAM et l’Université de Sherbrooke affichent constamment les meilleurs effectifs. La distribution change un peu lorsque les données sont triées par champ disciplinaire, mais ce sont à peu près les mêmes universités qui reviennent en tête de liste. En contexte canadien, l’Ontario et le Québec sont les provinces qui ont le plus grand effectif de chercheurs[3] et qui disposent des plus importantes allocations de recherche, tant au niveau provincial[4] qu’au niveau fédéral[5]. La ventilation de ces fonds suit la distribution des effectifs étudiants et les priorités scientifiques nationales (la santé et les technologies de pointe), ainsi les universités qui rencontrent ces critères – toujours les mêmes établissements ! – reçoivent constamment les plus grosses enveloppes. Alors que certaines études ont démontré la corrélation positive entre l’impact des citations et l’attribution des subventions – donc, implicitement, le bien-fondé du financement « méritoire » –, d’autres ont critiqué le phénomène de concentration financière. Parmi ces derniers, Van Leeuwen (2005), selon lequel l’équation mentionnée met en danger le système de recherche dans l’ensemble, en ce qu’il entretient une fracture entre les établissements et qu’il génère un processus cyclique où les « puissants » deviennent encore plus puissants et les faibles… dépérissent ! Ce phénomène cumulatif nous rappelle la loi de puissance et la distribution de Pareto, adaptées à la communication savante sous le nom de l’effet Matthieu : ceux qui ont (de citations), recevront davantage.

Figure 1

**Effectif des étudiants inscrits aux programmes de maîtrise dans les 18 universités québecoises entre 2017-2021**

Figure 2

**Effectif des étudiants inscrits aux programmes de doctorat dans les 18 universités québecoises entre 2017-2021**

Cette digression quantitative nous permet d’avancer qu’une université régionale et/ou de petite taille n’a pas les moyens de déloger le classement des grandes universités, et ce peu importe l’ampleur de l’infusion monétaire. Une évaluation globale, institutionnelle, ne saurait donc ignorer le contexte économique, avec ses forces et ses limitations.

Nous proposons une évaluation en quatre volets, illustrée par le schéma ci-dessous. Les intrants occupent la partie supérieure et se divisent entre le profil socio-démographique et économique de la région (à gauche) et les prémisses académiques de la recherche institutionnelle (à droite), alors que la partie inférieure est divisée entre les extrants formels et informels de la recherche. Le côté droit contient des données tirées du milieu académique, celui de gauche des données extra-académiques mais qui influent sur le prestige de l’université. Cette répartition peut être modélisée en fonction du poids accordé à chaque critère dans l’ensemble de l’évaluation, tout comme dans les protocoles britannique ou hollandais. La symétrie du schéma présentée ici ne doit pas être interprétée comme une revendication d’une formule à parts égales des quatre groupes de facteurs.

Figure 3

**Schéma représentant le cycle de la productivité de la recherche**

Le marché des indicateurs

L’activité de recherche peut être mesurée à partir d’une multitude d’extrants : articles scientifiques (ou de recherche), comptes-rendus critiques, méta-analyses, livres, chapitres de livres, éditoriaux, présentations, actes de conférences, preprints, rapports techniques, créations artistiques, logiciels, codes, données brutes, brevets, carnets de recherche, études de cas, études cliniques, expositions, articles de blogs, partenariats avec des acteurs du secteur privé, activités de vulgarisation, présence dans les médias traditionnels et les médias sociaux, etc. Pourtant, ce n’est que la revue qui s’est imposée, depuis les années 1960, comme vecteur de l’autorité et de la légitimité scientifique. Elle est surtout perçue comme l’archétype de la communication en sciences fondamentales (Larivière et al., 2018). Ce statut particulier prend ses sources dans le processus de révision (peer-reviewing), plus rigoureux et homogène dans le cas des revues que dans le cas des livres (Mittermaier, 2020).

L’indicateur le plus populaire – Impact Factor (IF) ou Facteur d’impact (FI) – est calculé à partir des métadonnées bibliographiques contenues dans Web of Science de Clarivate Analytics (Thomson Reuters avant 2016) et il est publié annuellement, depuis 1975, dans le classement Journal Citation Reports. Le facteur d’impact est une simple moyenne arithmétique entre le nombre de citations reçues par l’ensemble des articles d’une revue les deux dernières années et le nombre de documents citables publiés pendant le même intervalle. Il a suscité de multiples critiques.

La première critique porte sur la dimension documentaire : l’indicateur prend en calcul seulement les revues répertoriées dans Web of Science (WoS) qui proviennent essentiellement des éditeurs américains, alors que ce marché ne représentait, aux débuts du corpus, que la moitié des publications mondiales (Abel & Newlin, 2002). Son tir a été corrigé au fil du temps, et surtout à la suite de l’arrivée, en 2004, de son principal concurrent, Scopus, propriété d’Elsevier. En plus du biais géographique, le FI reflète le biais disciplinaire du WoS, les sciences sociales et les humanités en y étant sous-représentées.

Deuxièmement, sa méthode de calcul s’avère trop simpliste pour être appliquée indistinctement à toutes les sciences, alors que les patterns de publication et de citation varient sensiblement entre les disciplines, et même d’une revue à l’autre (par exemple, les recueils d’analyses systématiques sont citées davantage). Son indice à trois décimales est un faux semblant de rigueur, qui n’a de raison d’être qu’une sur-stratification du classement (Gingras, 2016 ; Larivière et al., 2018).

Du point de vue technique, l’asymétrie entre le numérateur et le dénominateur entraîne un biais : si le premier prend en compte tous les types de documents, le deuxième se limite aux documents citables, à savoir les articles de recherche et les revues systématiques (Larivière et Sugimoto, 2014 ; Larivière, 2019).

Créé à l’intention du milieu documentaire, pour aider les bibliothèques à gérer efficacement leurs collections de périodiques, le facteur d’impact devient, faute de concurrence, une sorte de table de concordance pour la « valeur » des auteurs. Ironiquement, le FI prend en calcul la revue comme unité d’analyse, indistinctement de la qualité et de l’impact (nombre de citations) de chaque article constituant, ce qui veut dire qu’il suffit de publier dans une des « meilleures » revues pour être qualifié un des « meilleurs » auteurs. Même après la parution de nouvelles sources d’indexation et des indicateurs plus sophistiqués, le FI préserve toujours sa position privilégiée auprès des vigiles de la recherche. Selon une enquête internationale sur la perception des chercheurs vis-à-vis le FI, presque 90 % des répondant.e.s déclaraient que cet indicateur avait un rôle « important ou très important » dans l’évaluation de la performance scientifique de leur pays (Buela-Casal & Zych, 2012).

Au début des années 2000, le nombre d’indicateurs proposés par la communauté des scientomètres a explosé à un point tel qu’il n’était plus possible d’en faire même le décompte (Van Noorden, 2010, cité par Wouters, 2014). D’un autre côté, leur utilisation par les gestionnaires et les chercheurs atteint de nouveaux sommets : les premiers à des fins d’évaluation, les derniers pour rendre leurs CV plus attirants (Wildgaard et al., 2014). Une attention particulière est accordée aux indicateurs applicables aux auteurs afin de compenser une des failles du facteur d’impact. L’indice h, lancé en 2005 par le physicien Jorge Hirsch, prétend concilier qualité et impact, en prenant en calcul le nombre de publications et celui des citations reçues.

En réalité, h est une mesure composite de productivité et de visibilité ou d’impact qui « fait de la publication la variable dominante » (il plafonne au total des publications du chercheur, alors que le nombre de citations peut continuer à augmenter) (Larivière et al., 2018, p. 123). Sa valeur ne décroit jamais, ce qui est très inusité pour un indicateur. Dans certains cas, un chercheur avec un faible indice h peut être de meilleure qualité qu’un chercheur avec un indice élevé (Gingras, 2014). Faisant fi des polémiques, l’indice -h monte rapidement en popularité parmi les scientifiques, puisqu’il est facile à calculer et accessible gratuitement[6]. Wouters (2014) mentionne à quel point les sciences médicales sont friandes de ce métrique : les chercheurs l’ajoutent dans leurs CV, sur leurs sites web personnels, etc.

Durant la dernière décennie, de nouveaux indicateurs ont été proposés qui puissent mettre en valeur l’ensemble des produits de recherche, même ceux diffusés en-dehors du cadre conventionnel. Kousha et Thelwall (2014) suggèrent l’application de la wébométrie à une variété d’objets de nature académique : syllabus de cours, présentations, articles de blogues, vidéos, images, etc. Wouters et Costas (2014) se joignent à Priem dans la promotion des mesures alternatives (altmetrics), lancées par ce dernier en 2010, en raison de leur valeur informationnelle, leur vitesse et leur gratuité.

L’objectif de cet article n’est pas d’analyser en détail les indicateurs bibliométriques. Une sélection des mesures les plus fréquentes est compilée dans le tableau 1. Pour une liste plus exhaustive des indicateurs de performance d’un chercheur, nous recommandons Wildgaard et collab. (2014) (comparaison de 108 indicateurs) ; pour une revue systématique des mesures de la recherche voir (Bornmann, 2017 ; Bornmann et al., 2008, 2008 ; Waltman, 2016a).

Sur une note plus générale, retenons que toutes les mesures fondées sur le calcul des citations héritent des mêmes lacunes que le facteur d’impact (indice d’immédiateté, half-life, CiteScore, etc.). Elles sont affectées par un ensemble de variables, tels les rythmes, les raisons et la dispersion disciplinaire des citations (moyenne de citations par publication), le genre, le nombre et l’ordre des co-auteurs et, pas en dernier lieu, par les valeurs extrêmes (outliers). Ces mesures sont à éviter dans des micro-analyses, à moins d’être combinées avec des variables supplémentaires – composition et l’expertise du comité éditorial, taux d’acceptation des revues, forme de relecture, etc. – et d’être élargies à d’autres extrants, tels les données de recherche (Wouters et al., 2019). Les indicateurs normalisés sont plus compatibles avec les comparaisons entre différents champs disciplinaires et fenêtres temporelles, mais il ne faut pas perdre de vue qu’ils sont sensibles au classement des publications (dans WoS et dans Scopus, chaque revue est rattachée à un ou plusieurs champs) ; ils seront donc moins fiables dans le cas des revues multidisciplinaires.

Les défis de la micro-évaluation

La bibliométrie évaluative ne s’appuie pas sur un groupe de données, de mesures et d’infrastructures choisies aléatoirement. Les données peuvent être colligées, agrégées et interprétées sous différents angles. Leur juste valeur se révèle de par leur mise en contexte et de par leur potentiel comparatif. Une comparaison, toutefois, ne doit pas se faire sur des ensembles qui diffèrent en nature et temporalité (on ne compare pas, par exemple, la production de chapitres de livres en sociologie avec le nombre d’articles scientifiques en biochimie sur 2, respectivement 5 ans).

Toute analyse fiable repose sur une bonne compréhension de la structure organisationnelle et épistémologique de l’entité analysée. Prenons, comme cas de figure, la recherche en design : cette recherche est caractérisée par une forte dispersion disciplinaire (au croisement des arts appliqués, des sciences de l’information et de la communication, de l’ingénierie, de l’esthétique, etc.) et son marché éditorial est fort fragmenté (Vial, 2015). Deux classements des revues à comité de lecture se disputent la primauté depuis les années 2010, mais aucun titre en français n’y figure. En revanche, aucune des revues les plus influentes dans le classement anglo-saxon ne se retrouve dans la liste des revues accréditées par l’autorité nationale française en matière d’évaluation AERES (maintenant Hcéres[7]) : l’édition en design est donc divisée entre deux écoles de pensée, imperméables l’une à l’autre. La littérature en français se contente de son encloisonnement, au risque de perdre sa visibilité internationale. Cet exemple nous fait réfléchir à l’évaluation des chercheurs en contexte d’interdisciplinarité et de collaboration internationale. Certains choisissent de publier dans des champs connexes, dont les publications sont mieux cotées mondialement (Vial, 2015). D’autres se satisfont d’un écosystème fermé, par choix de langue et d’affinité épistémologique : leurs articles sont de moindre qualité que les premiers pour autant ? La question de l’interdisciplinarité est très présente dans les sciences sociales et humaines (histoire, muséologie, langues, etc.), pour lesquelles il est particulièrement difficile de trouver des indicateurs qui s’appliquent uniformément et universellement. En même temps, ce sont des disciplines plus « solitaires » que la physique ou le génie ; la publication individuelle étant plus répandue en SSH, les indicateurs de collaboration ne s’y appliquent pas ou, du moins, pas au même degré que dans les sciences pures.

Les revues francophones sont indexées de plus en plus dans JCR et dans Scopus. Leur simple présence dans des répertoires reconnus mondialement n’est pas une garantie de « performance ». On prend comme cas de figure, cette fois-ci, une revue d’histoire – Dix-Septième Siècle – qui a un piètre classement dans JCR. Elle n’a récolté que 8 citations en 10 ans (l’âge de publication). Un jugement hâtif sera dépréciatif à l’adresse des auteurs qui y ont contribué. Pourtant, ces derniers proviennent en majorité de Sorbonne et du CNRS. Le second raisonnement serait que le sujet est tellement pointu qu’il ne peut y avoir qu’un minuscule bassin de spécialistes. Toutefois, dans la même catégorie que la revue Dix-Septième Siècle – « Medieval and Renaissance Studies » – sont classées des revues anglophones similaires qui sont beaucoup plus citées – Renaissance Quarterly (plus de 400 citations), Journal of Medieval History (plus de 300 citations), Seventeeth Century (133 citations). La fréquence de parution et le nombre d’articles publiés annuellement jouent, bien évidemment, dans le calcul de l’impact. Nous touchons ici un aspect sensible de l’édition scientifique, à savoir le sort des revues nationales non-anglophones : les publications rédigées dans d’autres langues que la lingua franca de la science seront rarement référencées dans les revues de portée internationale et seront donc privées de visibilité et d’impact (Gingras, 2016 ; Warren & Larivière, 2018). C’est la raison pour laquelle le syndrome Ibérica (en référence à la revue spécialisée en humanités qui a délaissé son multilinguisme en faveur de l’anglais en 2019, selon St-Onge et al., 2021) gagne de plus en plus les sciences sociales et les humanités, alors que les sciences exactes semblent être conquises en large majorité. Sur une note secondaire, les sujets d’intérêt local, mais qui ont une signification sociale importante, n’auront pas le même impact que les sujets de portée mondiale, mêmes s’ils sont véhiculés dans des revues anglophones : encore là, l’indexicalité (le fait d’aborder les objets de la recherche selon les racines et la signification locale) est de mise (Gingras, 2016). Conjuguer langue de publication et ethno-spécificité n’est pas une équation gagnante sur le marché scientifique actuel.

Le Fonds de Recherche du Québec (FRQ) soutient financièrement 36 revues scientifiques locales[8]. Si toutes ces revues sont signalées sur la plateforme franco-canadienne Érudit, elles ne sont indexées que partiellement par Web of Science ou par Scopus. Et même lorsque la même revue est répertoriée par les deux agrégateurs bibliométriques, leur classement et, implicitement, leur rendement (nombre de citations) peut varier d’une plateforme à l’autre, en raison fort probablement de la profondeur historique des archives. Recherches amérindiennes au Québec[9], revue à comité de lecture lancée en 1971, a un très faible impact dans Scopus, car elle y est indexée depuis peu de temps (en exclusivité d’ailleurs).

De surcroît, la même revue peut être classée dans deux ou plusieurs catégories (ou sous-catégories) et avoir des indicateurs d’impact différents sous chaque catégorie. Ci-dessous, une illustration pour la revue Computers in Human Behavior, classée dans Scopus sous trois classes thématiques : Arts & Humanities, Psychology et Computer Science. Par défaut, la fiche détaillée montre le domaine pour lequel le titre a le meilleur rendement, en l’occurrence Arts & Humanities. Toutefois, le score le plus pertinent sera celui qui correspond à la spécialisation du chercheur ou du département évalué.

À la différence des disciplines exactes (STM), pour lesquelles l’article reste le principal véhicule de communication, les sciences sociales et les humanités choisissent souvent des moyens d’expression non-conventionnels, comme le livre, les magazines et les revues professionnelles. Évaluer l’impact de ces documents n’est pas tâche facile, notamment en raison du caractère fragmentaire du marché éditorial : plusieurs éditeurs se disputent le marché de ces produits, sans qu’il y ait un monopole comme en sciences exactes et appliquées. Au royaume des livres, le marché francophone, très prolifique par ailleurs, agit en quelque sorte en contrepoids à l’hégémonie anglo-saxonne. L’indexation des livres dans WoS étant à ses débuts, tout comme dans Scopus, ces sources sont trop incomplètes pour que leurs mesures d’impact soient représentatives.

Les STM ont, contrairement à ce que l’on puisse penser, une part importante dans la communication non-conventionnelle. L’ingénierie et l’informatique sont des domaines extrêmement concurrentiels, où les nouvelles recherches et découvertes doivent faire date rapidement. Jusqu’à récemment, un manuscrit pouvait attendre jusqu’à 18 mois avant de paraître dans une revue scientifique. Les délais de publication ont fait en sorte que les congrès annuels et donc les communications orales soient les médiums de diffusion privilégiés. Selon COMS (Conference Management Software)[10], 700 conférences en informatique et plus de 1,000 conférences en ingénierie étaient prévues pour seule l’année 2019 ! Les actes de conférences sont conséquemment des produits de recherche représentatifs pour la performance individuelle et institutionnelle. Leur indexation est beaucoup plus avancée que celle des livres (Scopus comptait 10 millions d’actes de conférences et WoS environ 200 000 en 2021), ce qui laisse croire que leurs indicateurs d’impact sont plus fiables.

La technométrie, c’est-à-dire l’évaluation de l’impact des brevets, présente ses défis : on ne saura limiter la fouille de données à l’Office de la propriété intellectuelle du Canada, car la recherche d’aujourd’hui, étant de plus en plus collaborative et internationale, porte ses fruits au-delà des frontières nationales. Un rapport du Conseil des Académies Canadiennes[11] nous apprend qu’entre 2005 et 2010, nos chercheurs ont déposé plus de brevets aux États-Unis (United States Patent and Trademark Office) qu’au Canada.

Enfin, la publication scientifique numérique a souvent plusieurs vies ! Une version non-officielle (preprint) peut être auto-archivée par l’auteur dans un répertoire ouvert, tel arXiv, CiteSeerX, PLoS ou SSRN, ensuite paraître sur le site de l’éditeur dans sa forme officielle (Version of Record) et même avec ses différentes versions (ne parlons plus des articles retractés). Chaque plateforme fera son décompte des citations, pour la version qui lui est propre… Le document finit par être moissonné par Google Scholar qui calculera automatiquement les citations que ce document a reçues dans les autres publications de son inventaire ! L’aventure peut bien continuer avec Semantic Scholar, Dimensions et d’autres moteurs scientifiques. Les citations ne doivent pas être additionnées à travers les multiples sources, car il y a de forts recoupages entre celles-ci : il suffira de sélectionner deux ou trois sources et de mentionner le nombre de citations spécifique à chacune (tâche qui peut être automatisée avec le logiciel Publish and Perish).

Les analyses bibliométriques sont le reflet des forces et faiblesses des sources de données utilisées. Aucun agrégateur n’est exhaustif et aucune mesure ne rend justice à toute publication. Les deux sources les plus connues, Scopus et WoS, ne sont pas sans faille : des métadonnées erronées, des références manquantes, des liens incorrects entre items (Visser et al., 2021). Leur monopole a récemment pris fin : Dimensions, Lens, Microsoft Academic, Google Scholar, OpenCitations Index of CrossRef open DOI-to-DOI citations (COCI) sont autant des bases de données multidisciplinaires alternatives, entièrement ou partiellement gratuites (Dimensions utilise un modèle freemium). Des archives disciplinaires ouvertes, telles CiteSeerX (informatique), PubMed (sciences de la vie), INSPIRE (physique des hautes énergies) permettent des investigations bibliométriques spécialisées. De plus, de nouvelles solutions d’analyse sémantique et de visualisation apparaissent constamment : Scite (Smart Citations), Connected Papers, SciMAT, VOSViewer, CitNetExplorer, etc. Chacun de ses outils a son potentiel et ses limites.

Bibliothèques universitaires et bibliométrie évaluative

La bibliométrie est fortement enracinée dans les sciences de l’information, mais il ne faut pas perdre de vue sa multidisciplinarité. Ainsi, elle se revendique des mathématiques et des statistiques (du grec métron), tout autant que de l’informatique, de la sociologie et de la sémiologie (Larivière et al., 2018). Selon Glänzel (2003), elle a des ramifications dans toutes les disciplines, jusqu’aux sciences naturelles et sciences de la vie. Chacune de ces disciplines a son propre bagage conceptuel et méthodologique et sous-tend un nombre de compétences bien établies. Forte apparentée à la scientométrie (les deux termes sont employés dans la littérature de manière presqu’interchangeable), la bibliométrie a des connotations politiques – lorsqu’employée par des organismes publics dans l’évaluation du rendement de la recherche – et des implications éthiques (voir Furner plus haut). Nous avons déjà évoqué l’ampleur de l’infrastructure, ainsi que la variété des méthodes et techniques bibliométriques. Mais qui sont les spécialistes de la bibliométrie ? Qui est habilité à l’utiliser dans un cadre institutionnel ? Dans un élan de « démocratisation de la bibliométrie » (Gingras, 2016), nombre de chercheurs se sont mis à faire des analyses bibliométriques de leur secteur disciplinaire, dont les résultats se sont avérés peu fiables. Cette perspective socio-professionnelle de la bibliométrie est abordée aussi par Waltman (2016b) lorsqu’il distingue entre bibliométrie populaire (citizen bibliometrics) et bibliométrie professionnelle (professional bibliometrics). On y oppose ici l’analyse menée par le chercheur même (do-it yourself bibliometrics), entreprise que l’on pourrait qualifiée de subjective, et la bibliométrie pratiquée par des spécialistes en mesures et sources des données, tels les instituts de recherche ! Plus récemment, Petersohn (2016) et Jappe et Heinze (2021) ont proposé une adaptation du concept hybride de « juridiction professionnelle » à la bibliométrie, théorie qui requiert certainement une introspection plus approfondie.

Déterminer les compétences nécessaires pour répondre aux requêtes de nature bibliométrique est un aspect crucial dans l’embauche et la formation du personnel des bibliothèques universitaires. De ce point de vue, une certaine ambivalence se profile dans le milieu documentaire : d’un côté, une approche auto-suffisante (bibliothèques qui entendent former leur personnel en poste à la bibliométrie), de l’autre, un modèle entrepreneurial – spécifique aux pays anglo-saxons – qui promeut l’innovation et la rentabilité (la bibliothèque de l’Université de Leicester en Grande-Bretagne ira jusqu’à embaucher un statisticien comme répondant en bibliométrie) (Corrall et al., 2013).

Un sondage mené auprès des 48 universités suédoises révèle que les bibliothèques n’offrent pas un support systématique ou structuré en ce qui a trait à la bibliométrie (Åström et al., 2011). Rares sont celles qui lui consacrent un ou deux postes en exclusivité ; généralement, plusieurs membres du personnel se partagent la responsabilité de la bibliométrie sans délaisser pour autant les tâches traditionnelles. Dans la majorité des cas, l’initiative de l’évaluation de la recherche vient des administrateurs de l’établissement. Quelques bibliothèques ont rapporté avoir fourni des analyses sur des réseaux collaboratifs (co-authorship) et des visualisations (maping research fields) aux chercheurs en ayant fait la demande. Seulement trois réponses ont associé l’usage de la bibliométrie à la gestion des collections ! En termes des risques perçus vis-à-vis la montée en importance de la bibliométrie, les répondant.e.s ont perçu une certaine pression pour acquérir de nouvelles compétences, notamment en statistique et interprétation des indicateurs. Des préoccupations ont également été soulevées à l’égard de la légitimité des bibliothèques à évaluer la performance des chercheurs et des conséquences que cette évaluation pourrait entraîner sur la relation avec le personnel de recherche.

L’enquête de Petersohn (2016) reste la contribution la plus substantielle en regard des compétences en bibliométrie évaluative. Celles-ci se divisent en neuf catégories : notions de bibliométrie, typologie d’analyses bibliométriques, sources des données, indicateurs, logiciels, pratiques de citation spécifiques aux disciplines, fonctions de la citation, impact scientifique, aspects éthiques. Plus de trois quarts du personnel répondant affirment avoir développé ces compétences par auto-formation proactive ou réactive, le reste étant divisé entre formation guidée, réseau professionnel et conférences.

Enfin, le sondage international (anglophone) de Cox et ses collaborateurs (2019) dresse un portrait qui se rapproche sensiblement des observations de Petersohn. Alors qu’une faible proportion des bibliothécaires ait suivi une initiation à la bibliométrie durant leur curriculum académique, la grande majorité n’a commencé à développer des compétences en ce domaine qu’une fois en poste. Un noyau « dur » de compétences (core) ressort du sondage, qui comprend des tâches d’orientation et d’ordre technique (explications des principes et mesures, extraction des données et présentation des résultats). À l’extérieur de ce noyau, on identifie des tâches d’ordre managérial, telle l’évaluation des chercheurs ou départements sur demande de la haute administration, ainsi qu’une contribution à l’élaboration de la planification stratégique institutionnelle.

À notre connaissance, aucun sondage formel et structuré n’a été conduit dans des bibliothèques universitaires canadiennes ou nord-américaines jusqu’à présent. En l’absence des données d’enquête, on va porter notre attention vers le symposium américain Bibliometrics and Research Assessment[12], l’édition 2020, et, plus particulièrement, sur le panel du 7 octobre intitulé ‘Roles for Librarians in Research Impact Services’[13]. Les quatre panelistes, bibliothécaires des sciences de la santé dans différentes universités américaines, ont identifié et détaillé les quatre rôles joués par les responsables de l’évaluation de la recherche : le rôle d’éducateur, le rôle de gestionnaire des données, le rôle d’analyste et le rôle de stratégiste (planificateur). En tant qu’éducateur, la/le bibliothécaire assume la formation – ateliers, guides web (LibGuides) – et transmet des renseignements aux chercheurs et aux responsables institutionnels de la recherche. La/le gestionnaire des données est responsable de la cueillette et la curation des données ; elle/il doit identifier et sélectionner les meilleures sources de données et les outils de visualisation appropriés, nettoyer et organiser les données, mais aussi se tenir au courant des changements et nouveautés en lien avec les sources et les logiciels. Elle/il doit être en mesure de récupérer des données à partir d’une interface API – par exemple, en utilisant Python et Jupiter Notebook –, de bâtir une base de données interne et de l’interroger de manière efficace (par exemple, Symplectic Elements[14], Pure[15], SQL Server, etc.). Le rôle d’analyste concerne l’interprétation des données et la présentation des résultats (le langage R est préféré). Enfin, le rôle de planificateur consiste à détecter les faiblesses de la recherche courante et à trouver des opportunités de développement futur. Nous sommes ici loin de la vision conservatrice d’une ou un bibliothécaire concerné·e uniquement par le développement des collections et par l’extraction de l’information textuelle !

Au Québec, un groupe de travail sur la bibliométrie[16] a été mis en place en 2019 par la Direction de la Recherche du réseau des universités québécoises avec le mandat de sonder les besoins en termes de bibliométrie évaluative, de poser les fondements d’une expertise commune, d’appuyer et d’uniformiser le travail de sensibilisation auprès des chercheurs ; elle a également invité certains fournisseurs (Clarivate, SciVal, Dimensions) à donner des ateliers techniques aux membres du groupe. À travers les échanges entre les membres (un.e ou deux représentant.e par université), il est paru évident que le niveau de service varie d’un établissement à l’autre, selon le mandat assigné ou l’intérêt personnel. Quelques bibliothèques ont développé des guides web et ont désigné un membre de l’équipe comme répondant en bibliométrie, auprès de la communauté interne, ainsi qu’auprès du groupe provincial : le plus souvent, cette responsabilité est dissimulée sous l’intitulé « bibliothécaire de la communication savante ». Dans les universités de petite taille, le dossier bibliométrie s’ajoute à des tâches ou projets plus traditionnels ; le support de première ligne peut être distribué entre les bibliothécaires de référence, tandis que la/le répondant·e spécialisé·e se concentre sur la veille, la rédaction des guides méthodologiques, etc. Les bibliothécaires appelé·e·s à faire de la micro-évaluation par les instances institutionnelles responsables de la recherche ont souvent signalé des erreurs et données manquantes à la source (WoS ou Scopus) : affiliation institutionnelle, homonymies, etc. Les efforts de soutien sont alors partagés entre, d’un côté, le nettoyage et la mise à jour des informations curriculaires, et, de l’autre côté, le travail d’agrégation et d’interprétation des données bibliométriques. La qualité des données étant critique dans l’évaluation bibliométrique, un consensus s’est dégagé dans le groupe de travail sur l’importance d’une bonne curation des profils ORCID des chercheurs. Au Québec, un premier colloque sur les défis de la bibliométrie en contexte francophone était prévu en 2020, mais l’épidémie de Covid-19 en a eu raison. Ces initiatives brossent un tableau rapide de l’état de la bibliométrie au Québec. Toutefois, des études plus systématisées pourraient mieux contribuer à une bonne compréhension des besoins et compétences requises, de cerner les tendances à moyen et long terme et, enfin, de mesurer le juste impact de la bibliométrie sur les bibliothèques universitaires !

Conclusion

Le financement de la recherche sur des critères de performance universitaire a déclenché un intérêt sans précédent pour la bibliométrie. Cette instrumentalisation politique a induit une conception managériale chez les administrateurs d’universités qui, à leur tour, s’appuient sur les bibliothèques pour dresser un portrait quantitatif de la production de recherche institutionnelle et pour formuler des priorités scientifiques stratégiques. La perception du rôle et du niveau du service des bibliothèques n’est toutefois pas uniforme entre pays, ni même entre régions. Des études supplémentaires seront nécessaires pour en venir à un consensus sur le positionnement des bibliothèques universitaires à l’égard de la bibliométrie évaluative et pour poser les fondements d’un cadre normatif et méthodologique durable.

Bibliothèques universitaires et usage de la bibliométrie dans l’évaluation de la performance de la recherche

Résumé

Abstract

Introduction

La bibliométrie évaluative : fondements historiques

Pour une performance contextualisée

Le marché des indicateurs

Les défis de la micro-évaluation

Bibliothèques universitaires et bibliométrie évaluative

Conclusion

Note biographique

Notes

Bibliographie

Liste des figures

Liste des tableaux

Résumés

Résumé

Abstract

Corps de l’article

Introduction

La bibliométrie évaluative : fondements historiques

Pour une performance contextualisée

Le marché des indicateurs

Les défis de la micro-évaluation

Bibliothèques universitaires et bibliométrie évaluative

Conclusion

Parties annexes

Note biographique

Notes

Bibliographie

Liste des figures

Liste des tableaux

Outils de citation

Citer cet article

Exporter la notice de cet article