[SNESUP FSU Caen] Ce que les mathématiciens ont à dire sur les statistiques bibliométriques

La bibliométrie aussi doit appliquer la méthode scientifique...

Ce que les mathématiciens ont à dire sur les statistiques bibliométriques

10 sept 2008

jeudi 16 octobre 2008
par PL

Sur le Web source

Ce que les mathématiciens ont à dire sur les statistiques bibliométriques

Publié par JFM

le 10 septembre 2008 dans Evaluation et Recherche.

Trois associations internationales de mathématiciens et statisticiens (dont l’Union Mathématique Internationale qui décerne les médailles Fields) ont récemment publié un rapport sur les indicateurs bibliométriques[1]. Ce rapport n’est pas passé totalement inaperçu car c’est la première fois, à ma connaissance, que les principales unions internationales d’une discipline prennent position sur le sujet. Si les mathématiciens sont autant sensibilisés à la question, c’est que leur discipline est - plus que toute autre peut-être dans le champ des sciences - pénalisée par l’usage croissant et inconsidéré des indicateurs bibliométriques dans l’évaluation de la recherche.

On trouve dans ce texte nombre de remarques critiques sur les méthodes et les usages de la bibliométrie, qui n’ont rien de nouveau[2] et sur lesquelles il est inutile de revenir. Mais les mathématiciens mettent l’accent sur quelques aspects spécifiques qui méritent d’être soulignés et qu’on se propose d’évoquer et de résumer ici au plus près.

Toute l’évolution actuelle va vers l’abandon des méthodes classiques d’évaluation (peer review…) au profit d’indicateurs quantitatifs[3] notamment bibliométriques, avec l’idée qu’on aura ainsi une évaluation plus objective et plus précise de la recherche parce qu’on aura substitué de simples nombres à des jugements complexes subjectifs. Contre cette religion des nombres il est remarquable d’entendre la voix de scientifiques (mathématiciens et statisticiens) qui travaillent avec les nombres[4]. Il s’avère en effet que la bibliométrie, telle qu’elle est pratiquée aujourd’hui, ne repose pas sur une utilisation correcte des statistiques, mais sur une expérience et une intuition discutables. La subjectivité de la bibliométrie, pour être moins apparente que celle des jugements d’experts, n’en est que plus pernicieuse.

Les techniques bibliométriques introduisent un nombre sans cesse croissant « d’indices », de « facteurs »…, mais on trouve peu d’études sur la relation qu’il y a entre ces indicateurs et la qualité de la recherche qu’ils prétendent mesurer. On a tout au plus la constatation de corrélations qui existent entre plusieurs indicateurs, ce qui n’est pas vraiment surprenant puisqu’ils sont tous fonctions des publications…

LE FACTEUR D’IMPACT DES JOURNAUX MATHEMATIQUES

Le facteur d’impact d’un journal mesure, comme l’on sait, la moyenne du nombre de citations sur deux ans des articles publiés par le journal. Cette moyenne est calculée d’après la base de données Journal Citation Reports de Thomson Scientific qui comprend 9000 journaux. Mais en mathématiques on y trouve moins de la moitié des journaux référencés dans Maths Reviews ou Zentralblatt qui sont les deux principaux reviewing journals de la discipline. De fait, Thomson choisit les journaux qu’il indexe en fonction de leurs facteurs d’impact, ce qui constitue un cercle vicieux…

La règle qui consiste à ne prendre en compte que les citations faites dans les deux dernières années est bien adaptée aux sciences de la vie où la plupart des publications sont citées peu de temps après leur parution. Mais, en mathématiques, l’examen de plus de 3 millions d’articles figurant dans la base de données des Maths Reviews montre qu’environ 90% de ces articles sont cités en dehors de la période des deux ans. Cependant il est vrai, pour en rester aux mathématiques, que les facteurs d’impact calculés sur 2 ans, 5 ans ou 10 ans sont assez bien corrélés, sauf pour les petits journaux (ce qui est un phénomène statistique prévisible puisque l’échantillon d’articles est réduit). Mais la conséquence la plus notable du calcul sur 2 ans est la différence considérable de facteurs d’impact qui apparaît entre les disciplines : en moyenne de 1 à 6 entre les mathématiques et les sciences de la vie. Seulement 16% des journaux mathématiques ont un facteur d’impact supérieur à 1, et 4 journaux un facteur supérieur à 2. Alors qu’en Médecine on peut trouver un journal avec un facteur d’impact supérieur à 38… On verra également plus loin que la période de 2 ans affecte fortement l’utilisation du facteur d’impact pour le classement des articles.

UTILISATION DU FACTEUR D’IMPACT POUR COMPARER LES ARTICLES

On attribue à chaque article les propriétés du journal dans lequel il est publié. Or on sait depuis longtemps que la distribution du nombre de citations par article d’un journal suit une « loi de puissance ». Il en résulte une conséquence paradoxale. A titre d’exemple, le rapport Citation Statistics fait une étude comparative de 2 journaux publiés par l’American Mathematical Society : les Proceedings et les Transactions[5]. Le facteur d’impact des Proceedings est 0,434 ; celui des Transactions est 0,846. On devrait en déduire que les articles des Transactions sont « deux fois meilleurs » que ceux des Proceedings. Mais si l’on considère la probabilité qu’un article choisi au hasard dans les Proceedings ait au moins autant de citations qu’un article choisi au hasard dans les Transactions, un calcul élémentaire de probabilités nous donne 62%…

Tirer des conclusions du facteur d’impact qui seront fausses dans plus d’un cas sur deux, n’est pas une méthode d’évaluation admissible ! Un examen plus attentif montre que cette aberration est accentuée par le fait qu’il y a un grand nombre de papiers qui ne sont pas cités du tout sur la période de 2 ans retenue pour calculer le facteur d’impact. Ceci démontre qu’il faut dépasser une intuition sommaire et que, si l’on fait des statistiques, il faut en faire jusqu’au bout.

COMPARAISON DES CHERCHEURS

Les choses se corsent lorsqu’on veut comparer mécaniquement les chercheurs individuels à partir des citations de leurs publications. On a introduit un grand nombre d’indicateurs tels que le « facteur h », le « facteur g », le « facteur m »… dont l’usage tend à se répandre inconsidérément.

On rappelle, par exemple, que le « facteur h » est défini comme le plus grand entier n tel que le chercheur considéré a publié n articles cités au moins n fois. Il est facile de trouver des exemples théoriques qui remettent en cause la fiabilité du « facteur h ». Ainsi on peut imaginer le cas de deux chercheurs ayant chacun 10 articles avec 10 citations ; mais l’un d’entre eux a 90 articles avec 9 citations ; ou bien l’un a 10 articles avec 10 citations et l’autre 10 articles avec 100 citations… En fait le « facteur h » est théoriquement moins fiable que le nombre moyen de citations.

On peut toujours introduire des indices de plus en plus sophistiqués pour pallier les inconvénients statistiques constatés. Mais, ce faisant, on obscurcit encore davantage leur signification et on rend leur critique plus malaisée.

LA SIGNIFICATION DU NOMBRE DE CITATIONS, DU FACTEUR D’IMPACT…

La signification des paramètres statistiques bibliométriques n’est pas bien appréhendée. En statistiques, le plus souvent, on teste un modèle. Mais ici il n’y a pas de modèle préexistant qui définisse pour un journal ou un chercheur le fait d’être « meilleur ». Certes il est légitime d’induire un modèle à partir de données. Encore faut-il savoir quelle information on tire de ces données, et qu’est-ce qu’on mesure exactement…

Ainsi, personne ne dit ce que signifie le nombre de citations. Il y a peu d’études là-dessus. Dans le terme « impact » il y a l’idée que le travail de celui qui cite s’appuie sur le travail de celui qui est cité, et que c’est ainsi que la recherche se propage. En fait c’est beaucoup plus compliqué. Les citations peuvent être la reconnaissance d’une dette intellectuelle. Elles peuvent être aussi des citations « rhétoriques » : référence à un précédent papier qui explique un résultat (pas forcément de l’auteur cité). La plupart de citations sont « rhétoriques ». En particulier, dans les citations de la base de données Maths Reviews, 30% des 3 millions de citations vont à des livres. Si l’on fait une citation « rhétorique », on choisira la citation en fonction du prestige de l’auteur cité, de la proximité entre l’auteur de la citation et l’auteur cité, de la disponibilité du journal, de la commodité à pouvoir citer plusieurs résultats dans le même article ou le même ouvrage… Tout ceci est assez peu en relation avec la qualité de la recherche. Il faudrait faire une sociologie des citations ; c’est un sujet complexe…[6]

Les tentatives pour améliorer le facteur d’impact et les autres indices en utilisant des algorithmes plus sophistiqués[7], peuvent avoir une motivation raisonnable, mais elles rendent plus difficile l’appréhension des hypothèses. « Understanding ought to be the goal when assessing research, not merely ensuring that any two people are comparable »[8].

CONCLUSION

On retiendra que beaucoup de critiques des indicateurs bibliométriques sont des critiques statistiques des indicateurs de performance, et ont une portée plus générale[9]. Les mathématiciens auteurs de « Citation Statistics » ne craignent pas d’affirmer qu’il y a une croyance mystique dans les statistiques de citations, en se référant au pamphlet d’un sociologue[10] pour lequel « in our society, statistics is a sort of fetish ». Pourtant leur rapport ne doit pas être pris comme une disqualification des statistiques en matière d’évaluation ; il s’agit bien plutôt d’une critique sévère de leur utilisation, faite par des « professionnels » avertis. En guise de conclusion, on pourrait citer une phrase du rapport : « If you set high standards for the conduct of science, surely we should set equally high standards for assessing its quality ».

[1] “Citation Statistics”. A report of the International Mathematical Union (IMU) in cooperation with the International Council of Industrial and Applied Mathematics (ICIAM) and the Institute of Mathematical Statistics (IMS) (juin 2008)

[2] Voir « La bibliométrie dévoyée, contestée, mais valorisée » in JFM’s Blog.

[3] Voir en Grande Bretagne, dans le cadre de la réforme du Research Assessment Exercise : The use of bibliometrics to measure research quality in UK higher education institutions. A report produced by the Research Policy Committee of Universities. Evidence Ltd (2007).

[4] “The lure of simple process and simple numbers (preferably a simple number) seems to overcome common sense and good judgments” (in “Citation Statistics”).

[5] Les Proceedings publient de courts articles (moins de 10 pages), les Transactions des articles plus longs et plus substantiels.

[6] Susan Cozzens. « What do citations count ? The rhetoric first model”. Scientometrics, vol 15 (1989).

[7] Ainsi on peut améliorer le facteur d’impact en introduisant l’algorithme du pagerank (cf « La bibliométrie dévoyée, contestée, mais valorisée » in JFM’s Blog) ; c’est a priori une bonne idée mais, ce faisant, on obscurcit la signification de l’indicateur.

[8] In « Citation Statistics ».

[9] Voir Harvey Goldstein et David Spiegelhalter. “League tables and their limitations : Statistical issues in comparisons of institutional performance”. Journal of the Royal Statistical Society A 159, n°3 (1996)

[10] Joël Best. “Damned lies and statistics : untangling the numbers from the media, politicians and activists”. University of California Press Berkeley (2001).

Post Scriptum :

http://www.mathunion.org/publications/report/citationstatistics/

Documents joints à cet article :

le rapport