Analyser l'information (bibliométrie)

La bibliométrie est l’analyse quantitative de la production scientifique et l’analyse des réseaux de cette production. Elle peut se faire à différentes échelles. A l’Institut Pasteur, par exemple, les études bibliométriques portent sur la production scientifique d’un chercheur, d’une unité, d’un département ou encore d’un projet. Mais il existe aussi des études bibliométriques à l’échelle d’une institution, d’un pays, d’un continent, etc.

Trois personnes travaillent sur la bibliométrie à la bibliothèque du CeRIS, en collaboration avec les chercheurs mais aussi avec la direction et les services support. La bibliothèque accompagne les pasteuriens dans le calcul de leurs indicateurs et réalise des études bibliométriques complètes.

La bibliométrie : un outil de pilotage de la recherche

Institut Pasteur - Bibliothèque du CeRIS - Pilotage de la recherche

La bibliométrie sert principalement à piloter la recherche. Elle permet notamment :

de connaître et de suivre la production scientifique d’un département, d’une unité, ou dans une thématique ;
d’identifier un spécialiste dans un domaine ou de repérer de nouvelles collaborations potentielles ;
de trouver de nouvelles sources de financement ;
de révéler des sujets émergents ou des concurrents ;
de sélectionner des revues auxquelles soumettre ses articles.

Pour répondre à chacun de ces besoins, il existe un certain nombre de méthodes ou d’indicateurs différents. Il est nécessaire de bien comprendre ce que représente chacun d’entre eux afin de choisir les indicateurs adéquats.

La bibliométrie peut aussi aider à l'évaluation

La bibliométrie peut aussi être prise en compte dans l’évaluation des chercheurs. Toutefois, il est recommandé :

De ne pas tenir compte uniquement des indicateurs bibliométriques pour évaluer les chercheurs

D’avoir conscience que les disciplines et les sous-disciplines scientifiques peuvent avoir des modes de publications et des comportements de citations différents

De ne pas évaluer les chercheurs en fonction de l’impact des revues dans lesquelles ils publient mais sur la valeur de la publication elle-même

De toujours associer plusieurs indicateurs

De bien connaître les limites de la base de données utilisée pour le calcul de ces indicateurs

D’être conscient des différences de couverture entre les bases de données pour pouvoir choisir la base adéquate

De ne pas comparer des indicateurs ayant été obtenus à partir de bases différentes

Depuis plusieurs années, un nombre croissant d’institutions dénonce les effets pervers liés à l’utilisation des indicateurs pour l’évaluation des chercheurs. Par exemple :

La San Francisco Declaration on Research Assessment (DORA), publiée en 2013 et dont l’Institut Pasteur est signataire, dénonce les dérives liées au facteur d’impact
Le Manifeste de Leiden, quant à lui, rappelle en 2015 dix principes pouvant servir de bonnes pratiques en matière d’évaluation de la recherche, parmi lesquels la nécessité de « baser les évaluations des chercheurs sur un jugement qualitatif de leurs travaux », qui vise directement l’usage de l’indice h.

Institut Pasteur - Bibliothèque du CeRIS - Aide à l'évaluation

Suite à ces initiatives, un certain nombre d’organismes comme le Haut Conseil de l’Evaluation de la Recherche et de l’Enseignement Supérieur (HCERES) se positionnent pour une évaluation plus qualitative, qui n’utilise pas le facteur d’impact et l’indice h et qui prenne en compte toutes les activités des chercheurs, y compris l’enseignement, la recherche appliquée ou encore la vulgarisation scientifique.

Le facteur d’impact : un indicateur très critiquéCet indicateur a été détourné de sa fonction initiale : créé pour mesurer l’impact d’une revue et permettre aux bibliothèques de sélectionner les titres auxquels s’abonner en priorité, il a été utilisé pour l’évaluation des chercheurs et certains se sont rendu compte qu’on pouvait le manipuler. L’Institut Pasteur ne l’utilise plus pour l’évaluation de ses chercheurs.

Les indicateurs bibliométriques

Tous les indicateurs ont leurs avantages et leurs inconvénients. Il faut donc choisir les indicateurs adéquats en fonction de l’objectif de l’analyse bibliométrique.

Les indicateurs les plus connnus

Indice h (ou h-index) : cet indice permet d’évaluer l’impact scientifique en tenant compte de la productivité d’un chercheur, d’une unité, d’une institution… Un indice h de 10, par exemple, signifie que parmi les articles publiés, dix ont été cités au moins dix fois.

Facteur d’impact (ou impact factor) : c’est un indicateur qui mesure l’impact d’une revue. Le facteur d’impact calculé par la société Clarivate Analytics indique le nombre moyen de citations reçues par l’ensemble des articles publiés dans une revue sur les deux (voire cinq) dernières années. Cela donne donc une idée de l’impact qu’une revue a eu sur la science sur cette période.

Nombre de documents (Scholarly Output) : c’est le nombre de documents produits par une unité, un chercheur ou une institution dont on souhaite évaluer la productivité.

Nombre de citations (Citation Count) : c’est le nombre total de citations reçues par l’ensemble des documents analysés.

Taux de citation (Citations per Output) : C’est le nombre moyen de citations par document.

Field-Weighted Citation Impact (FWCI) ou Category Normalized Citation Impact (CNCI) : Cet indicateur a été créé par le Centre for Science and Technology Studies (CWTS) de Leiden. C’est le rapport entre le nombre de citations reçues par une publication et la moyenne mondiale attendue à domaine d'activité, type de publication et année de publication équivalents. Par exemple, un Field-Weighted Citation Impact de 2 indique que les publications analysées ont été deux fois plus citées que la moyenne mondiale.

Outputs in Top Percentile : C’est le nombre ou le pourcentage de publications ayant été citées suffisamment de fois pour se situer parmi les publications les plus citées dans le monde (comparativement aux publications de même type, de la même année et dans le même domaine). En général, on utilise les tops 1% et 10% des articles les plus cités.

Des précautions à prendreLes indicateurs bibliométriques ne donnant qu’une image à un instant donné, il faut toujours les replacer dans leur contexte et en utiliser plusieurs à la fois. Un indicateur n’étant pas une note absolue, dans tous les cas, il faut aller vérifier les valeurs qui semblent anormales en retournant éventuellement aux publications.

Les nouveaux indicateurs

Le besoin d’amélioration des indicateurs existants et l’usage des réseaux sociaux ont entrainé la création de nouveaux indicateurs.

L’indice m (ou m-index) correspond à l’indice h divisé par le nombre d'années de publication étudié. En effet, un des problèmes de l’indice h est que plus la carrière d’un chercheur est longue, plus son indice h est élevé. En divisant par le nombre d’années, l’indice est ramené à une valeur indépendante de la durée de la carrière.

Le Scimago Journal Rank (SJR) d’une revue est le nombre de citations reçues par un article de cette revue pendant les trois ans qui suivent sa publication, chaque citation reçue étant pondérée par la notoriété de la revue citante. Il est calculé dans la base de données Scopus.

Le Source Normalized Impact per Paper (SNIP) d'une revue mesure l’impact de cette revue en tenant compte du nombre de citations reçues par les articles de cette revue publiés au cours des trois dernières années, du nombre total d’articles publiés par la même revue pendant la même période et du nombre potentiel de citations dans le champ disciplinaire de la revue. Cet indicateur a été créé par le Centre for Science and Technology Studies (CWTS) de Leiden. Lui aussi est calculé dans la base de données Scopus.

Le CiteScore d'une revue (ou d'une série) est le rapport entre le nombre de citations reçues par l'ensemble des documents publiés dans cette revue (ou cette série) pendant les trois années précédentes et le nombre de documents publiés par cette revues (ou série). Il est calculé dans la base de données Scopus.

L’Eigenfactor d’une revue est le pourcentage de citations reçues par l’ensemble des articles de la revue au cours des cinq années précédentes sur le total de citations reçues pendant la même période par l’ensemble des articles de l’ensemble des revues analysées dans le Journal Citation Reports. Il est calculé dans la base de données Web of Science.

Les Hot Papers, est un indicateur proposé par la base de donnée Essential Science Indicators (via le Web of Science) : il prend en compte les articles publiés au cours des deux dernières années qui sont dans le top 0,1 % les plus cités lors des 2 mois précédant la mise à jour de la base.

Les Altmetrics n’indiquent pas un impact mais une audience sur le web et permettent de savoir quel chercheur fait l’actualité dans un domaine. Sont comptabilisés les mentions dans les média sociaux (les like, les retweet, les téléchargements sur Mendeley,…)

Les indicateurs d’impact sur la société sont importants à prendre en compte dans le cadre de l’Open Science. Une façon de mesurer l’impact sur la société peut passer par le calcul d’indicateurs sur les brevets, sur les articles dans la presse grand public ou sur le nombre d’interviews données (à la radio ou à la télévision) mais ce type de données est pour l’instant difficile à collecter et reste parcellaire.

Les outils bibliométriques

Les bases de données

Les bases de données servent à constituer le corpus de références bibliographiques à analyser. Toutes les bases de données ont leurs limites et leurs inconvénients (ergonomie, thématiques couvertes, nombre de revues et de livres indexés et période temporelle). Il faut donc choisir la base de données en fonction de l’objectif de l’analyse bibliométrique.

Les deux bases de données payantes, toutes les deux disponibles à l’Institut Pasteur sont :

Créée dans les années 1960, c’est la base de données historique en bibliométrie sur laquelle s'appuient plusieurs classements internationaux comme l'Academic Ranking of World Universities (ARWU) aussi appelé "Classement de Shangaï". Les limites de sa couverture sont connues, ce qui permet de connaître ses biais inhérents comme le fait que les sciences humaines et sociales ou l’économie n’y sont pas bien représentées.

Cette base est plus récente (2004) et de plus en plus utilisée. Quelques classement internationaux l'utilisent comme le Times Higher Education (THE). Elle a une couverture plus étendue que le WoS en termes de thématiques et au regard du nombre de revues et de livres indexés. Toutefois, on ne connait pas précisément sa couverture temporelle.

Il n’existe pas d’alternative réelle à ces deux bases de données

Il n’est pas possible d’utiliser Pubmed car cette base ne récupère pas la liste des références citées et les affiliations des auteurs ne sont répertoriées que depuis peu de temps.
Le problème de Google Scholar est que l’on ne connait pas précisément sa couverture. On ne peut donc pas évaluer les biais de calcul des indicateurs.

Toujours citer la base de données sourceTout le monde, en utilisant des bases de données, peut calculer ses indicateurs. D’une base à une autre, la valeur de ces indicateurs peut changer (en fonction notamment de la couverture de la base), c’est pour cela que l’on indique toujours la base de données et les filtres utilisés.

Une fois le corpus de références constitué à partir des bases de données, les références sont envoyées vers un outil d’analyse pour être traitées et générer ainsi soit des indicateurs chiffrés, soit des représentations visuelles.

Les outils d'analyse

Institut Pasteur - Bibliothèque du CeRIS - Indicateurs chiffrés

Les outils qui génèrent des indicateurs chiffrés

Les deux outils les plus utilisés ont été développés par les éditeurs des deux bases de données commerciales :

Incites, par Clarivate Analytics, l’éditeur du WoS
SciVal, par Elsevier, l’éditeur de Scopus

Ces deux outils sont utilisés à l’Institut Pasteur. Ils permettent d’analyser le corpus de référence récupéré à partir des bases de données et de générer les indicateurs bibliométriques.

Institut Pasteur - Bibliothèque du CeRIS - Outils de visualisation

Les outils de visualisation des données

Ces outils permettent de visualiser les données de manière plus parlante et plus agréable sous forme de cartes. Les logiciels gratuits les plus connus sont VOSviewer et Gephi. Ils permettent :

l’analyse de grandes quantités de mots (texte intégral des publications)
la recherche des cooccurrences de mots et la production de clusters de mots
la traduction des résultats sous forme de carte.

Les cartes générées viennent souvent compléter les analyses bibliométriques classiques et intéressent autant les chercheurs que les décideurs, dans le but par exemple, d’identifier des concurrents, des collaborations, ou des thématiques.

Questions / Réponses

Pourquoi les pasteuriens confient-ils leurs analyses bibliométriques à la bibliothèque ?

Tout d’abord parce que les personnes de la bibliothèque savent quels indicateurs utiliser. Ensuite parce qu’elles prennent le temps de corriger les données. Il y a en effet beaucoup de petits pièges à éviter (homonymie, changement d’unité,…) qui nécessitent une grande attention, c’est ce qui garantit la qualité de l’analyse. Enfin, parce qu’elles fournissent au demandeur un livrable complet, avec les indicateurs mais également les données brutes, les cartes et un rapport de méthodologie.

Ces pages pourraient aussi vous intéresser

Contacts

Surtitre

Agnès Raymond-Denise

33 (0) 1 45 68 82 79

E-mail

Surtitre

Sandrine Royer-Devaux

33 (0) 0 12 34 56 78

E-mail