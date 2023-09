Signé des économistes Julia Cagé et Thomas Piketty, l’un des ouvrages importants de cette rentrée est arrivé non seulement en librairie, sous la forme d’ une vaste somme de plus de 800 pages consacrée à une analyse socio-économique et spatiale de l’histoire du vote en France, mais aussi en ligne, avec un site dédié et une base de données . Cette base aussi est administrée par Le Seuil, l’éditeur des deux économistes, et elle fait entièrement partie du plan de lancement du livre. On y retrouve non seulement les annexes de leur ouvrage, mais encore de nombreux chiffres qui croisent la participation au suffrage universel depuis 1789 et quantité de données ayant trait à la démographie, ou à la valeur du capital immobilier moyen d’une commune, par exemple : les deux auteurs entendent démontrer que la richesse joue un rôle essentiel pour prédire le vote, de même que la catégorie de territoire.

Forgeant la notion de “classe géospatiale”, Julia Cagé et Thomas Piketty expliquent qu’ils ont défini la classe sociale en plusieurs dimensions, “en croisant les critères et les facteurs” : ils avancent que la catégorie d’un territoire, c’est-à-dire non seulement la taille de l’agglomération mais encore le type de professions ou le niveau de diplôme qu’on retrouve sur un territoire, peut expliquer par exemple qu’à niveau de vie comparable, on ne vote souvent pas du tout pareil selon qu’on vit par exemple en ville ou en milieu rural : “L'écart était particulièrement fort au XIXe siècle, et de nouveau en ce début de XXIe siècle, alors qu'il était beaucoup plus réduit pendant l'essentiel du XXe siècle, période au cours de laquelle le clivage social l'emportait dans une large mesure sur le clivage territorial”, détaillent les deux auteurs.

Pour étayer leurs résultats, Julia Cagé et Thomas Piketty remontent jusqu’à 1789 et mobilisent notamment les procès-verbaux conservés aux Archives nationales. Il ne s’agit pas seulement d’un simple copié-collé des archives, qui aurait déjà pour mérite de rassembler des informations éparses. Bien souvent en effet, il leur a fallu interpréter les archives, à la lumière de la presse de l’époque notamment : pour classer des kilomètres de statistiques électorales par couleur politique par exemple, encore fallait-il pouvoir spécifier le camp politique de tel ou tel candidat. Le résultat final, qui agrège quantité de données, est désormais consultable en ligne, et appropriable par tous, chercheur ou non : n’importe qui peut dorénavant télécharger sur le site l'ensemble des données collectées, depuis les images des procès-verbaux jusqu'aux fichiers homogénéisés et finalisés. À condition toutefois de citer les auteurs et le titre de l’ouvrage (“Une histoire du conflit politique en France. Élections et inégalités sociales en France, 1789-2022, au Seuil, donc) sitôt qu’on les utilise. Ce livre qui marque la rentrée littéraire 2023 est ainsi un exemple médiatisé de la mise en partage des données de la recherche.

Il n’y a pas de définition stricte, ni en droit ni dans les faits, de ce qu’est une donnée de la recherche. S’agissant du livre de Cagé et Piketty par exemple, une donnée c’est en effet non seulement les chiffres et les procès-verbaux des services d’archive, mais aussi les modèles de calcul qui leur ont permis d’arriver à leurs résultats, et étayent leur démonstration. Outre les sources, les annexes du livre détaillent en effet les méthodes et les programmes informatiques, eux aussi téléchargeables sur le site : le tout permet de reproduire l’ensemble des graphiques si on le désire. Mais une donnée n’est pas toujours affaire de chiffres : pour d’autres recherches, en sociologie ou en anthropologie par exemple, une donnée, sera aussi bien une série d’entretiens ou même des observations de terrain qui elles aussi peuvent être modélisées - on parle alors non plus d’approche quantitative mais qualitative, bien qu’on utilise toujours le terme donnée.

Protocole obligatoire depuis 2019

Car en réalité, les deux auteurs, qui sont des poids lourds de leur domaine et bénéficient à la fois d’une position solide et de prestige, ne font pas preuve d’un altruisme qui les distinguerait particulièrement, à fabriquer ainsi du commun. Même si leur base électorale numérique sera utile à de nombreuses personnes, à commencer par les journalistes, ils s’inscrivent au contraire dans une tendance lourde du monde de la recherche, où le partage des données est un sujet aussi central, conflictuel que saillant. Depuis vingt-cinq ans en effet, les insitutions poussent chercheurs et chercheuses à ouvrir leurs soutes et mettre en commun leurs données. Il en va même désormais des financements : parce que c’est l’argent public qui abonde le gros des recherches, des institutions comme l’Agence nationale de la recherche (ANR), des instituts de recherche ou encore, de plus en plus souvent ces dernières années, des revues, exigent que les chercheurs fournissent les données associées à un manuscrit. L’incitation est devenue une obligation et depuis 2019, lorsqu’une équipe dépose un projet de recherche auprès de l’ANR, elle doit remettre ce que l’on appelle un plan de gestion des données. On parle de “science ouverte”. Il s’agit à la fois d’un souci de l’intégrité scientifique, avec l’exigence de transparence pour une démonstration reproductible, vérifiable, évaluable ; et d’une volonté de mettre en partage, pour que les ressources accumulées puissent circuler davantage.

Une pollinisation plus efficace, des chercheurs davantage comptables de ce qu’ils avancent, et mieux épaulés dans l’archivage de leurs résultats.... ce sont autant d'objectifs qui trouvent peu d’adversaires sur le papier. En particulier dans un champ qui navigue de très longue date entre compétition et aventure collective : nombre de chercheurs et de chercheuses n’ont pas attendu les recommandations pour travailler à plusieurs, et partager leurs données, au moins à petite échelle. Certains laboratoires, ou à plus petite échelle des groupes de travail qui parfois signent d’un seul nom collectif leurs publications, moissonnent ainsi dans une même base de données, partagées avant la lettre. D’un point de vue démocratique enfin, les voix sont rares qui s’élèvent contre la mise en commun de base de données qui, elles-mêmes, peuvent être le fruit de vastes enquêtes auprès de la population, dont on pourra facilement estimer qu’elle aussi est fondée à accéder à son tour à ce qui se dit, s’écrit, se pense à son sujet.

Des impensés derrière l’horizon enchanté

Pourtant, l’ouverture des données n’est pas un chantier univoque tendu vers un horizon enchanté. D’abord parce qu’un certain nombre d’obstacles sont pointés par les chercheurs, à l’heure où la mise en partage est devenue la règle - sans que les implications soient toujours pesées. Dans un excellent numéro de la revue Tracés produit en 2019 et intitulé Que faire des données de la recherche ? (accessible en ligne), des dizaines de chercheurs, dont certains sont regroupés sous une plume collective avec l’alias "Camille Noûs", pointent des impensés dans cette ouverture des données de la recherche à marche forcée. Ainsi, le partage des données tient-il aussi de l’usine à gaz. Rendre les données de la recherche publiques suppose en effet d’anticiper quelles données seront ouvertes, et comment : si les institutions imposent l’ouverture, il ne s’agit pour autant pas d’un robinet à ouvrir ou à fermer. Ce qui compte est plutôt d’ouvrir une partie des données - mais pas toutes. Ce que pointent les chercheurs confrontés à cette question dans le quotidien de leur travail, c’est que cette réflexion doit avoir lieu en amont de la collecte : les données ne seront pas collectées, compilées, archivées de la même manière selon le sort auxquelles ont les promet. Or à ce travail déjà chronophage, s’ajoute une tâche plus coûteuse encore en temps et en énergie : le traitement des données une fois l’enquête ou l’expérimentation achevée. Et dans un contexte de pénurie de moyens, où les chercheurs et plus encore les enseignants-chercheurs, ont vu leur temps directement consacré à la recherche fondre sous le poids des tâches administratives ou le fonctionnement quotidien des universités, ce temps-là peut finalement tenir du vœu pieux.

Des données qui sont “comme nos enfants”

En outre, du fait de la compétition en vigueur dans le monde académique, partager ses résultats implique une prise de risque d’autant plus grande que le chercheur ou la chercheuse est précaire, jeune, ou à l’insertion bancale dans le champ académique - à moins d’avoir déjà largement publié ses résultats. Ainsi les rares travaux consacrés à la manière dont la communauté des chercheurs vit concrètement cette injonction à partager pointent-ils ce clair-obscur : les chercheurs interrogés sont presque aussi nombreux à se dire favorables au partage des données qu’à préciser qu’ils ne le font pas eux même de manière régulière. Cela s’explique notamment par les logiques de carrière dans un milieu professionnel où les débouchés et les perspectives de reconnaissance se rétrécissent : les données sont perçues comme le fruit d’un labeur riche en sacrifices, et finalement vécues comme un trésor à préserver. Ainsi, quand Violaine Rebouillat, une chercheuse en sciences de l’information et de la communication, a fait sa thèse sur le rapport des chercheurs à leurs données (soutenue en 2019) , elle s’est par exemple entendue dire par certains de ses enquêtés que leurs données étaient “comme [leurs enfants]” . La chercheuse a aussi pu mesurer que les données étaient souvent conservées, archivées, le temps que des publications voient le jour, mais pas au-delà : si des banques de données ont été créées au tournant des années 2010 pour permettre l’archivage à long terme, stocker les données reste coûteux en temps, en énergie, et suppose des compétences nouvelles.

Mais le stockage, comme le partage, posent aussi des questions juridiques, devant lesquelles les chercheurs peuvent s’estimer mal formés, pas outillés ou trop exposés : en sciences humaines et sociales par exemple, où Violaine Rebouillat a noté davantage de rétention de données bien que les entretiens, par exemple, soient considérés comme des donneés, archiver et partager suppose d’anonymiser. Or la relation entre l’enquêteur et son interlocuteur suppose une relation de confiance, une connaissance du terrain qui parfois fut difficile d’accès, et finalement un cadre bien particulier : quel que soit le sujet d’enquête, et a fortiori dans des matières plus sensibles comme par exemple le crime organisé ou le terrorisme, la personne peut très bien avoir décidé de consentir à nouer une relation avec un sociologue, et pas un autre.

Or l’un des objectifs de l’ouverture des données de recherche tient aussi dans la ré-employabilité des données. C’est-à-dire qu’on gage qu’un chercheur, ou l’un des quelque 70 000 doctorants qu’on compte en France aujourd’hui , pourra à son tour moissonner dans des enquêtes qui le devanceraient. Sur le site de partage de données ouvert par Sciences-Po, BeQuali , on retrouve ainsi la matière première de vingt enquêtes, comprenant aussi bien de très vieilles enquêtes bien connues, signées Michel Bozon et François Héran sur le choix du conjoint (cent entretiens, 477 fichiers, 771 documents et 56 cassettes audio) ou encore Danièle Kergoat sur le métier d’infirmière, qui datent des années 1980 et parfois courraient sur quinze ans, que des recherches plus récentes, comme celle de Florent Champy sur les architectes, en sociologie des professions. Cependant, certaines données échappent aux bases centralisées pour vivre leur vie, comme la thèse de Celia Bouchet sur le handicap . Après être devenue docteure en 2022, elle a largement disséminé son matériau, en rivalisant de pédagogie sur son jeu de données. En explorant son carnet de recherche en ligne , on peut voir que ses données et ses modèles de calcul sur le logiciel statistique R ont été téléchargés quelque 200 fois en moins d’un an.

Toutefois, parmi ceux qui demandent des gages, qui s’y plient mais doutent de la réemployabilité des enquêtes qualitatives comme Sophie Duchesne qui s’y était déjà frottée au Royaume-Uni, pionnier , ou qui à l’instar du sociologue Marwan Mohammed , redoutent que le partage des données ne soit l’occasion d’un surcroît de contrôle sur la recherche, nombreux sont celles et ceux qui rappellent que ce pari du ruissellement réinvente la roue. Dans le monde de la recherche, ce que l’on appelle la “cumulativité du savoir” est un principe cardinal de longue date : on ne refait pas tout, en permanence, pourvu qu’on cite ses collègues ou ses prédécesseurs. Mais là encore, cela suppose de savoir ce qu’on appelle donnée. Ainsi Julia Cagé et Thomas Piketty partagent-ils certes des tableaux édifiants, et des fichiers de calcul qui leur ont permis de croiser des éléments rarement rapprochés pour éclairer l’histoire électorale française. Mais l’essentiel des chiffres qu’ils croisent pré-existait, même s’il était malcommode de s’en emparer et que les numériser change tout. Pour la période de 1789 à 1799 par exemple, les deux économistes précisent même qu’ils n’ont pas refait de collecte dans les archives : ils utilisent les données départementales déjà rassemblées par un autre chercheur, Marvin Edelstein, qui avait écumé les centres d’archives et publié, en 2014, aux PUR, La Révolution française et la naissance de la démocratie électorale , déjà fourni de 30 pages de sources et 23 pages d’annexes, sans compter une dizaine d’articles dans les Annales historiques de la Révolution française.