A l'origine des graphiques : comment on a mis les statistiques en images

Publicité

A l'origine des graphiques : comment on a mis les statistiques en images

Par
 Entre les graphiques à barres et les camemberts, petite histoire de visualisation de données.
Entre les graphiques à barres et les camemberts, petite histoire de visualisation de données.
© Getty - Klaus Vedfelt

Courbe épidémique, graphique d'audience, carte du trafic routier… Nous sommes entourés de schémas qui nous permettent de saisir des données chiffrées parfois très complexes. Graphiques et camemberts, retour sur les pionniers de la visualisation des données.

"Il y a quelque chose de magique dans les graphiques. Le profil d'une courbe révèle en un clin d'œil tout une situation - l'historique d'une épidémie, une crise ou une ère de prospérité. Les courbes informent l'esprit, éveillent l'imagination, convainquent", écrivait Henry Hubbard, connu pour avoir créé la version moderne du tableau périodique de Mendeleïev. Tellement efficaces, ces graphiques qu'on en veut toujours plus ! Au risque parfois de s'emmêler les pinceaux dans l'interprétation des courbes statistiques, comme ce fut récemment le cas dans une émission de télévision : pointant les pics et les creux, le journaliste soutient que la tendance mondiale du nombre de cas de Covid baisse, avant d'être repris l'épidémiologiste Catherine Hill pour avoir omis d'analyser les moyennes glissantes au cours d'une semaine.

Dans un contexte de génération massive de données, la data visualisation est devenue un mode d'accès privilégié à l'information. Elle consiste à transformer les motifs que l'on repère dans de vastes ensembles de données statistiques en des projections graphiques qui nous permettent de les appréhender plus facilement et de les communiquer. Si nous disposons aujourd'hui de nombreux outils informatiques pour en créer, ces formes de représentation graphique - camemberts, diagrammes linéaires ou à barres… - sont le fruit d'une longue histoire. Comment sont nés ces schémas qui nous permettent de saisir, en un coup d'œil, des calculs pourtant parfois très compliqués ?

Publicité

Des cartes géographiques aux premiers graphiques

Description du mouvement des planètes au cours du temps, publié dans un manuscrit du xe siècle de Macrobe.
Description du mouvement des planètes au cours du temps, publié dans un manuscrit du xe siècle de Macrobe.
- Wikimedia Commons

L'idée de rendre commensurable de grandes données en les schématisant est loin d'être nouvelle. Après tout, c'est le principe de la cartographie, dont l'histoire est très ancienne. Mais l'on reste dans le cadre d'une description géographique. L'un des premiers graphiques temporels connus date du Xe siècle. Il s'agit de la "Description du mouvement des planètes au cours du temps" de Macrobe dans ses illustrations d'un manuscrit du Commentaire au Songe de Scipion de Cicéron (image ci-dessus). Elle donne à voir différents niveaux d'élévation des astres dans le ciel au cours de la journée. On a donc, sur le même plan, des informations à la fois spatiales et temporelles. 

Jusqu'au XVIIIe siècle cependant, ces représentations restent des projections directes de ce qui est observé, rapporté à une échelle. Il manque encore à ces schémas un peu d'abstraction. C'est entre 1780 et 1850 que naît à proprement parler la visualisation de données. Considéré comme l'auteur de la première "data viz" moderne, le mathématicien français Charles de Fourcroy réalise en 1782 une "table poléométrique", publiée dans l'Essai d'une table poléométrique, ou amusement d'un amateur de plans sur les grandeurs de quelques villes de M. Dupain-Triel, géographe du Roi. Dans sa Sémiologie graphique : les diagrammes, les réseaux, les cartes (1967), ouvrage de référence dans le domaine de la représentation des données, le cartographe Jacques Bertin décrit l'ingénieux système de la carte de Fourcroy

Chaque ville est représentée par un carré dont la superficie est proportionnelle à la zone géographique occupée par la ville (et pour les plus petites villes, par un demi-carré seulement, divisé par la ligne diagonale). Une fois superposés, les carrés sont classés automatiquement. Il en résulte des regroupements visuels, qui amènent l'auteur à proposer une classification urbaine. Jacques Bertin

On assiste, à partir du milieu du XVIIIe siècle, à un essor créatif en termes de visualisation graphiques des données chiffrées à destination de hauts dirigeants comme du grand public. Parmi ces amateurs de graphiques, trois figures pionnières posent les bases des diagrammes que nous utilisons encore aujourd'hui : William Playfair qui voulait "parler à l'œil", Charles Joseph Minard qui cherchait à "calculer par l'œil", et Florence Nightingale qui voulait faire changer le regard grâce aux graphiques. Avec eux, on retrouve les missions de la data visualisation moderne : informer, comprendre et communiquer. 

La Méthode scientifique
58 min

William Playfair, l'espion écossais qui inventa le camembert

Diagrammes circulaires publiés par William Playfair dans The Statistical Breviary (1801).
Diagrammes circulaires publiés par William Playfair dans The Statistical Breviary (1801).
- Wikimedia Commons

Ingénieur, espion, spéculateur, journaliste, arnaqueur… L'écossais William Playfair (1758-1823) est surtout connu pour être un pionnier dans l'histoire des graphiques. S'il a le goût des affaires et une passion secrète pour le dessin, Playfair a aussi parfois du mal à faire passer ses idées. Pour mieux se faire comprendre, il décide de schématiser ses arguments économiques. Dans son Atlas commercial et politique (1786), pas de cartes, mais 43 "séries chronologiques" dont le premier "diagramme à barre", représentant les importations et exportations de l'Ecosse en 1780. 

A l'époque, les trouvailles graphiques de l'ingénieur intéressent plus en France qu'en Grande-Bretagne. L'ingénieur s'installe alors à Paris en 1787 et prend même part à la prise de la Bastille. Mais, étant royaliste et anglais, il n'est pas très bien accueilli... Lorsqu'il retrouve son berceau, Playfair fomente un plan pour arnaquer les révolutionnaires français : les inonder de faux assignats et ainsi paralyser l'économie du pays. Lui-même endetté, il se retrouve quelques années en prison, avant de s'essayer à nouveau en France sous la Restauration des Bourbons, sous une nouvelle casquette. Playfair est cette fois journaliste ! Et déjà bientôt poursuivi pour diffamation… Il reprend son papier millimétré et crée alors sa pièce de résistance : le camembert. Ce graphique circulaire publié en 1801 dans son Bréviaire statistique, illustre les propriétés foncières de l'Empire turc, les tailles des trois parts du cercle correspondant à la superficie des terres. 

D'après le professeur Ian Spencer, il s'agit du "premier diagramme à secteurs à afficher des proportions empiriques et à différencier les composants par couleur". Peut-être le plus connu des graphiques - mais aussi le moins apprécié par les statisticiens rigoureux - le camembert et ses parts plus ou moins généreuses devient une tarte, une galette ou une pizza, selon que vous soyez Anglais, Chinois ou Brésilien.

Les politiques et hommes d'affaires ne peuvent prêter attention qu'aux grandes lignes… Nous espérons qu'à l'aide de ces graphiques, de telles informations seront transmises sans la fatigue et la peine d'en étudier les détails. William Playfair

Quand il n'était pas en prison ou occupé à escroquer ses pairs, William Playfair a ainsi inventé trois types de diagrammes toujours utilisés aujourd'hui : la série chronologique, l'histogramme ou diagramme à barres (bar chart), le diagramme circulaire (pie chart) et la courbe graphique (line chart). Bien plus commodes à lire et esthétiques que les tableaux verbeux utilisés jusqu'alors pour communiquer ce genre de données. "A mesure que les connaissances humaines se développent et que les échanges se multiplient, il devient de plus en plus nécessaire de synthétiser et faciliter les modes de transmission de l'information", écrivait-il alors, presque visionnaire. 

Charles Minard, l'ingénieur qui voulait remplacer l'historien par un graphique

Carte figurative des pertes successives en hommes de l'armée française dans la campagne de Russie 1812-1813, Charles Minard, 1869
Carte figurative des pertes successives en hommes de l'armée française dans la campagne de Russie 1812-1813, Charles Minard, 1869
- Wikimedia Commons

Moins aventureux que William Playfair, le français Charles-Joseph Minard (1781-1870) n'en est pas moins une figure importante dans l'histoire de la visualisation des données. Ingénieur formé à Polytechnique et à l'Ecole nationale des Ponts et Chaussées, Minard va travailler sur la construction du réseau ferroviaire. La technologie est encore récente : comment planifier le trajet exact des voies ? En toute logique, Minard estime que les chemins de fer doivent être installés près des axes routiers et fluviaux les plus empruntés. Pour le prouver, il mène une étude statistique. Ces données lui permettent de publier des graphiques très précis du trafic par région à l'époque. Les diagrammes à barres de Minard permettent de visualiser, pour chaque axe donné, la distance parcourue, le taux de passagers et le volume de marchandises transportés, avec un code couleur selon le type de biens. 

"La comparaison de ces surfaces donne promptement, par l’image, ce que les nombres écrits ne donnent que lentement par multiplication arithmétique", écrit-il alors dans son ouvrage Des tableaux graphiques et des cartes figuratives (1862). Quelques années plus tard, Charles-Joseph Minard trouve un système de représentation proportionnelle qui synthétise le même type d'informations, mais de façon beaucoup plus figurative : "En 1845, et en appliquant différemment le même système, j’étais arrivé aux cartes figuratives, dans lesquelles les rectangles des tableaux graphiques sont remplacés par des zones teintées qui suivent le plan des voies de transport, et dont les largeurs sont proportionnelles à la circulation", explique l'ingénieur.

Si ses cartes ont été en leur temps très utiles à l'administration française pour gérer les nouvelles infrastructures de transports, c'est  à une carte historique que Charles-Joseph doit sa notoriété. En 1869, il publie la "Carte figurative des pertes successives en hommes de l'armée française dans la campagne de Russie 1812-1813" (image ci-dessus). Sur ce schéma, Minard intègre avec clarté six niveaux d'informations : l'itinéraire de l'armée (en beige, l'offensive vers la Russie et en noir, la retraite) ; la taille de l'armée et son évolution au fil du trajet et du temps, visible grâce à la largeur des flux noirs et beiges ; les points de ralliement et séparation des unités ; les pertes humaines (très importantes lors de la traversée de la Bérézina) ; les conditions météorologiques. 

En une image, c'est l'histoire de la  désastreuse tentative de conquête par les armées de Napoléon qu'on lit : les 470 000 vaillants Français revenus 10 000 et les terribles chutes de température à - 30 degrés ou le méchant "Général hiver" qui entrave l'invasion. Pour son contemporain, le scientifique Etienne-Jules Marey, la "brutale éloquence" de ce graphique défiait tout bonnement "la plume de l'historien".

Florence Nightingale, l'infirmière qui soignait avec des diagrammes 

 "Diagramme des causes de mortalité au sein de l'armée en Orient" de Florence Nightingale, publié en 1857.
"Diagramme des causes de mortalité au sein de l'armée en Orient" de Florence Nightingale, publié en 1857.
- Wikimedia Commons

Infirmière britannique, Florence Nightingale (1820-1910) est connue pour avoir fait évoluer la vision de ce métier longtemps associée aux missions de charité des religieuses. Mais elle était aussi mathématicienne adepte de statistiques et de probabilités. Pendant la guerre de Crimée (1853-1856), Florence Nightingale est engagée comme infirmière auprès des troupes britanniques. Elle veut comprendre pourquoi le taux de mortalité y est si élevé et collecte alors des données sur les causes de décès - blessures, maladies infectieuses ou autres. L'infirmière entend montrer que la plupart des soldats ne meurent pas au combat, mais à cause de maladies qui auraient pu être évitées si les conditions sanitaires de l'hôpital militaire étaient meilleures.

Persuadée que les tableaux de chiffres et les rapports ne seraient pas aussi parlants qu'une image, Nightingale publie son "Diagramme sur les causes de la mortalité dans l'armée de l'est" (ci-dessus), un type de graphique qu'on appellera un "diagramme polaire". Il permet de comparer sur le même plan plusieurs secteurs de valeurs différentes sur un temps donné, dont la longueur plus que la largeur varie. Sur le graphique de Nightingale, chaque secteur indique le nombre de morts pendant un mois de guerre, d'avril 1855 à mars 1856, codé par couleur pour indiquer les causes de décès : en bleu, ceux dus à des maladies, en rouge, ceux liés aux blessure de guerre, et en noir, les causes non définies. 

Les travaux de Florence Nightingale incitent les autorités britanniques à mettre en place une commission sanitaire afin d'améliorer les conditions de soin. Le taux de mortalité baisse alors significativement. Elle fut pionnière dans l'utilisation des statistiques dans le domaine des politiques publiques en matière de santé, ce qui lui valut notamment d'être la première femme élue membre de la Royal Statistical Society.

Du bon usage des graphiques 

A droite : La carte nombre de morts dû au choléra à Londres en 1854 de John Snow. A gauche : "A Month of Coronavirus in New York City: See the Hardest-Hit Areas", The New York Times, 2020.
A droite : La carte nombre de morts dû au choléra à Londres en 1854 de John Snow. A gauche : "A Month of Coronavirus in New York City: See the Hardest-Hit Areas", The New York Times, 2020.
- Wikimedia Commons / The New York Times

Cet "âge d'or du graphique" comme le nomme Michael Friendly, spécialiste de l'histoire de la data visualisation, résonne encore avec le nôtre, notamment en ce qui concerne la production de graphiques statistiques pour informer le grand public ou au service des pouvoirs publics. Par exemple, on peut voir des similitudes entre la célèbre carte représentant le nombre de morts dû au choléra à Londres en 1854 du médecin John Snow (qui lui a permis de mettre en évidence le caractère contagieux de l'épidémie puisque la mortalité se concentrait autour des zones d'approvisionnement en eau), et la carte publiée par le New York Times en avril 2020, représentant les quartiers de New York les plus touchés par le Covid-19. 

La généralisation du recours aux graphiques fait émerger des discussions sur leur normalisation. On se réunit en congrès, à l'Institut international de statistique, pour élaborer une standardisation des méthodes graphiques en matière de cartes et diagrammes : quelle méthode de discrétisation, nombre de valeurs ou mode de coloriage ? Cet effort passera surtout par la publication d'ouvrages qui deviendront des classiques en la matière. C'est le cas de l'essai de l'ingénieur américain Willard Cope Brinton intitulé Méthodes graphiques pour présenter des faits (1914). Il théorise la visualisation des données, en passant par des études de cas : tel graphique fonctionne, tel autre est biaisé. 

Les dirigeants du futur devront agir sur la base d'analyses de faits, collectés de manière continue et instantanément disponibles (...). Il est dangereux de fournir trop d'informations à des dirigeants qui ont une capacité cérébrale limitée. Willard Cope Brinton

Moins dogmatiques, d'autres travaux vont explorer la question des chartes graphiques de manière plus créative. Citons à nouveau la Sémiologie graphique. Les diagrammes, les réseaux, les cartes (1967) de Jacques Bertin, ouvrage fondateur d'un nouveau champ de connaissance : la "sémiologie graphique", soit l'étude de la construction d'un système de signes qui permettent de traduire graphiquement une information. Ou encore l'ouvrage du grand statisticien américain John Tukey qui, dans Exploratory data analysis (1977) s'intéresse à de nouveaux outils comme les boîtes à moustaches (box plots), les graphiques en toile d'araignée (radar chart) ou encore les graphiques à bulles (bubble charts). 

Au-delà de la formalisation des graphiques se pose la question du défi social. Pour ces premiers data visualistes, il ne s'agit pas seulement de s'adresser aux spécialistes, mais aux citoyens afin qu'ils puissent comprendre les raisonnements statistiques (et ne pas se faire manipuler par des visualisations séduisantes). "La réflexion statistique sera un jour aussi nécessaire pour une citoyenneté efficace que la capacité de lire et d'écrire", voilà l'idée résumée dans une citation attribuée à H.G. Wells. Elle résonne avec des préoccupations actuelles : plus complexe qu'une simple illustration, il faut avoir certaines clés pour bien lire un graphique. Alors que se déploient les infographies dans les médias, se substituant parfois au texte, les réflexions sur l'apprentissage de la lecture des graphiques sont d'autant plus vives.