Raconter avec des données ou l’art de la critique aiguisée

31/07/2016

« The curious journalist’s guide to data » n’est pas un manuel de datajournalisme axé sur les pratiques techniques du domaine : c’est d’abord un outil qui interroge les fondements de ces pratiques, de la manière d’aborder les données quantifiées et de celle de les analyser. Jonathan Stray, qui souligne l’interdisciplinarité du domaine, y aborde les données avec ce regard critique qu’il faut poser à chaque jeu de données collecté. Le journaliste n’est pas un spécialiste, écrit Stray, mais il doit comprendre les méthodes de chacun des champs qu’il aborde, indique l’auteur.

Image: CanStockPhoto
Image: CanStockPhoto

La quantification, qui caractérise de nombreux jeux de données, ce n’est pas quelque chose qui existe par nature. Si les données consistent en un enregistrement, un document, un artefact, elles ne sont pas à l’abri d’erreurs. Les données quantifiées représentent le monde mais cette représentation est fragile. Les valeurs de données empiriques peuvent évoluer avec le temps et il en va de même avec l’interprétation de concepts. La quantification implique des choix complexes : comment quantifier des concepts abstraits tels que l’intelligence ou la qualité de vie ? Par ailleurs, rappelle-t-il, les sondages fournissent des données quantifiées souvent avec une marge d’erreur, et les échantillons ne sont pas toujours représentatifs. « En pratique, rien ne peut être mesuré de manière parfaite ».

« La quantification transforme le monde en données. L’analyse dit ce que les données signifient »

En elle-même, une donnée n’est pas signifiante. Elle ne fera sens qu’à partir du moment où elle est analysée ; ce qui implique un travail journalistique de contextualisation. « Toutes les analyses de données sont des interprétations », souligne Jonathan Stray. Ce travail d’analyse n’est pas exempt de subjectivité. De plus, en fonction du point de vue que l’on adopte, il existe plusieurs manières d’interpréter des données. Le fait de trouver une histoire dans un jeu de données consisterait ainsi en un acte de création.

Un jeu de données, de multiples explications

Il met également en garde contre les écueils de cette étape d’analyse : 1) des effets liés à la chance, au hasard ou au bruit peuvent obscurcir la relation entre deux variables ou donner une apparence de relation qui n’existe pas ; 2) la nature de la cause peut être sujette à de multiples explications et la première explication qui fait sens n’est pas toujours celle à retenir.

Le guide s’intéresse encore aux différents modèles statistiques avec un regard tout aussi critique – notamment sur les modèles prédictifs –, concluant que la plupart des gens ne sont pas habitués à interpréter des données et que les datavisualisation peuvent les y aider, à condition de pas ignorer les règles de perception visuelles : l’usage de plusieurs couleurs aide à différencier des catégories de données, mais elle est inefficace lorsqu’il s’agit de représenter des variables continues.

Consulter « The Curious Journalist’s Guide to Data »  (GitBook, e-pub/PDF)

Mots-clés: | |