Petite histoire du journalisme computationnel

1952

Pré-histoire

4 novembre 1952

Un Remington Univac (Universal automatic computer) est utilisé par la chaîne TV CBS pour prédire – avec succès et contre toute attente – l’issue des élections présidentielles américaines, qui opposaient Dwight D. Eisenhower à Adlai Stevenson.

1960

Les sciences sociales

1967

Dans les années 1960, aux Etats-Unis, des journalistes d’investigation commencent à travailler avec des données publiques de manière scientifique. L’un d’entre eux, Philip Meyer, étudie les sciences sociales à Harvard. Il applique ces méthodes pour couvrir des émeutes particulièrement violentes qui éclatèrent à Détroit, le 23 juillet 1967. Il a l’idée de réaliser un sondage, pour le compte du Detroit Free Press. Il constate de la sorte qu’il n’y a pas de corrélation entre statut économique et participation aux émeutes, et que les personnes d’origine étrangère n’y avaient pas joué un rôle majeur. Un mainframe IBM 360 a été utilisé pour analyser les données de cette enquête.

Carte perforée

1968

Clarence Jones (The Miami Herald) embauche des étudiants en droit de l'Université de Miami pour enquêter sur la corruption dans le système judiciaire du comté de Dade. Des cartes d’ordinateur et un programme COBOL sont utilisés pour étudier 13.000 cartes perforées. Cette analyse constituerait le premier usage journalistique d'ordinateurs pour analyser des données publiques.

1970

Journalisme de précision

Les années 1970

Tout au long des années 1970, des journalistes vont expérimenter, aux Etats-Unis, ces méthodes pour la collecte et/ou le traitement d’informations. En 1972, David Burnham (The New York Times) utilise un ordinateur pour analyser des dossiers du département de la police de New York. En croisant ces données avec celles des statistiques sur la population, il conclut qu’une personne à la peau noire est nettement plus susceptible d’être assassinée qu’une personne à la peau blanche. En 1978, Rich Morin et Fred Tasker (The Miami Herald) utilisent des bases de données informatiques pour enquêter sur des distorsions dans l’évaluation du prix de l’immobilier dans le comté de Dade.

New York Times
Precision journalism, Philip Meyer

1973

Philip Meyer publie la première édition de « Precision journalism », dans laquelle il plaide pour l’intégration des outils informatiques et des statistiques dans les pratiques journalistiques. Cette forme de journalisme à vocation scientifique s’oppose, selon lui, au nouveau journalisme, qui privilégie une forme narrative empruntée à la fiction.

1980

Computer assisted reporting

Le début des années 1980

Les ordinateurs s’installent progressivement dans les rédactions. Ils y sont essentiellement utilisés pour du traitement de texte puis, avec le développement de logiciels de PAO, à de la mise en page. Certaines rédactions commencent également à s’appuyer sur des bases de données dans leur travail d’investigation. Au milieu des années 1980, à Providence, le journaliste Elliott Jaspin utilise des bandes magnétiques pour analyser des dossiers relatifs à des prêts hypothécaires. Cette analyse révèle que les taux d’intérêt les plus bas sont accordés aux enfants de hauts fonctionnaires.

IBM Lotus Symphony

La fin des années 1980

A la fin des années 1980, le tableur Symphony d'IBM est utilisé pour effectuer des statistiques à partir de données publiques (par exemple, le taux de mortalité infantile dans une région). Elliott Jaspin démontre que le langage SQL (Structured Query Language, qui permet d’interroger des bases de données relationnelles) peut être utilisé dans le cadre du travail journalistique.

1989

Création du National institute for computer reporting (NICAR), un programme de l’Investigative reporters and editors (IRE). Ses activités portent essentiellement sur la formation continuée des journalistes. La même année, Bill Dedman remporte un Prix Pulitzer pour une série d’articles dénonçant une politique raciste dans l’octroi de prêts par des institutions financières de la région d’Atlanta. Ces articles s’appuient sur un travail de collecte de données (chiffres du recensement et chiffres relatifs à l’octroi de prêts).

Nicar

1990

Les débuts du web

The New Precision Journalism

1991

Publication de la deuxième édition de The New Precision Journalism. Philip Meyer présente une version actualisée de son ouvrage. Il y défend un journalisme scientifique capable de collecter, stocker, réduire, analyser, communiquer de grandes quantités de données.

Les années 1990

Le prix des ordinateurs se démocratise et ceux-ci se répandent dans les rédactions. Avec l’avènement du web, de nouveaux usages se dessinent. Les outils de base du journalisme assisté par ordinateur sont des feuilles de calcul, des bases de données et des ressources en ligne. Il est également fait usage de logiciels statistiques et de cartographie. Mais jusqu’au début des années 2000, le modèle du journalisme assisté par ordinateur reste américain et le fait de quelques journalistes motivés.

Schéma d'une base de données

2000

Datajournalistes et hackers

PHP

Le début des années 2000

Depuis le milieu des années 2000, de nouveaux profils rejoignent les rédactions américaines : on parle de journalistes développeurs et de journalistes hackers, qui ont pour tâche de concevoir des nouvelles applications pour le web. Ce qui implique un éventail de compétences informatiques (pratique de Ruby, Python, PHP…) pour collecter, traiter et analyser des ensembles de données.

2003

September 12th est le premier newsgame publié par un média (The New York Times) sur internet. Ces « jeux d’information » sont nés dans la foulée des serious games et des jeux vidéo développés dans une perspective d’éducation ou de formation.

September 12
Chicago Crime

2005

Journaliste et développeur engagé dans les communautés du logiciel libre, Adrian Holovaty est considéré comme l’un des premiers datajournalistes. Il est en outre le créateur de Django, un framework conçu pour être adapté aux exigences de rapidité d’une rédaction. En 2005, il développe une carte du crime à Chicago. Il s’agit du premier mashup réalisé avec Google Maps.

2008

Un colloque sur le journalisme computationnel (computational journalism) est organisé par le Georgia Institute of Technology. Cette forme de journalisme consiste en l’application de processus de calcul dans le cadre de la collecte, du traitement et de la diffusion d’informations. Elle est enseignée depuis 2012 à la Columbia Journalism School. Le "computational journalism" s'appuie sur les outils informatiques et des sciences humaines et recouvre des pratiques hybrides.

Georgia Institute of Technology
Hacks/Hackers

2009

Le quotidien britannique The Guardian fait appel à ses lecteurs pour examiner en ligne 450.000 notes de frais de parlementaires britanniques. Une opération de crowdsourcing de grande envergure qui fera éclater quelques scandales et générera un trafic important sur le site du média.

La même année, naissance du réseau Hacks/Hackers aux Etats-Unis. Point de départ pour l’organisation de rencontres, de conférences et d’ateliers pratiques entre journalistes, graphistes, programmeurs et chercheurs, ce réseau s’est très rapidement internationalisé.

6 avril 2009

Lancement du site Owni.fr par la société 22 mars. Lauréat de deux Online Journalism Awards, Owni est aussi un projet de datajournalisme dans le contexte de l’open data. Le site, qui compte également à son actif un partenariat avec WikiLeaks, est placé en liquidation judiciaire le 21 décembre 2012.

Owni

2010

Des algos et des datas

Wikileaks

2010

Narrative Science commercialise des articles rédigés en combinant algorithmes et bases de données. Un des fondateurs de ce système d’« automated reporting » qui traitent essentiellement de données sportives et financères, Kristian Hammond, est directeur du Centre Medill/McCormick pour l’innovation dans la technologie, les médias et le journalisme de la Northwestern University (Evanston, Illinois). Narrative Science compte plusieurs dizaines de clients aux Etats-Unis, parmi lesquels le magazine économique Forbes. StatSheet, société concurrente, est créée en trois ans plus tôt. Elle changera de nom en 2011 pour devenir « Automated Insights ».

La même année, The Guardian est l’un des cinq partenaires presse (avec The New York Times, Le Monde, El Pais et Der Spiegel) de WikiLeaks dans l’analyse et le traitement de rapports sur la guerre d’Afghanistan. Ces masses de données donnent lieu à plusieurs visualisations et cartes interactives. A noter que les rédactions du New York Times et du Guardian ont constitué des équipes de journalistes, développeurs et designers.

22 avril 2010

Journaliste ? Programmeur ? Hacker ? Aron Pilhofer, qui contribua à la naissance de Hacks and Hackers et qui est alors employé au New York Times, s’interroge sur ces nouveaux profils hybrides dans un article intitulé Our identity in crisis.

Guide du datajournalisme

2011

Edition originale (en anglais) du Guide du datajournalisme, dont la traduction française publiée en 2013 est coordonnée par Nicolas Kayser-Bril, ex-Owni et fondateur de Journalism++. Le "Datajournalism handbook" est né lors d’un workshop de 48 heures, à Londres, réunissant les meilleurs praticiens du domaine.

25 décembre 2013

Le Washington Post lance l’application Truth Teller, plateforme de fact-checking qui vérifie en temps réel les discours des hommes et femmes politiques américains.

Truth Teller

17 mars 2014

Le programme informatique Quakebot, développé par le journaliste du LA Times Ken Schwencke, rédige un article au moment d’un tremblement de terre à Los Angeles, en étant connecté aux données du bureau géologique américain (US Geological Survey, UGS).