Journalisme automatisé : le début d’une révolution dans l’information

08/01/2016

Dans un rapport de 48 pages, le Tow Center for Digital Journalism, dresse un état des lieux qui épingle notamment les possibilités, les potentiels et les limites de la production automatisée de contenus journalistiques.

Robot journalisteLa génération automatique de texte en langue naturelle (GAT) développée dans le contexte journalistique porte la double appellation de journalisme automatisé ou de robot journalisme. Les chercheurs en sciences de l’information la considèrent comme une des branches du journalisme computationnel. Un phénomène qui se développe aux Etats-Unis depuis la fin des années 2000, et qui a fait tache d’huile en Europe, en Russie et en Chine. Le chercheur allemand Andreas Graefe identifie pourtant encore peu d’acteurs sur le marché de la GAT : 11 sociétés, dont 2 aux Etats-Unis, 2 en France, 5 en Allemagne, 1 au Royaume Uni et 1 en Chine.

« Mais le domaine évolue rapidement », souligne-t-il, dans le rapport que vient de publier par le Tow Center for Digital Journalism (Columbia University, New York). Aucune de ces sociétés, indique l’auteur, ne se considère comme une organisation journalistique et leur nom n’a aucun lien avec le journalisme. Par ailleurs, les médias ne constituent pas l’essentiel de leur clientèle.

Intitulé « Guide to automated journalism », le rapport du Tow Center ne s’intéresse pas seulement aux entreprises de GAT actives sur le terrain journalistique. Il aborde aussi le contexte dans lequel la GAT se développe dans les médias d’informations aux Etats-Unis, aux usages dans les rédactions et aux aspects liés à la qualité des données et des processus. Dans un second temps, il définit les impacts avérés ou attendus sur les journalistes, les entreprises médiatiques, les audiences et sur la société en général.

L’auteur voir de nombreux avantage dans ces technologies : le volume de récits produits, la rapidité de génération, des coûts moins élevés, élargissement de la zone de couverture, réutilisation des donner pour raconter des histoires différentes ou dans d’autres langues, et un taux d’erreurs potentiellement plus faible que si l’article avait été produit par un journaliste humain. L’auteur y voit également deux autres avantages : celui de la personnalisation des contenus et celui du développement de contenus à la demande.

Un appui au journalisme

Porteuses de craintes pour les journalistes – pertes d’emploi, redéfinition de leur rôle et de leurs compétences –, elles sont considérées, dans les discours les plus optimistes, comme une chance pour la profession. Aussi, le journalisme automatisé permettrait-il aux journalistes de s’affranchir de tâches répétitives et chronophages (routines) en leur permettant de retrouver du temps pour le reportage et l’enquête, comme en témoigne l’expérience menée par l’agence Associated Press (AP) depuis juillet 2014, dans le cadre de l’automatisation de l’écriture de dépêches sur les rapports trimestriels d’entreprises. De même, la génération automatique de textes peut être envisagée comme un appui pour le journaliste, en lui fournissant des faits comme matériau de base à son travail.

Aux Etats-Unis, outre l’AP, plusieurs médias utilisent les technologies de la GAT pour automatiser leurs contenus : Forbes, The New York Times, The Los Angeles Times, et ProPublica. Mais, constate l’auteur, ce marché commence à peine à se développer. Andreas Graefe note aussi que certaines sociétés ne communiquent pas forcément à propos de leurs clients médias, en raison d’obligations contractuelles de confidentialité.

Qualité des données et d’écriture : deux grandes limites

Dans le même temps, les limites des systèmes de génération de textes sont encore nombreuses, observe-t-il : pauvre qualité d’écriture, suppose de disposer de données structurées de qualité, potentiellement porteur de biais tant du côté des données que de celui des algorithmes utilisés. De plus, ces systèmes « ne peuvent pas poser des questions, expliquer des phénomènes, ou établir des causalités ». Toutefois, malgré une faible transparence algorithmique, leurs procédures promettent davantage de précision et de fiabilité. Aussi, à l’AP, a-t-on constaté que le taux d’erreur était passé de 7% à 1% depuis qu’elle utilise Wordsmith, la solution logicielle développée par Automated Insights. Si les erreurs ne sont pas critiques dans leur grande majorité, l’auteur cite le cas du traitement du deuxième rapport trimestriel de Netflix, publié en juillet 2015, qui affirmait que l’entreprise n’avait pas rencontré ses attentes et que le prix de ses actions avait chuté… alors qu’en réalité, c’est l’inverse qui s’était produit.

Les rédactions doivent s’outiller

Les solutions actuelles ne relèvent pas toutes des technologies sophistiquées de la GAT, il peut également s’agir « d’un simple code qui extrait des chiffres d’une base de données, lesquels sont utilisés pour remplir des trous dans des templates prédéfinis » (technique utilisée dans le publipostage, ndlr). Si des solutions « maison » ont pu être développées, come au LA Times pour la génération d’alertes sur les tremblements de terre ou pour la couverture des homicides dans la région, force est de constater que « beaucoup de rédactions n’ont pas ces ressources et compétences pour développer des solutions maison ».

La nécessité de disposer de données structurées de qualité limite les domaines couverts (c’est pourquoi le sport, la finance et la météorologie donnent de meilleurs résultats). Elle implique également que les entreprises médiatiques implémentent des solutions de data management et des procédures de vérification (automatisées ou non).

Le rapport, rédigé en anglais, compte 48 pages et est nourri par 3 études de cas.  Il est disponible via Gitbook.

Mots-clés: | | | |