Les algorithmes dans l’information

Laurence Dierickx (mise à jour : 22/12/2018)

25 décembre 2019

Des processus automatisés alertent, détectent les « breaking news », vérifient les infos, rédigent des actus, priorisent ou encore organisent et hiérarchisent les contenus éditoriaux. Avec quelle transparence ?

L’automatisation connaît un développement constant depuis le début des années 2010 dans le champ journalistique. De la collecte à la publication, en passant par la sélection, la rédaction et la hiérarchisation, elle se réfèrent à des processus qui couvrent l’ensemble de la chaîne de production éditoriale. Les enjeux ne sont pas seulement ceux d’une profession : ils sont aussi ceux du public auquel s’adresse l’information.

Jamais les techniques n’apparaissent véritablement sous la forme de moyens, et ce trait apparaît encore plus clairement, si j’ose dire, lorsqu’on les traite comme des boîtes noires dont on n’aurait besoin de connaître que les entrées et les sorties. Plus les systèmes techniques prolifèrent, plus ils deviennent opaques.

Bruno Latour (1992)

Un algorithme est une procédure codée, destinée à transformer les données en fonction de calculs spécifiés. Cette procédure se rapporte à un problème spécifique : à chacune de ses étapes, ce problème doit être résolu, et cela suppose qu’il y ait un état initial et un état fini (Gillespie, [1]). Une définition plus courte de l’algorithme est plus largement répandue est celle d’une suite finie d’instructions destinées à résoudre un problème (Steiner, [2]). L’algorithme, métaphore de la recette de cuisine [3] ou du programme d’une machine à laver, trouve ses origines dans l’Antiquité. L’algorithme d’Euclide (-300 AJC), l’un des premiers algorithmes connus (et encore utilisé de nos jours), permet de déterminer le plus grand commun diviseur de deux entiers naturels. Le terme « algorithme » provient du nom latinisé d’un mathématicien perse (-9 AJC), Ali-Khwârizmi.

Quantité d’algorithmes ont essaimé depuis, mais leurs premières formalisations remontent à 1936, avec la machine d’Alan Turing. En 1943, Kleene développe les théories algorithmiques, décrivant des procédures se succédant en prenant un chemin différent selon que la réponse à la question posée soit « oui » ou « non ». Pour Gillespie, un ordinateur doit se concevoir comme une machine algorithmique qui héberge et lit des données. La mise en œuvre d’un algorithme implique nécessairement un langage de programmation. Si les promesses algorithmiques reposent sur leur crédibilité, leur fiabilité et leur neutralité, il reste illusoire de croire que le code s’écrit en dehors de toute influence humaine. « On a toujours besoin d’une intervention humaine. La culture algorithmique a besoin d’humains. L’automatisation ne nous transforme pas en robots : elle rend les choses plus faciles », indique Gillespie. Avant d’être technique, le code est donc social.

C’est ce que soulignent les « software studies », qui proposent un cadre théorique (et critique) pour l’étude des logiciels. Dans ses travaux, Lev Manovich (« Le langage des nouveaux médias », « Software takes commands ») [5] [6] a mis en avant les caractéristiques intrinsèques des nouveaux médias : représentation numérique, modularité, automatisation, variabilité et transcodage culturel. Les programmes informatiques créent de nouvelles formes culturelles, écrit-il, tout en modifiant des formes existantes, à l’image d’un DJ dans son rôle de « remixeur ». Aussi, analyse MacKenzie [7], le logiciel n’est pas seulement un processus, il s’agit d’un objet culturel et social. L’algorithme, cadré par le temps et l’espace de la computation, est une procédure formelle qui n’est pas neutre car elle est le fruit d’une l’activité productive : « Il – l’algorithme – transporte l’espace social dans les réseaux logiciels. »

Par ailleurs, Lawrence Lessig [4] postule une gouvernance du code dans tous les aspects de la vie humaine, une gouvernance opaque dont il faut avoir conscience. « Le code régule. Il implémente – ou non – un certain nombre de valeurs. Il garantit certaines libertés, ou les empêche. Il protège la vie privée, ou promeut la surveillance. Des gens décident comment le code va se comporter. Des gens l’écrivent », souligne-t-il.

Une apparente neutralité

A la question de la qualité du code s’ajoute celle des données dont il se nourrit. Cet aspect est crucial dès lors que les données sont susceptibles d’impacter le monde réel : des données empiriques ne sont pas figées une fois pour toutes dans le temps car elles sont le résultat de mesures et d’observations du monde à un instant T [8]. Les données sont-elles à jour, fiables, complètes, contrôlées en amont ? La source est-elle bien identifiée ? Ces questions ne sont pas triviales et se trouvent, elles aussi, à la source de la question fondamentale de la transparence [9]. Les enjeux sont ceux de la représentation sociale d’un monde en mouvement, de la manière dont les opinions se forgent et dont les actions se motivent : la caisse de résonance médiatique n’est pas exempte de conséquences.

L’apparente neutralité du code, qui va toujours résulter de choix humains, serait à mettre en parallèle avec ce fameux principe d’objectivité qui sous-tend l’activité journalistique. Nombre de travaux ont démontré qu’elle n’existe jamais totalement car, elle aussi, procède d’une succession de choix et véhicule les référents culturels et sociaux des journalistes. « Il est impossible de constater des faits sans les interpréter », relève Cornu [10]. « L’écriture de presse est travaillée par les tensions entre de la subjectivisation et de l’objectivation », notent Rabatel et Vileno [11]. Cet aspect est d’autant plus crucial qu’aujourd’hui, l’activité journalistique, qui n’est pas une activité commerciale comme les autres [12], n’est plus l’apanage d’une profession organisée : de nouveaux acteurs sont entrés dans la danse de l’information [13]. « Le journalisme prône l’éthique et la transparence », souligne Diakopoulos, « alors que les algorithmes sont souvent opaques » [9]. Mais il reconnaît que même si un code source était systématiquement diffusé, encore s’agirait-il de le comprendre, en raison du savoir-faire technique que cela nécessite. Si le code est opaque, c’est aussi parce qu’il donne de la valeur à son propriétaire. De plus, préviennent McCosker et Milne [14], le code est fragile et les logiciels ne sont pas à l’abri d’erreurs, de bugs ou de failles.

Références

[1] Gillespie Tartleton, Pablo J. Boczkowski, et Kirstn A. Foot. “Media Technologies: essays on communication, materiality, and society”. Inside Technology. MIT Press, 2014.
[2] Steiner Christopher. “Automate this: how algorithms took over our markets, our jobs, and the world”. Penguin Group US, 2012.
[3] Fuller, Matthew. “Software studies: a lexicon”. Mit Press, 2008.
[4] Lessig Lawrence. “Code Version 2.0”, Basic Books, 2006.
[5] Manovich Lev. “Le langage des nouveaux médias”. Les Presses du réel, 2010.
[6] Manovich Lev. “Software takes command”. Bloomsbury Academic, 2013.
[7] MacKenzie Adrian.“Cutting code. Software and sociality”, Digital Formations, 2006.
[8] Boydens Isabelle. “L’océan des données et le canal des normes”. Les Annales des Mines, (67) :22–29, juillet 2012.
[9] Diakopoulos Nicholas. “Algorithmic accountability”. Digital Journalism,2(4):1–18, 2014.

[10] Cornu Daniel. “Journalisme et vérité”. Labor et Fides, 2009.
[11] Rabatel Alain et Chauvin-Vileno Andrée. “La question de la responsabilité dans l’écriture de presse”, Semen, 22, 2006.
[12] Neveu Eric. “Sociologie du journalisme”. Collection Repères, La découverte, 2013.
[13] Mercier Arnaud et Pignard-Cheynel Nathalie. “Mutations du journalisme à l’ère du numérique : un état des travaux”. Revue française des sciences de l’information et de la communication, (5), juillet 2014.
[14] McCosker Anthony et Milne Esther. “Coding labour”. Cultural Studies Review 20.1:4, 2014.

Les algorithmes utilisés dans les pratiques de collecte de l’information permettent aux journalistes d’être alertés en temps réel dès que se produit un événement, ou de « moissonner » de grandes quantités de données. D’autres algorithmes permettent de vérifier la fiabilité d’une information, un fact-checking essentiel pour rencontrer le devoir déontologique de vérité du journaliste [1]. Les enjeux de ces algorithmes résideraient davantage dans leur capacité à exécuter les tâches qui leur sont assignées sans bugs et sans biais. Ils sont susceptibles d’assister le professionnel de l’info dès les premières étapes de son travail, en lui offrant des outils qui lui promettent un gain de temps précieux.

L’algorithme conçu par le journaliste américain Ken Schwencke (LA Times), répondant au nom de Quakebot, participe à cette logique. Ce système automatisé de production d’informations est d’abord d’un outil d’alerte, tant pour le journaliste que pour son public. Le phrasé de l’article/alerte est simple. Il s’attache à donner toutes les informations de base relatives à une secousse tellurique dans un style rédactionnel standardisé. Le système n’est pas infaillible : en juin 2017, Quakebot lançait l’alerte pour un tremblement de terre qui s’était bel et bien produit… mais en 1925.

L’application Wikipedia Live Monitor surveille, en temps réel, chaque nouvelle modiﬁcation d’article sur la plateforme collaborative Wikipedia [2], dans différents langages et sur les mêmes sujets. Elle les compare ensuite avec les activités de plusieurs réseaux sociaux pour détecter des ”breaking news”.

La collecte d’informations peut également s’appuyer sur des techniques de scraping, utile lorsque l’on travaille en mode datajournalisme. Le web scraping (appelé aussi data scraping ou web harvesting) consiste à extraire les données d’un site web via des techniques de programmation (PHP, Python…) ou, plus accessibles pour les journalistes, via des logiciels prêt à l’emploi comme Outwit Hub. Ces techniques, qui relèvent du data mining, sont liées à l’indexation du web par les robots des moteurs de recherche [4].

Dans le domaine du fact-checking, la start-up française Trooclick, lancée à Lyon en 2012, propose une application de vérification et de signalement d’erreurs sur des articles de la presse économique et financière, mais en langue anglaise uniquement [5]. En 2013, le Washington Post lançait Truth Teller, dont la tâche est de détecter les incohérences des discours politiques. Il s’agit là d’un fact-checking instantané où le langage naturel fait ofﬁce de donnée [5]. Lancée en 2015, la plateforme Claimbuster, développée dans le cadre d’un doctorat à l’Université du Texas-Arlington, propose un fact-checking instantané (live) des discours politiques. En France, un projet de développement de logiciel de fact-checking automatisé a démarré en 2015 : son nom, ContentCheck. La liste n’est pas exhaustive mais elle témoigne des possibilités des technologies au service de la vérification des faits, un exercice d’autant plus important à l’heure ou rumeurs et fake-news alimentent régulièrement les réseaux sociaux.

Il est n’est pas difficile d’imaginer, à l’avenir, des systèmes de plus en plus performants et innovants avec, en filigrane, cette limite posée par la question de la qualité des données et des sources de données fiables et disponibles : une information de qualité a besoin de données de qualité. L’exploitation d’archives numérisées des journaux – et pourquoi pas, leur mise en commun – pourrait être une piste à explorer pour répondre de manière pertinente à la problématique des enrichissements journalistiques via des sources extérieures fiables. Par exemple, Thomson Reuters exploite ses archives via le web service Open Calais [6], un outil sémantique qui extrait des faits de l’information en utilisant, entre autres, des technologies de traitement automatique de la langue et de machine learning. Un autre développement récent consiste à partir non plus des données mais de l’information, en vue de constituer des bases de données pour permettre aux utilisateurs d’explorer leurs contenus à travers de nouveaux récits ou des visualisations. Cela permet de ne pas livrer une histoire unique, tout en utilisant les mises à jour de l’information et ses mises à jour précédentes. C’est ce que l’on appelle le journalisme structuré.

Références

[1] Cornu Daniel. “Journalisme et vérité”. Labor et Fides, 2009.
[2] Steiner Thomas, van Hooland Seth, et Summers Ed. “Mj no more : using concurrent Wikipedia edit spikes with social network plausibility checks for breaking news detection”. In Proceedings of the 22nd international conference on World Wide Web companion, pages 791–794. International World Wide Web Conferences Steering Committee, 2013.
[3] Bradshaw Paul. “Scraping for journalists“. Online Journalism Blog, LeanPub, 2013.
[4] “Robot-journalisme et production automatisée de contenus : bilan des premières initiatives et perspectives pour les médias”. Satellinet, 224, décembre 2014.
[5] Gray Jonathan, Chambers Lucy, et Bounegru Liliana. “The data journalism handbook”. O’Reilly Media, 2012.
[6] Anderson Christopher W. “Understanding the role played by algorithms and computational practices in the collection, evaluation, presentation, and dissemination of journalistic evidence“. Draft paper, Berlin Symposium on Internet and Society, 2011.

Les services d’information automatisés ou semi-automatisés sont progressivement devenus les principales voies d’accès aux actualités publiées en ligne [1]. Ils contribuent, souligne Goyette, à l’automatisation des mécanismes de circulation de l’information en ligne, organisent la sélection, la hiérarchisation et la distribution de l’information. Plusieurs critères peuvent être enfermés dans les algorithmes, indique Cardon [2] : le mérite, l’audience, la communauté, la vitesse.

La sélection automatisée de contenus répondrait davantage à des logiques consuméristes et mercantiles de l’information, par le biais de mécanismes de priorisation privilégiant tel contenu plutôt qu’un autre. On se trouve loin des traditionnels critères de sélection de l’information tels qu’on les apprend dans les écoles de journalisme : critères de nouveauté et/ou d’originalité, critère de proximité (géographique, sociale, culturelle), critère de notoriété, critère d’impact ou d’intérêt public, critère d’importance ou d’ampleur des faits/de l’événement, critère du mort-kilomètre,… [3] [4] L’information n’est donc pas ici conçue dans son acceptation de « bien public ». Ses fonctions sociales et démocratiques sont reléguées à l’arrière-plan au profit de la loi du clic et des contenus susceptibles d’attirer un maximum de trafic.

Des modèles rentables

Illustration de cette tendance, le sondage des réseaux sociaux pour y déterminer les buzz du moment. L’entreprise américaine Demand Media fournit de l’information à la demande en fonction de mots-clés introduits par les internautes. Ce contenu est fourni pour « la vraie vie », indique la plateforme qui « connecte les marques aux gens et les gens aux marques ».

Le site Melty.fr propose à un jeune public un contenu piloté par un algorithme, baptisé Shape, qui choisit les sujets en fonction de mots-clés utilisés en ligne. Si ce sont des rédacteurs qui produisent le contenu, le logiciel détermine le moment de leur publication [5]. La formule, qui se définit comme « de l’information positive de divertissement » séduit avec 26 millions de visiteurs comptabilisés en avril 2014 pour les 28 sites du groupe, dont la moitié en français (source : Wikipédia). Les infos du site, tout comme celles de Buzzfeed, sont intégrées dans l’agrégateur Google News.

BuzzFeed, disponible en anglais et en français, propose également des contenus en fonction des tendances relevées dans la sémantique des conversations des internautes sur les réseaux sociaux. Elle a attiré un investissement de 200 millions de dollars l’été dernier. Ces sociétés puisent leurs recettes dans le « brand content » et le « native advertising ». Cette logique se trouve à un jet de pierre du modèle des fermes à contenus, dont l’objectif est de proposer un maximum de contenus sans nécessaire valeur ajoutée, produits par des pigistes chichement rémunérés, pour générer du trafic et, partant, des recettes publicitaires [6].

En Indonésie, Beritagar.id utilise des algorithmes pour collecter, résumer et analyser des contenus en ligne, une sorte de super agrégateur qui sert de base au travail de réécriture des journalistes. Pour ce faire, le site s’appuie sur des technologies du machine learning (apprentissage automatique par la machine) et du traitement automatique de la langue.

Trois types d’algorithmes

Diakopoulos relève que trois types d’algorithmes sont essentiellement à l’œuvre dans les contenus journalistiques en ligne : la priorisation (un contenu qui attire l’attention), l’association (qui marque la relation entre les entités) et les filtres (inclusion ou exclusion de certaines informations) [7]. L’utilisation de filtres d’inclusion ou d’exclusion, pour déterminer et organiser des contenus adaptés aux utilisateurs, seraient les plus dangereux, selon le chercheur, en raison du risque de façonner un univers unique où les lecteurs ne pourront plus prendre de décisions sur ce qu’ils choisissent de lire.

algorithme C’est d’ailleurs la logique adoptée par les réseaux sociaux qui ne proposent pas autre chose que les infos susceptibles d’intéresser l’utilisateur en fonction de son activité. Rien d’autre n’est dit à propos des processus de calcul sous-tendant cette logique. La métaphore de la boîte noire est régulièrement utilisée pour désigner l’opacité de ces systèmes, derrière lesquels se trouvent d’importants enjeux économiques. La gratuité de leur accès est une illusion : en économie, rappelle Perri [8], rien n’est jamais gratuit.

L’application de procédures automatiques de sélection et de priorisation peut, a contrario, devenir un outil permettant de revaloriser du contenu existant. C’est ce qu’a expérimenté, en 2014, The Guardian qui a laissé le soin à un algorithme de déterminer ses « meilleurs » articles, en fonction de mesures d’audiences sur les réseaux sociaux, pour nourrir une édition imprimée.

Trois ans plus tôt, le quotidien britannique avait lancéTagBot, une application répondant aux questions des internautes sur Twitter. TagBot était censé être plus efficace que le moteur de recherche du site, en proposant les articles et liens les plus pertinents. Toutefois, les résultats ne furent pas toujours ceux escomptés : les mots-clés utilisés pour les requêtes n’étant pas forcément ceux utilisés pour la classification des infos du journal. L’expérience n’a pas été prolongée,

Références

[1] Goyette Marc-Olivier. “Le retraitement automatique de l’information d’actualité en ligne : analyse des mécanismes socio-techniques mis en place par les infomédiaires”. Communication, 29(2), 2012.
[2] Cardon Dominique. “La démocratie internet”. La république des idées, Seuil, 2010.
[3] Schulte Henry H., et Dufresne Marcel P. “Pratique du journalisme”. Nouveaux Horizons, 1999.
[4] Grevisse Benoît. “Écritures journalistiques: stratégies rédactionnelles, multimédia et journalisme narratif”. De Boeck Supérieur, 2008.
[5] Antheaume Alice. Journalistes au pays des robots. W.I.P.-Slate.fr, octobre 2011.
[6] Le Champion Rémi (sous la direction de). “Journalisme 2.0 : nouvelles formes journalistiques, nouvelles compétences”. La Documentation française, 2012.
[7] Diakopoulos Nicholas. “Algorithmic accountability”. Digital Journalism, 2(4):1–18, 2014.
[8] Perri Pascal. “Google, un ami qui ne vous veut pas que du bien”. éd. Anne Carrière, 2013.

On les appelle robots journalistes ou robots rédacteurs mais du robot, ils ne revêtent aucun des atours. Il s’agit de logiciels ou de systèmes automatisant la production d’informations, que ce soit sous une forme textuelle ou sous toute autre forme de représentation visuelle. Ils font généralement référence à un processus de génération automatique de textes en langue naturelle (GAT), l’une des branches du traitement automatique de la langue (TAL). Ce processus répond à deux questions : quoi dire et comment le dire. Mais il peut aussi se rapporter à la génération automatique de vidéos, une activité dans laquelle s’est spécialisée la start-up israélienne Wibbitz (présente depuis le printemps 2018 en Belgique, via un partenariat avec le groupe Rossel).

Les premiers systèmes de rédaction automatisée ont pour nom Quill (Narrative Science) et Wordsmith (Automated Insights). Ils ont été lancés sur le marché américain à la fin des années 2000 et les médias ne sont pas les seuls clients auxquels ils s’adressent. Mais ils sont les plus visibles. Depuis, le phénomène du robot journalisme a gagné l’Europe, la Chine, la Russie et l’Asie. Les domaines couverts sont le sport (résultats sportifs), l’économie (bilans et rapports d’entreprises), la politique (résultats d’élections), le taux de chômage, le trafic routier, les bulletins météo, les catastrophes naturelles (tremblements de terre), l’environnement (qualité de l’air) ou encore la consommation (index des prix à la consommation). Toutefois, ce phénomène peut être considéré comme marginal et cela au moins pour deux raisons : la nécessité de disposer de données structurées de qualité pour nourrir les systèmes en amont, et le coût représenté par le développement de ces systèmes, qu’il soit internalisé ou externalisé. Si l’on regarde les budgets alloués à de tels projets par le fonds Google pour l’innovation (DNI Fund), dont l’objet est de soutenir l’innovation dans les médias d’information européens, on constate que ceux-ci se chiffrent en dizaines de milliers d’euros.

Porteuse d’enjeux socio-professionnels, éthiques et économiques, la génération automatique de textes dans un contexte journalistique peut faire appel à deux types de technologies : une première s’appuyant sur du machine learning (comme c’est le cas aux Etats-Unis), un seconde s’appuyant sur un système à base de règles (comme c’est le cas pour Syllabs, en France). « On ne se trouve pas ici dans le même cas de figure que les solutions américaines (…), où ce sont effectivement des boîtes noires où tout est automatique. Ces machines apprennent à écrire des textes : il n’y a pas d’intervention possible. Notre système est un système à base de règles. Il n’est donc pas si opaque que ça : au contraire ! », indique Helena Blancafort, co-fondatrice de Syllabs.

Comme dans n’importe quel processus impliquant des choix, un logiciel de génération automatique de textes peut très bien introduire des biais, comme c’est le cas pour Quill : dans le cadre d’une rencontre sportive mettant en jeu des enfants, le texte généré peut davantage être axé sur l’héroïsme des joueurs plutôt que sur leurs performances. « Nous savons comment introduire une idée, comment ne pas nous répéter, comment être plus courts », affirme Kris Hammond, fondateur de Narrative Science. Pour l’homme, qui a le sens de la formule provocante, le logiciel ne fait pas qu’écrire comme un journaliste : il pense comme un journaliste.

Quelle que soit la technologie utilisée, celle-ci nécessite toujours un paramétrage humain en amont. Il est donc erroné de croire que tout est automatique. C’est pourquoi, certains plaident pour que les processus de production automatisée d’informations journalistiques soient encadrés par des normes éthiques spécifiques. Tom Kent, journaliste à l’Associated Press et enseignant en journalisme à la Columbia University, a proposé une check-list éthique en dix points.

Plusieurs bonnes pratiques sont déjà mises en œuvre actuellement, tandis que les initiatives nées au cours des derniers mois de 2015 n’ont pas encore fait l’objet d’études. Celles-ci sont identifiées et complétées dans le tableau de recommandations ci-dessous, en vue de promouvoir de bonnes pratiques.

Recommandations relatives à l’usage de la GAT dans un contexte journalistique
1. Les systèmes de génération de textes dans un contexte journalistique devraient être envisagés, dans tous les cas, comme un appui au journalisme.
2. Les éditeurs qui font appel à ces systèmes ne doivent pas les entendre dans une logique de réduction des coûts qui serait au détriment de l’emploi journalistique.
3. Dans un souci de transparence, les données, matériau de base à l’information, devraient être traçables. Cette traçabilité devrait au moins se traduire par la mention du producteur de données.
4. Les sources devraient être précises, fiables et à jour dans tous les cas. Des procédures de fact-checking, automatisées ou non, devraient pouvoir être mise en œuvre, en particulier lorsqu’il est fait appel à des bases de connaissances tierces.
5. Tout paramétrage humain d’un système de génération automatique de textes devrait tenir compte des dimensions éthiques régissant le journalisme, dans la mesure où il s’agit d’un contrat de lecture passé avec le lecteur pour lui garantir l’information la plus honnête, la plus neutre possible.
6. Les journalistes devraient être associés à ces processus de paramétrages, dans un souci de transparence envers les rédactions, mais aussi dans celui de rester des acteurs actifs du processus de production journalistique.
7. La structure des récits devrait toujours être adaptée aux types de données traitées et à leur domaine d’application, dans un souci d’adéquation aux usages, préalable essentiel lorsque l’on aborde la question de la qualité.
8. Les textes générés de manière automatique devraient éviter d’utiliser des structures trop répétitives et proposer une certaine variété dans les récits proposés, de manière à ne pas donner le sentiment de se retrouver face à un texte relevant de techniques de publipostage. L’originalité des contenus permet de ne pas induire une perception négative des textes générés.
9. Toute génération de textes dans un contexte journalistique devrait faire l’objet de tests préalables, en ce compris auprès d’un panel de lecteurs.
10. Les articles générés de manière automatique devraient toujours être présentés en tant que tels aux lecteurs au moment de la publication.

Les processus automatisés d’édition de l’information sont aussi variés qu’il existe des types de contenus, tant les outils numériques foisonnent et peuvent faciliter la vie du journaliste que ce soit pour l’édition de cartes, de graphiques ou d’infographies. La plupart de ces outils n’ont pas été développés dans un contexte journalistique, ce qui n’est pas le cas des initiatives des Knight Lab Projects, initiés par la Northwestern University (Illinois). Plusieurs projets y ont été développés sur mesure pour les journalistes, dont les compétences ne sont pas celles d’un développeur : une ligne du temps interactive (Timeline.js, utilisée dans deux articles récompensés par un prix Pulitzer), un système de storytelling interactif s’appuyant sur la cartographie (Storymap.js), un outil de citation audio (SoundCite.js), un outil de comparaison photographique (Juxtapose.js), et un outil d’aide à l’exploration des contenus publiés sur Twitter (twXplorer). Cette boîte à outils est régulièrement enrichie.

Pour certains observateurs, l’avenir de l’information passera nécessairement par l’usage de ce type d’outils destinés à enrichir l’information via des procédés interactifs. Par ailleurs, certains outils ont été spécifiquement développés pour les besoins d’un média en particulier : aussi, le Los Angeles Times utilise-t-il un logiciel pour dresser, à partir de rapports de police, une carte sur les homicides commis dans la région ; et le New York Times édite-t-il certaines annonces de mariage en utilisant les technologies du web sémantique.Les logiciels de gestion de contenus (CMS, content management systems) offrent eux aussi une palette de possibilité en matière d’édition automatisée : de la programmation de la publication d’un article à la hiérarchisation des contenus en fonction de leur popularité (nombre de vues ou de commentaires enregistrés). Là aussi, cela ne se produit pas en dehors de toute intervention humaine, potentiellement consciente des possibilités et limites du logiciel. Le CMS, écrit Rodgers [1], doit être considéré comme un objet du journalisme, ce qui implique une reconnaissance de son autonomie partielle dans le cadre d’un usage humain. La diffusion automatisée d’informations en ligne sur les agrégateurs (moteurs de recherche, réseaux sociaux…) passe par le flux RSS, un fichier contenant les données du site web au format XML (généré automatiquement dans le cadre d’un CMS). Elle peut plus ou moins être contrôlée.

La personnalisation de l’info en débat

Des plateformes utilisent des algorithmes de priorisation pour déterminer les sujets à mettre en avant. Il s’agit de la logique sur laquelle s’appuient généralement les réseaux sociaux, Facebook en tête, pour fournir une information personnalisée, c’est-à-dire déterminée par les activités de l’utilisateur. Ici, plus question d’un quelconque contrôle humain sur une information pilotée par une logique consumériste, les médias sociaux exerçant une réelle influence sur nos choix. Cela participe au développement du phénomène des « filter bubbles », selon lequel l’utilisateur serait dès lors enfermés dans ses propres choix et référents socioculturels.

Cette personnalisation à outrance ne revient-elle pas à réduire le rôle de l’internaute à celui d‘un simple consommateur ? Quelle part reste-t-il au libre arbitre ou à la découverte d’informations vers lesquelles l’utilisateur ne se dirigerait pas spontanément ? Adieu les bénéfices de la sérendipité ? La notion de « bien public » de l’information est-elle ainsi sacrifiée sur l’autel de l’économie ? « Il est encore temps de dire aux algorithmes que nous ne sommes par la somme imprécise et incomplète de nos comportements », plaide Cardon [2]. Tandis que Sadin appelle pour une éthique de la techne contemporaine, pour que les sociétés ne soient pas prises de court « et qu’elles puissent peser en leur âme et conscience » [3].

Dans un contexte où la production d’informations n’est plus l’apanage d’entreprises médiatiques établies – et dont beaucoup peinent encore à trouver un modèle économique viable en matière d’actualités en ligne – le débat ne peut être éludé. Et il témoigne de la nécessité de la mise en place de dispositifs d’éducation aux nouveaux médias. Une posture critique qui tarde, pourtant, à se généraliser tant il est admis qu’avant tout, les technologies sont synonymes de progrès. Dans le même temps, d’autres réclament davantage de transparence dans les processus algorithmiques, tout au moins en expliquant les buts et les intentions qui se trouvent derrière chacun d’entre eux.

« La question de la neutralité des algorithmes est centrale », indique le sociologue Sylvain Parasie. « L’un des enjeux constitue à associer les journalistes à la conception de ces algorithmes, de manière à faire en sorte qu’ils intègrent bien tout un nombre de représentations et d’attentes liées au journalisme. C’est un enjeu considérable mais l’affaire n’est pas gagnée d’avance, car les algorithmes les plus puissants sont souvent développés en dehors du monde journalistique (…) On peut bien sûr se dire que c’est très compliqué pour les journalistes d’intervenir sur des algorithmes, de les mettre en débat, de réussir à ouvrir la boîte noire. D’un autre côté, il ne faut pas négliger leur connaissance du public. »

Références

[1] Rodgers Scott. “Foreign objects? Web content management systems, journalistic cultures and the ontology of software”. Journalism, Vol.16(1), 10-26, 2015.
[2] Cardon Dominique. “A quoi rêvent les algorithmes”. La république des idées, Seuil, 2015.
[3] Sadin Eric. “La vie algorithmique”. Editions L’Echappée, 2015.

Les algorithmes dans l’information

Les algorithmes dans l’information

Les algorithmes dans l’information

Les algos et le code

Une apparente neutralité

Références

Alerte, collecte et vérification de l'info

Références

Sélection automatisée des contenus

Des modèles rentables

Trois types d’algorithmes

Références

La production automatisée d'informations

Edition et diffusion automatisées

La personnalisation de l’info en débat

Références