Les algorithmes dans l’information

par Laurence



Chargement

Les algorithmes dans l’information

par Laurence

Des processus automatisés alertent, détectent les « breaking news », vérifient les infos, rédigent des actus, priorisent ou encore organisent et hiérarchisent les contenus éditoriaux. Avec quelle transparence ?

La production d’informations a connu un tournant important dès le début des années 2000, avec le développement de nombreux processus automatisés. De la collecte à la publication, en passant par la sélection, la rédaction et la hiérarchisation, ils couvrent l’ensemble de la chaine journalistique. Leurs enjeux ne sont pas seulement ceux d’une profession, ils sont aussi ceux du public auquel s’adresse l’information.

Infographie - Infogram
Jamais les techniques n’apparaissent véritablement sous la forme de moyens, et ce trait apparaît encore plus clairement, si j’ose dire, lorsqu’on les traite comme des boîtes noires dont on n’aurait besoin de connaître que les entrées et les sorties. Plus les systèmes techniques prolifèrent, plus ils deviennent opaques.
Bruno Latour (1992)
Les algos et le code
Image : CanstockPhoto

Un algorithme est une procédure codée, destinée à transformer les données en fonction de calculs spécifiés. Ces procédures se rapportent à un problème spécifique et aux étapes au cours desquelles ce problème doit être résolu, ce qui suppose un état initial et un état fini (Gillepsie, [1]). Une définition plus courte de l’algorithme est plus largement répandue : une suite finie d’instructions destinées à résoudre un problème (Steiner, [2]). L’algorithme, métaphore de la recette de cuisine [3] ou du programme d’une machine à laver, trouve ses origines dans l’Antiquité. L’algorithme d’Euclide (-300 AJC), l’un des premiers algorithmes connus (et encore utilisé de nos jours), permet de déterminer le plus grand commun diviseur de deux entiers naturels. Le terme « algorithme » provient du nom latinisé d’un mathématicien perse (-9 AJC), Ali-Khwârizmi.

Algorithme d'Euclide

Quantité d’algorithmes ont essaimé depuis, mais leurs premières formalisations remontent à 1936, avec la machine d’Alan Turing. En 1943, Kleene développe les théories algorithmiques, décrivant des procédures se succédant en prenant un chemin différent selon que la réponse à la question posée soit « oui » ou « non ». Pour Gillepsie, un ordinateur doit se concevoir comme une machine algorithmique qui héberge et lit des données, la mise en œuvre d’un algorithme impliquant nécessairement un langage de programmation. Si les promesses algorithmiques reposent sur leur crédibilité, leur fiabilité et leur neutralité, il reste illusoire de croire que le code s’écrit en dehors de toute influence humaine. « On a toujours besoin d’une intervention humaine.La culture algorithmique a besoin d’humains. L’automatisation ne nous transforme pas en robots : elle rend les choses plus faciles », indique Gillepsie.

C’est ce que soulignent aussi les « software studies », qui proposent un cadre théorique (et critique) pour l’étude des logiciels. Lawrence Lessig [4] postule une gouvernance du code dans tous les aspects de la vie humaine ; une gouvernance opaque à dont il faut avoir conscience. « Le code régule. Il implémente – ou non – un certain nombre de valeurs. Il garantit certaines libertés, ou les empêche. Il protège la vie privée, ou promeut la surveillance. Des gens décident comment le code va se comporter. Des gens l’écrivent », souligne-t-il. Dans ses travaux, Lev Manovich (« Le langage des nouveaux médias », « Software takes commands ») [5] [6] a mis en avant les caractéristiques intrinsèques des nouveaux médias : représentation numérique, modularité, automatisation, variabilité et transcodage culturel. Les programmes informatiques créent de nouvelles formes culturelles, écrit-il, tout en modifiant des formes existantes, à l’image d’un DJ dans son rôle de « remixeur ».

Aussi, analyse MacKenzie [7], le logiciel n’est pas seulement un processus, il s’agit d’un objet culturel et social, qui n’est pas dénué d’intentions humaines. L’algorithme, cadré par le temps et l’espace de la computation, est une procédure formelle qui n’est pas neutre car elle est le fruit d’une l’activité productive. « Il – l’algorithme – transporte l’espace social dans les réseaux logiciels. »

Une apparente neutralité

A la question de la qualité du code s’ajoute celle des données dont il se nourrit. Cet aspect est crucial dès lors que les données sont susceptibles d’impacter le monde réel, dans la mesure où les données ne sont pas figées une fois pour toutes : elles sont le résultat de mesures et d’observations du monde à un instant T [8]. Les données sont-elles à jour, fiables, complètes, contrôlées en amont? La source est-elle bien identifiée ? Ces questions ne sont pas triviales et se trouvent elles aussi à la source de la question fondamentale de la transparence [9]. Les enjeux sont ceux de la représentation sociale d’un monde en mouvement, de la manière dont les opinions se forgent et dont les actions se motivent : la caisse de résonance médiatique n’est pas exempte de conséquences.

L’apparente neutralité du code, qui résulte d’un processus de choix humains, serait dès lors à mettre en parallèle avec ce fameux principe d’objectivité qui sous-tend l’activité journalistique. Nombre de travaux ont démontré qu’elle n’existe jamais totalement car, elle aussi, procède d’une succession de choix et est porteuse de référents culturels et sociaux. « Il est impossible de constater des faits sans les interpréter », relève Cornu [10]. « L’écriture de presse est travaillée par les tensions entre de la subjectivisation et de l’objectivation », notent Rabatel et Vileno [11]. Cet aspect est d’autant plus crucial qu’aujourd’hui, l’activité journalistique, qui n’est pas une activité commerciale comme les autres [12], n’est plus l’apanage d’une profession organisée : de nouveaux acteurs sont entrés dans la danse de l’information [13], pour le meilleur ou pour le pire. « Le journalisme prône l’éthique et la transparence », souligne Diaopoulos, « alors que les algorithmes sont souvent opaques » [9]. Mais il reconnaît que même si un code source était systématiquement diffusé, encore s’agirait-il de le comprendre, en raison du savoir-faire technique que cela nécessite. De plus, préviennent McCosker et Milne [14], le code est fragile et les logiciels ne sont pas à l’abri d’erreurs, de bugs ou de failles.


Références

[1] Gillespie Tartleton, Pablo J. Boczkowski, et Kirstn A. Foot. “Media Technologies: essays on communication, materiality, and society”. Inside Technology. MIT Press, 2014.
[2] Steiner Christopher. “Automate this: how algorithms took over our markets, our jobs, and the world”. Penguin Group US, 2012.
[3] Fuller, Matthew. Software studies: a lexicon. Mit Press, 2008.
[4] Lessig Lawrence. Code Version 2.0, Basic Books, 2006.
[5] Manovich Lev. “Le langage des nouveaux médias”. Les Presses du réel, 2010.
[6] Manovich Lev. “Software takes command”. Bloomsbury Academic, 2013.
[7] MacKenzie Adrian.“Cutting code. Software and sociality”, Digital Formations, 2006.
[8] Boydens Isabelle. “L’océan des données et le canal des normes”. Les Annales des Mines, (67) :22–29, juillet 2012.
[9] Diakopoulos Nicholas. “Algorithmic accountability”. Digital Journalism,2(4):1–18, 2014.
[10] Cornu Daniel. “Journalisme et vérité”. Labor et Fides, 2009.
[11] Rabatel Alain et Chauvin-Vileno Andrée. “La question de la responsabilité dans l’écriture de presse”, Semen, 22, 2006.
[12] Neveu Eric. “Sociologie du journalisme”. Collection Repères, La découverte, 2013.
[13] Mercier Arnaud et Pignard-Cheynel Nathalie. “Mutations du journalisme à l’ère du numérique : un état des travaux”. Revue française des sciences de l’information et de la communication, (5), juillet 2014.
[14] McCosker Anthony et Milne Esther. “Coding labour”. Cultural Studies Review 20.1:4, 2014.
Alerte, collecte et vérification de l'info
Image : CanstockPhoto

Les algorithmes utilisés dans les pratiques de collecte de l’information permettent aux journalistes d’être alertés en temps réel dès que se produit un événement, ou de « moissonner » de grandes quantités de données. D’autres algorithmes permettent de vérifier la fiabilité d’une information, un fact-checking essentiel pour rencontrer le devoir déontologique de vérité du journaliste [1]. Les enjeux de ces algorithmes résideraient davantage dans leur capacité à exécuter les tâches qui leur sont assignées sans bugs et sans biais. Ils sont susceptibles d’assister le professionnel de l’info dès les premières étapes de son travail, en lui offrant des outils qui lui promettent un gain de temps précieux.

Entre deux types de procédures (et/ou de fonctions), les cloisons ne sont pas étanches : ainsi en est-il de l’algorithme conçu par le journaliste américain Ken Schwencke (LA Times), répondant au nom de Quakebot. Généralement associé à la mouvance du robot-journalisme, il s’agit d’abord d’un outil d’alerte tant pour le journaliste que pour son public. Le phrasé de l’article/alerte est simple. Il s’attache à donner toutes les informations de base relatives à une secousse tellurique dans un style rédactionnel standardisé.

Quakebot

L’application Wikipedia Live Monitor surveille, en temps réel, chaque nouvelle modification d’article sur la plateforme collaborative Wikipedia [2], dans différents langages et sur les mêmes sujets. Elle les compare ensuite avec les activités de plusieurs réseaux sociaux pour détecter des ”breaking news”.

La collecte d’informations peut également s’appuyer sur des techniques de scraping, utile lorsque l’on travaille en mode datajournalisme. Le web scraping (appelé aussi data scraping ou web harvesting) consiste à extraire les données d’un site web via des techniques de programmation (PHP, Python…) ou, plus accessible pour les journalistes, via des logiciels comme Import.io et Outwit Hub. Ces techniques, qui relèvent du data mining, sont  liées à l’indexation du web par les robots des moteurs de recherche.

Pour Bradshaw [3], le scraping permet « de rassembler et d’analyser des informations que personne ne peut avoir recueillies avant : notices, mentions, documents, rapports, décisions – en fait, tout ce qui est numérisé. Ces informations pourraient être stockées dans toutes sortes de façons : des tableaux enterrés dans des fichiers PDF et les pages web, de l’information cachée derrière des formulaires de recherche ou dispersés dans des centaines de pages ou feuilles de calcul. » Certains obstacles peuvent toutefois entraver l’extraction de données : un code HTML mal formaté, des systèmes d’authentification peuvent empêcher un accès automatique à certaines pages, ou encore le blocage de l’accès en masse par les administrateurs du serveur web [4].

Dans le domaine du fact-checking, la start-up française Trooclick, lancée à Lyon en 2012, propose une application de vérification et de signalement d’erreurs sur des articles de presse économiques et financière, mais en langue anglaise uniquement [5]. En 2013, le Washington Post lançait Truth Teller, dont la tâche est de détecter les incohérences des discours politiques. Il s’agit là d’un fact-checking instantané où le langage naturel fait office de donnée [5]. Lancée en 2015,  la plateforme Claimbuster, développée dans le cadre d’un doctorat à l’Université du Texas-Arlington, propose un fact-checking instantané (live) des discours politiques. En France, un projet de développement de logiciel de fact-checking automatisé est en cours : son nom, ContentCheck.

Il est aisé d’imaginer, à l’avenir, des systèmes de plus en plus performants et innovants avec, en filigrane, cette limite posée par la question de la qualité des données. L’exploitation d’archives numérisées des journaux – et pourquoi pas, leur mise en commun – pourrait y répondre de manière pertinente, sans pour autant régler une problématique rencontrée dans l’ensemble des démarches journalistiques s’appuyant sur l’usage de jeux données : une information de qualité a besoin de données de qualité. Par exemple, Thomson Reuters exploite ses archives via le web service Open Calais [6], un outil sémantique qui extraits des faits de l’information, en utilisant, entre autres, des technologies de traitement automatique de la langue et de machine learning.


Références

[1] Cornu Daniel. “Journalisme et vérité”. Labor et Fides, 2009.
[2] Steiner Thomas, van Hooland Seth, et Summers Ed. “Mj no more : using concurrent Wikipedia edit spikes with social network plausibility checks for breaking news detection”. In Proceedings of the 22nd international conference on World Wide Web companion, pages 791–794. International World Wide Web Conferences Steering Committee, 2013.
[3] Bradshaw Paul. “Scraping for journalists“. Online Journalism Blog, LeanPub, 2013.
[4] “Robot-journalisme et production automatisée de contenus : bilan des premières initiatives et perspectives pour les médias”. Satellinet, 224, décembre 2014.
[5] Gray Jonathan, Chambers Lucy, et Bounegru Liliana. “The data journalism handbook”. O’Reilly Media, 2012.
[6] Anderson Christopher W. “Understanding the role played by algorithms and computational practices in the collection, evaluation, presentation, and dissemination of journalistic evidence“. Draft paper, Berlin Symposium on Internet and Society, 2011.
Sélection automatisée des contenus
Image : CanstockPhoto

Les services d’information automatisés ou semi-automatisés sont progressivement devenus les principales voies d’accès aux actualités publiées en ligne [1]. Ils contribuent, souligne Goyette, à l’automatisation des mécanismes de circulation de l’information en ligne, organisent la sélection, la hiérarchisation et la distribution de l’information. Plusieurs critères peuvent être enfermés dans les algorithmes, indique Cardon [2] : le mérite, l’audience, la communauté, la vitesse.

La sélection automatisée de contenus répondrait davantage à des logiques consuméristes et mercantiles de l’information, par le biais de mécanismes de priorisation privilégiant tel contenu plutôt qu’un autre. On se trouve loin des traditionnels critères de sélection de l’information tels qu’on les apprend dans les écoles de journalisme : critères de nouveauté et/ou d’originalité, critère de proximité (géographique, sociale, culturelle), critère de notoriété, critère d’impact ou d’intérêt public, critère d’importance ou d’ampleur des faits/de l’événement, critère du mort-kilomètre,… [3] [4] L’information n’est donc pas ici conçue dans son acceptation de « bien public ». Ses fonctions sociales et démocratiques sont reléguées à l’arrière-plan au profit de la loi du clic et des contenus susceptibles d’attirer un maximum de trafic.

Des modèles rentables

Illustration de cette tendance, le sondage des réseaux sociaux pour y déterminer les buzz du moment. L’entreprise américaine Demand Media fournit de l’information à la demande en fonction de mots-clés introduits par les internautes. Ce contenu est fourni pour « la vraie vie », indique la plateforme qui « connecte les marques aux gens et les gens aux marques ».

Le site Melty.fr propose à un jeune public un contenu piloté par un algorithme, baptisé Shape, qui choisit les sujets en fonction de mots-clés utilisés en ligne. Si ce sont des rédacteurs qui produisent le contenu, le logiciel détermine le moment de leur publication [5]. La formule, qui se définit comme « de l’information positive de divertissement » séduit avec 26 millions de visiteurs comptabilisés en avril 2014 pour les 28 sites du groupe, dont la moitié en français (source : Wikipédia). Les infos du site, tout comme celles de Buzzfeed, sont intégrées dans l’agrégateur Google News.

BuzzFeed, disponible en anglais et en français, propose également des contenus en fonction des tendances relevées dans la sémantique des conversations des internautes sur les réseaux sociaux. Elle a attiré un investissement de 200 millions de dollars l’été dernier. Ces sociétés puisent leurs recettes dans le « brand content » et le « native advertising ». A un jet de pierre du modèle des fermes à contenus, dont l’objectif est de proposer un maximum de contenus sans nécessaire valeur ajoutée, produits par des pigistes chichement rémunérés, pour générer du trafic et, partant, des recettes publicitaires [6].

En Indonésie,  Beritagar.id utilise des algorithmes pour collecter, résumer et analyser des contenus en ligne, une sorte de super agrégateur qui sert de base au travail de réécriture des journalistes. Pour ce faire, le site, qui s’appuie sur des technologies du machine learning (apprentissage automatique) et du traitement automatique de la langue.

Trois types d’algorithmes

Diakopoulos relève que trois types d’algorithmes sont essentiellement à l’œuvre dans les contenus journalistiques en ligne : la priorisation (un contenu qui attire l’attention), l’association (qui marque la relation entre les entités) et les filtres (inclusion ou exclusion de certaines informations) [7]. L’utilisation de filtres d’inclusion ou d’exclusion, pour déterminer et organiser des contenus adaptés aux utilisateurs, seraient les plus dangereux, selon le chercheur, en raison du risque de façonner un univers unique où les lecteurs ne pourront plus prendre de décisions sur ce qu’ils choisissent de lire.

algorithmeC’est d’ailleurs la logique adoptée par les réseaux sociaux qui ne proposent pas autre chose que les infos susceptibles d’intéresser l’utilisateur en fonction de son activité. Rien d’autre n’est dit à propos des processus de calcul sous-tendant cette logique. La métaphore de la boîte noire est régulièrement utilisée pour désigner l’opacité de ces systèmes, derrière lesquels se trouvent d’importants enjeux économiques. Et en économie, rappelle Perri [8], rien n’est jamais gratuit.

L’application de procédures automatiques de sélection et de priorisation peut, a contrario, devenir un outil pour revaloriser du contenu existant. C’est ce qu’a expérimenté, en 2014, The Guardian qui a laissé le soin à un algorithme de déterminer ses « meilleurs » articles, en fonction de mesures d’audiences sur les réseaux sociaux, pour nourrir une édition imprimée.

Trois ans plus tôt, le quotidien britannique lançait TagBot, lançait une application répondant aux questions des internautes sur Twitter. TagBot était censé être plus efficace que le moteur de recherche du site, en proposant les articles et liens les plus pertinents. Toutefois, les résultats ne furent pas toujours ceux escomptés : les mots-clés utilisés pour les requêtes n’étant pas forcément ceux utilisés pour la classification des infos du journal. L’expérience n’a pas été prolongée,


Références

[1] Goyette Marc-Olivier. “Le retraitement automatique de l’information d’actualité en ligne : analyse des mécanismes socio-techniques mis en place par les infomédiaires”. Communication, 29(2), 2012.
[2] Cardon Dominique. “La démocratie internet”. La république des idées, Seuil, 2010.
[3] Schulte Henry H., et Dufresne Marcel P. “Pratique du journalisme”. Nouveaux Horizons, 1999.
[4] Grevisse Benoît. “Écritures journalistiques: stratégies rédactionnelles, multimédia et journalisme narratif”. De Boeck Supérieur, 2008.
[5] Antheaume Alice. Journalistes au pays des robots. W.I.P.-Slate.fr, octobre 2011.
[6] Le Champion Rémi (sous la direction de). “Journalisme 2.0 : nouvelles formes journalistiques, nouvelles compétences”. La Documentation française, 2012.
[7] Diakopoulos Nicholas. “Algorithmic accountability”. Digital Journalism, 2(4):1–18, 2014.
[8] Perri Pascal. “Google, un ami qui ne vous veut pas que du bien”. éd. Anne Carrière, 2013.
Les robots journalistes
Image : CanstockPhoto

On les appelle robots journalistes ou robots rédacteurs mais du robot, ils ne revêtent aucun des atours. Il s’agit de logiciels mettant en œuvre un processus de génération automatique de textes en langue naturelle (GAT), l’une des branches du traitement automatique de la langue (TAL). Ce processus répond à deux questions : quoi dire et comment le dire.

Les premiers systèmes de rédaction automatisée ont pour nom Quill (Narrative Science) et Wordsmith (Automated Insights), ils ont été lancés sur le marché américain à la fin des années 2000 et les médias ne sont pas les seuls clients auxquels ils s’adressent. Mais ils sont les plus visibles. Depuis, le phénomène du robot journalisme a gagné l’Europe, la Chine et la Russie. Les domaines couverts sont le sport (résultats sportifs), l’économie (bilans et rapports d’entreprises), la politique (résultats d’élections), le taux de chômage, le trafic routier, les bulletins météo, les catastrophes naturelles (tremblements de terre) et la consommation (index des prix à la consommation).

GAT et journalisme : une ligne du temps

Porteuse d’enjeux socio-professionnels, éthiques et économiques, la génération automatique de textes dans un contexte journalistique peut faire appel à deux types de technologies : une première s’appuyant sur du machine learning (comme c’est le cas aux Etats-Unis), un seconde s’appuyant sur un système à base de règles (comme c’est le cas pour Syllabs, en France). « On ne se trouve pas ici dans le même cas de figure que les solutions américaines (…), où ce sont effectivement des boîtes noires où tout est automatique. Ces machines apprennent à écrire des textes : il n’y a pas d’intervention possible. Notre système est un système à base de règles. Il n’est donc pas si opaque que ça : au contraire ! », indique Helena Blancafort, co-fondatrice de Syllabs.

Bien qu’encadrés lorsqu’il s’agit d’un usage journalistique, un logiciel de génération automatique de textes peut très bien introduire des biais, comme c’est le cas pour Quill : dans le cadre d’une rencontre sportive mettant en jeu des enfants, le texte généré peut davantage être axé sur l’héroïsme des joueurs plutôt que sur leurs performances. « Nous savons comment introduire une idée, comment ne pas nous répéter, comment être plus courts », affirme Kris Hammond, fondateur de Narrative Science. Pour lui, le logiciel ne fait pas qu’écrire comme un journaliste : il pense comme un journaliste.

Par ailleurs, quelle que soit la technologie utilisée, celle-ci nécessite toujours un paramétrage humain en amont. Il est donc erroné de croire que tout est automatique. C’est pourquoi, certains plaident pour que les processus de GAT soient encadrés par des normes éthiques dès lors que ceux-ci sont utilisés dans un contexte journalistique. Tom Kent, journaliste à l’Associated Press et enseignant en journalisme à la Columbia University, a proposé une check-list éthique en dix points.

Plusieurs bonnes pratiques sont déjà mises en œuvre actuellement, tandis que les initiatives nées au cours des derniers mois de 2015 n’ont pas encore fait l’objet d’études. Celles-ci sont identifiées et complétées dans le tableau de recommandations ci-dessous.

Recommandations relatives à l’usage de la GAT dans un contexte journalistique
1. Les systèmes de génération de textes dans un contexte journalistique devraient être envisagés, dans tous les cas, comme un appui au journalisme.
2. Les éditeurs qui font appel à ces systèmes ne doivent pas les entendre dans une logique de réduction des coûts qui serait au détriment de l’emploi journalistique.
3. Dans un souci de transparence, les données, matériau de base à l’information, devraient être traçables. Cette traçabilité devrait au moins se traduire par la mention du producteur de données.
4. Les sources devraient être précises, fiables et à jour dans tous les cas. Des procédures de fact-checking, automatisées ou non, devraient pouvoir être mise en œuvre, en particulier lorsqu’il est fait appel à des bases de connaissances tierces.
5. Tout paramétrage humain d’un système de génération automatique de textes devrait tenir compte des dimensions éthiques régissant le journalisme, dans la mesure où il s’agit d’un contrat de lecture passé avec le lecteur pour lui garantir l’information la plus honnête, la plus neutre possible.
6. Les journalistes devraient être associés à ces processus de paramétrages, dans un souci de transparence envers les rédactions, mais aussi dans celui de rester des acteurs actifs du processus de production journalistique.
7. La structure des récits devrait toujours être adaptée aux types de données traitées et à leur domaine d’application, dans un souci d’adéquation aux usages, préalable essentiel lorsque l’on aborde la question de la qualité.
8. Les textes générés de manière automatique devraient éviter d’utiliser des structures trop répétitives et proposer une certaine variété dans les récits proposés, de manière à ne pas donner le sentiment de se retrouver face à un texte relevant de techniques de publipostage. L’originalité des contenus permet de ne pas induire une perception négative des textes générés.
9. Toute génération de textes dans un contexte journalistique devrait faire l’objet de tests préalables, en ce compris auprès d’un panel de lecteurs.
10. Les articles générés de manière automatique devraient toujours être présentés en tant que tels aux lecteurs au moment de la publication.
Edition et diffusion automatisées
Image : CanstockPhoto

Les processus automatisés d’édition de l’information sont aussi variés qu’il existe des types de contenus, tant les outils numériques foisonnent et facilitent la vie du journaliste que ce soit pour l’édition de cartes, de graphiques ou d’infographies. La plupart de ces outils n’ont pas été développés dans un contexte journalistique, ce qui n’est pas le cas des initiatives des Knight Lab Projects, initiés par la Northwestern University (Illinois). Plusieurs projets y ont été développés sur mesure pour les journalistes, dont les compétences ne sont pas celles d’un développeur : une ligne du temps interactive (Timeline.js, utilisée dans deux articles récompensés par un prix Pulitzer), un système de storytelling interactif s’appuyant sur la cartographie (Storymap.js), un outil de citation audio (SoundCite.js), un outil de comparaison photographique (Juxtapose.js), et un outil d’aide à l’exploration des contenus publiés sur Twitter (twXplorer).

Pour certains observateurs, l’avenir de l’information passera nécessairement par l’usage de ce type d’outils destinés à enrichir l’information via des procédés interactifs. Par ailleurs, certains outils ont été spécifiquement développés pour les besoins d’un média en particulier : ainsi, le Los Angeles Times utilise-t-il un logiciel pour dresser, à partir de rapports de police, une carte sur les homicides commis dans la région ; et le New York Times édite-t-il certaines annonces de mariage en utilisant les technologies du web sémantique.

cmsLes logiciels de gestion de contenus (CMS, content management systems) offrent eux aussi une palette de possibilité en matière d’édition automatisée : de la programmation de la publication d’un article à la hiérarchisation des contenus en fonction de leur popularité (nombre de vues ou de commentaires enregistrés). Là aussi, cela ne se produit pas en dehors de toute intervention humaine, potentiellement consciente des possibilités et limites du logiciel. Le CMS, écrit Rodgers [1], doit être considéré comme un objet du journalisme, ce qui implique une reconnaissance de son autonomie partielle dans le cadre d’un usage humain. La diffusion automatisée d’informations en ligne sur les agrégateurs (moteurs de recherche, réseaux sociaux…) passe par le flux RSS, un fichier contenant les données du site web au format XML (généré automatiquement dans le cadre d’un CMS). Elle peut plus ou moins être contrôlée.

La personnalisation de l’info en débat

Des plateformes utilisent des algorithmes de priorisation pour déterminer les sujets à mettre en avant. Il s’agit de la logique sur laquelle s’appuie nombre de réseaux sociaux, Facebook en tête, pour fournir une information personnalisée, c’est-à-dire déterminée par les activités de l’utilisateur  (sans pour autant préciser le type de données personnelles sur lesquelles ils s’appuient). Ici, plus question d’un quelconque contrôle humain sur une information pilotée par une logique consumériste, les médias sociaux exerçant une réelle influence sur nos choix.

Tête algoCette personnalisation à outrance ne revient-elle pas à réduire le rôle de l’internaute à celui d‘un simple consommateur ? Quelle part reste-t-il au libre arbitre ou à la découverte d’informations vers lesquelles l’utilisateur ne se dirigerait pas spontanément ? La notion de « bien public » de l’information est-elle sacrifiée sur l’autel de l’économie ? « Il est encore temps de dire aux algorithmes que nous ne sommes par la somme imprécise et incomplète de nos comportements », plaide Cardon [2]. Tandis que Sadin appelle pour une éthique de la techne contemporaine, pour que les sociétés ne soient pas prises de court « et qu’elles puissent peser en leur âme et conscience » [3].

Dans un contexte où la production d’informations n’est plus l’apanage d’entreprises médiatiques établies – et dont beaucoup peinent encore à trouver un modèle économique viable en matière d’actualités en ligne – le débat ne peut être éludé. Et démontre la nécessité de la mise en place de dispositifs d’éducation aux nouveaux médias. Une posture critique qui tarde, pourtant, à se généraliser tant il est admis qu’avant tout, les technologies sont synonymes de progrès. Dans le même temps, d’autres réclament davantage de transparence dans les processus algorithmiques, tout au moins en expliquant les buts et les intentions qui se trouvent derrière chacun d’entre eux.

« La question de la neutralité des algorithmes est centrale », indique le sociologue Sylvain Parasie. « L’un des enjeux constitue à associer les journalistes à la conception de ces algorithmes, de manière à faire en sorte qu’ils intègrent bien tout un nombre de représentations et d’attentes liées au journalisme. C’est un enjeu considérable mais l’affaire n’est pas gagnée d’avance, car les algorithmes les plus puissants sont souvent développés en dehors du monde journalistique (…) On peut bien sûr se dire que c’est très compliqué pour les journalistes d’intervenir sur des algorithmes, de les mettre en débat, de réussir à ouvrir la boîte noire. D’un autre côté, il ne faut pas négliger leur connaissance du public. »


Références

[1] Rodgers Scott. “Foreign objects? Web content management systems, journalistic cultures and the ontology of software”. Journalism, Vol.16(1), 10-26, 2015.
[2]  Cardon Dominique. “A quoi rêvent les algorithmes”. La république des idées, Seuil, 2015.
[3] Sadin Eric. “La vie algorithmique”. Editions L’Echappée, 2015.