X

Data2Content : processus éditorial et appui au travail journalistique (2/2)

2 juillet 2015

Second volet de l’étude de cas consacrée à Syllabs et à sa solution de génération automatique de textes, Data2Content, réalisée dans le cadre du mémoire @MaSTICulb. Ici, il est question du rôle du journaliste et de l’humain en amont ou en aval de la génération automatique de textes.

datatotextLa standardisation des récits journalistiques rend-elle la génération automatique de textes ? Pour Helena Blancafort, co-fondatrice de Syllabs, les journalistes « sont plus en mesure de nous donner une ligne éditoriale. Par exemple, lorsqu’on travaille avec des e-commerçants, ceux-ci n’en ont pas et ne savent pas toujours exprimer leurs besoins. Si le client a une idée claire de ce qu’il veut, c’est plus facile. » Selon elle, la plus grande différence entre le domaine journalistique et celui de l’e-commerce consiste dans l’enrichissement des données. « C’est donc plus lourd dans le domaine journalistique, en raison aussi de la mise en contexte. Mais on ne peut travailler que sur des types de textes qui soient facilement modélisables, comme des rencontres sportives, la météo, des rapports financiers. On ne peut pas travailler sur des articles d’opinion. On ne pourra pas, non plus, traiter tous les types d’actualités comme l’actualité internationale : il faudrait des mois et des mois de travail pour développer de nombreux modules. Le système convient pour tout ce qui est répétitif ».

Chez Syllabs, explique Helena Blancafort, le processus débute avec le client. « On paramètre le moteur en fonction de ses besoins. On demande qu’il nous fournisse une ligne éditoriale, de manière à connaître la manière dont il souhaite que les textes soient rédigés, sur quel ton, avec quels termes. C’est une démarche qui est très importante pour nous« . C’est pourquoi elle estime que les journalistes doivent être associés, en amont, aux projets d’automatisation de textes. « Ce sont eux qui, finalement, maîtrisent le sujet que l’on va traiter ».

Le volume important de données disponibles et la demande croissante en contenus rendraient aujourd’hui la génération de textes incontournable. « Si on veut couvrir des élections, on va vouloir rédiger un texte par commune mais c’est impossible de le faire manuellement. Pour avoir une couverture plus large, il faut des machines. On crée de nouveaux besoins car auparavant, il y avait moins de contenus« . Mais, ajoute Helena Blancafort, il existe des limites dans le contexte journalistique. « Il s’agit de tous les caractères humains qui relèvent de l’opinion, du subjectif ».

Lors du traitement des résultats des élections départementales françaises, explique Luc Bronner sur le blog Back Office dédié aux coulisses du journal, la rédaction du Monde a ainsi « dû d’abord modéliser les résultats afin de réfléchir au mieux à leur transmission et à leur publication. Par exemple, il a fallu déterminer à quel moment nous pouvions affirmer qu’un binôme de candidats était élu (50% des voix, 25% des inscrits), en ballottage, éliminé… ou en position de se maintenir dans le cadre d’une triangulaire (12,5% des inscrits). Avec Syllabs, nous avons également travaillé sur des formulations, les plus rigoureuses possibles, capables de présenter les résultats. A partir d’une base d’exemples de textes, rédigés initialement par des journalistes, Syllabs a ensuite automatiquement intégré les données de chaque canton, chaque commune, dès que les résultats ont été rendus publics par le ministère de l’intérieur ».

Pour Luc Bronner, ce travail « ouvre de nouvelles perspectives, et offre de nouveaux services à nos lecteurs, il ne remplace en rien le journalisme. Les journalistes du Monde n’avaient de toute façon pas la capacité de produire 30 000 articles sur 30.000 communes en une nuit. Ces textes ne prétendent d’ailleurs pas être des analyses (. . . ) ni des reportages ». Et de préciser que 70 journalistes étaient mobilisés pour couvrir le premier tour des élections départementales.

Un appui au travail journalistique

Les journalistes pourraient également intervenir en aval du processus de génération, de la même manière que les traducteurs dans le cadre de traductions automatiques, via des activités de post-édition, estime Helena Blancafort. « On peut voir la génération comme un complément, un outil d’aide au journaliste où le moteur écrit la partie plus répétitive ou plus factuelle du texte. Ensuite le journaliste va faire de la post-édition, pour rendre les textes plus vivants, donner un angle, ou rajouter des informations de déduction que la machine n’a pas su faire parce qu’elle n’avait pas les connaissances. On a déjà proposé à des clients de fonctionner comme ça, mais ça ne s’est pas encore fait ». En ce sens, défend-elle, on ne peut pas reprocher au logiciel d’être opaque. « Dans nos discussions avec les journaux, on dit qu’on est prêt à passer un peu de temps avec les journalistes pour expliquer comment on écrit des textes, comment fonctionne le moteur, pour qu’ils comprennent comment ça fonctionne. On ne se trouve pas ici dans le même cas de figure que les solutions américaines qui font du machine learning, où ce sont effectivement des boîtes noires où tout est automatique. Ces machines apprennent à écrire des textes : il n’y a pas d’intervention possible. Notre système est un système à base de règles. Il n’est donc pas si opaque que ça : au contraire! ».

La métaphore du robot est régulièrement employée pour désigner les systèmes de GAT. Mais ici, « ce n’est pas vraiment de la robotisation, parce que nous ce sont des ingénieurs linguistes qui paramètrent le système. Le travail est donc un peu manuel. Tout seul, le robot ne sait rien faire. Ce n’est pas la robotisation telle qu’on l’imagine, mais il est vrai que nos interlocuteurs pensent souvent que tout est automatique, que l’on fournit un fichier, en entrée, qui donne un texte en sortie. Ce n’est pas vraiment comme ça que ça se passe ».

Première partie : Les robots-rédacteurs de Syllabs

#