Depuis quelques années les fuites de données sensibles se sont multipliées. De nombreux domaines sont concernés comme le sport (Football leaks) ainsi que la politique (Révélations d’Edward Snowden) ou le buisness (Panama papers). Ces fuites d’informations ont constitué un matériau inestimable pour les nombreux journalistes et notamment des data-journalistes qui ont pu travailler sur les données ainsi libérées. Par ailleurs, l’informatisation a permis aux journalistes d’utiliser de plus en plus d’outils ou de logiciels de traitement et d’analyse de données. Ces outils qui vont de la collecte de données à la visualisation, constituent autant de stratégie d’enquêtes qu’il y a de types de données et sont de plus en plus accessible pour les journalistes. Notons également que les sources de données sont devenus de plus en plus massives et surtout, se sont diversifiés permettant aux journalistes d’accéder à de nouveaux terrains d’enquêtes.
Ces tendances ont largement contribué à renouveler l’investigation journalistique vers l’utilisation des données. Pour définir le datajournalisme, la question qui se pose est “Qu’est-ce qui distingue le datajournalisme du journalisme traditionnel ?”[1]. Pour y répondre on peut considérer que c’est l’association entre les nouvelles possibilités d’analyse de traitement, de visualisation et de narration de données combiné avec les quantités de données aujourd’hui disponible. De fait, les voies ouvertes tant par ces outils que par les supports de narration en ligne invitent à se poser la question suivante : dans quelle mesure le journalisme de données contribue à recomposer le champ journalistique ? L’intérêt d’une telle intérrogation est de soulever la question des évolutions du métier de journaliste à l’heure du Big data et de la presse en ligne et plus particulièrement le rôle des journalistes de données.
Pour éclairer ces éléments, j’ai pu interroger Julien Goetz, un des créateurs de l’émission DataGueule. Cette émission est diffusé depuis Juin 2014 sur Youtube et compte désormais 200000 abonnés. Le postulat de départ de DataGueule est de se saisir d’un sujet de société ou d’un système de pensée pour le déconstruire à l’aide de données et d’une enquête approfondie du sujet. Plus récemment, le format a évolué pour y inclure des entretiens avec des spécialistes du sujets traités. Si la donnée constitue une matière première de l’émission, Julien Goetz reconnaît qu’il place le curseur plutôt du côté de la narration que de la data-visualisation afin de “rendre le récit ludique […] de donner un sens, une dynamique aux données”. Julien Goetz quant à lui a été formé au travail journalistique à l’IUT de Tours, et, en parallèle de son autre passion, le théâtre, il a commencé à faire du développement de site Web. Puis, à force de rencontre, il a commencé à travailler chez Owni, un pur player au sein duquel il faisait partie de l’équipe data. Par la suite, après un passage chez France 5 pour une courte émission autour de la donnée, il a créé DataGueule, en parallèle de son travail de documentariste[2].
1 – Origines et émergences du journalisme de données
“Après le journalisme de données, il est pas née avec Internet, du journalisme de données il y en avait dans les années 1950 avec des méthodes plus traditionnelles” . Julien Goetz
Une des premières choses que le réalisateur de DataGueule m’a dites en évoquant son parcours a été le fait que le journalisme de données n’est pas si récent. Et, il est vrai que si l’on enquête sur les origines du datajournalisme, on peut rapidement se rendre que les racines de cette pratique remonte à plus de 50 ans. Ainsi, dans le livre Computer-Assisted Reporting: A Practical Guide[3] qui date de 1999, Brent Houston évoque les premières expériences de journalisme de données et notamment celle des journalistes de CBS qui en 1952, ont utilisé un ordinateur pour prédire le résultat des élections.
Pour autant, il considère que c’est plutôt à partir de 1967 qu’on peut situer les premières analyses de données dans le journalisme. C’est en effet à cette date[4] que Phillipe Meyer, journaliste au Knight Newspapers, a mené une enquête sur les émeutes raciales de Detroit afin de déterminer qui était les émeutiers (niveau scolaire et économique …). Pour ce faire, lui et son équipe ont rédigé un questionnaire qui a été passé à 437 résidents noirs de Détroit puis analysé afin de dégager les faits saillants. Cette enquête a eu un important retentissement puisqu’il a contrecarré les théories de l’époque sur les émeutiers noirs et notamment le fait qu’ils appartenaient à l’échelle la plus basse de la société, qu’ils n’avaient aucune éducation et peu d’argent. Suite à cette enquête, Phillipe Meyer a reçu le prix Pullitzer et a surtout publié un livre intitulé Precision Journalism: A Reporter’s Introduction to Social Science Methods, qui pose les bases de du datajournalisme : inspiration des sciences sociales, utilisation d’outils de traitement et d’analyse de données notamment. Par la suite, d’autres journalistes ont innové par leur utilisation de l’informatique, et notamment Eliott Jaspin, avec par exemple une enquête sur les conducteurs de bus dans laquelle il analyse des bases de données grâce aux outils informatiques. Ce même Eliott Jaspin créera en 1989 le National Institute for Computer-Assisted Reporting (NICAR) contribuant ainsi à populariser le computer-assisted reporting.
Des années plus tard, l’émergence de la presse en ligne, par exemple les purs players, a coïncidé avec un renouveau du journalisme de données permis par les nombreuses métriques, traces et données liées à l’explosion du Web et de l’accès à Internet. Pour définir la presse en ligne, on peut considérer qu’elle se situe dans le même rôle que le journalisme traditionnel avec la particularité de s’appuyer sur “les fonctionnalités et les potentialités des technologies numériques en ligne, dans sa forme devenue familière de l’Internet.”[5].
Dès le début des années 1990, les principales rédactions du monde entier ont commencé à mettre en ligne la première version de leur sites Internet, “dès la seconde moitié des années 1990 aux États-Unis (Charon, Le Floch, 2011:4)”, la prédominance du Minitel en France a ralenti ce processus puisqu’en France, “les premiers sites d’information naissent en 1995 à Libération et au Monde.”[6]. Dès lors, la presse en ligne “se constitue comme « un authentique média d’information »” et entre alors dans une nouvelle ère qui va favoriser le développement du data-journalisme. De fait, l’interactivité proposé par le média en ligne a permis de développer les possibilités de raconter les données. Si DataGueule propose des contenus vidéos et donc une manière de narrer les données, les rédactions des grands journaux se sont organisés pour proposer du contenu en ligne en y ajoutant de l’interactivité. Comme le rappelait Julien Goetz, “La data-viz elle devient intéressante quand on peut jouer avec”. Des exemples comme Les Décodeurs du journal Le Monde montre bien les possibilités du datajournalisme au regard de la presse en ligne. Si l’on rajoute l’accès à des données données toujours plus complètes, massives et diverses, il semble clair que le data-journalisme, à la suite des types de journalisme que nous avons pu citer précédemment, trouve son essor dans le Web 2.0.
Cette dernière forme de journalisme qu’on peut définir de deux manières, d’une part l’approche d’un journalisme sur la données c’est-à-dire qu’on applique une démarche d’analyse et d’enquête journalistique à la donnée, d’autre part le “Data-Driven journalisme” qu’on peut définir comme “le journalisme conduit par la donnée. C’est très éloquent comme formulation car on y ravale la donnée au rang d’outil aidant le journalisme, la donnée n’est plus « premier objet et premier sujet ».”. Justement, après avoir évoqué les racines du journalisme de données, il semble intéressant d’évoquer pleinement la manière dont ces journalistes travaillent en nous basant sur les propos de Julien Goetz.
2- Le travail des journalistes aujourd’hui : investigation 2.0, diversités des sources de données et outils de traitement des données
“Les outils numériques permettent un stockage énorme de données donc une libération de données et un traitement monumentale de données donc ça a changé la dimension de ce qu’on pouvait faire”. Julien Goetz
L’intérêt d’étudier l’organisation des journalistes de DataGueule, c’est de comprendre les contraintes et les possibilités qui s’offrent aux data-journalistes. De fait, des méthodes d’investigation à la visualisation, en passant par l’accès aux données et au traitement de ces dernières, la mise en récit journalistique des données emprunte différents chemins qui font de cette pratique une spécificité du champ journalistique. En interrogeant Julien Goetz, je me suis rendu qu’on retrouvait les mêmes problématiques que dans le cadre des études numériques en sciences sociales., notamment en ce qui concerne l’accès aux données.
Un des éléments qui m’a marqué a été la quantité de travail nécessaire à une fouille du Web afin de cadrer le sujet de l’emission, d’autant plus qu’ils essayent, comme le rappelait Julien Goetz, de “ remonter au maximum à l’étude source”. Ainsi, en ce qui concerne l’organisation de l’investigation, “Sylvain [Lapoix] est le premier à fouiller dans les données, on fait un premier point d’étape et on voit ce qui a émergé des données pour voir ce qu’on doit creuser. A la fin de ce travail, on obtient souvent un document de 40 pages et après moi je fais des recherches complémentaires pour pouvoir corréler d’autres données.”. Cette investigation leur permet de réunir de nombreux liens, documents et données disponible en ligne qui vont leur permettre de construire l’ossature de DataGueule. Par ailleurs, en plus de cette fouille en ligne, les journalistes de DataGueule donne désormais la parole à un invité dans chaque émission, ce qui permet de mettre en perspective les données ou les faits récoltés.
Par ailleurs, cet entretien avec Julien Goetz a mis en lumière tant la difficulté pour accéder que les formes diverses qu’elles pouvaient prendre. De fait, le créateur de DataGueule m’a fait remarquer qu’il “y a deux choses qui ont changé la donne, c’est qu’on a beaucoup plus de donnée d’une part grâce au web et d’autre part avec les données ouvertes et surtout celles qu’on va trouver sur le net alors qu’elle devrait pas y être”.
Tout en me rappelant la difficulté de réunir des données fiables malgré (ou à cause de) la masse disponible, Julien Goetz détaille plus en avant le type de données disponible. Ainsi, en plus des données ouvertes, les possibilités d’exploration de la donnée sont donc nombreuses, comme on peut s’en rendre compte en les répertoriant :
- En premier lieu, on peut citer les documents de travail qui viennent d’entreprises ou d’administrations publiques qui sont par exemple “des fichiers PDF qui devrait pas être en ligne”.
- Ensuite, il y a les données issus des fuites d’informations comme celles “révélées par des Snowden, par du Wikileaks […], comme les enregistrements des faits de guerre de l’armée américaine pendant la guerre en Afghanistan, tu dispose d’un fichier gigantesque de données” . Lors de son passage chez Owni, Julien Goetz a travaillé sur ces enregistrements de guerre pour une enquête qui a donné lieu à une cartographie des faits de guerre en Afghanistan[7].
- Enfin, on peut citer les données issus des réseaux sociaux ou bien celles disponibles uniquement en scrappant des sites Internet
En ce qui concerne les données exploitées, le positionnement de Julien Goetz vis à vis du datajournalisme rappelle notamment les travaux de Sylvain Parasie et d’Eric Dagiral sur la figure du “journaliste hacker”[8]. Rappelons également le passé de développeur de Julien Goetz avec les observations des deux chercheurs français sur le datajournalisme puisqu’ils citent notamment Adrian Holovtny qui est à la fois “développeur du framework Django qu’il imagine spécifiquement pour l’usage de sites d’information et comme concepteur de projets journalistiques appuyés sur des bases de données.” et journaliste au Washington Post où il développe sa manière d’appréhender le “couple donnée/journaliste” contribuant ainsi à “forger l’expression data journalism”.
L’exemple d’Adrian Hovotny me semble intéressant dans la mesure ou sa spécificité réside dans sa double casquette de développeur/journaliste. Cette caractéristique m’a semblé significative dans le cas des journalistes de données, discipline dans laquelle les outils informatiques de traitement de données constituent un élément de différenciation vis à vis du journalisme traditionnel.
Ainsi, Julien Goetz a évoqué les différents outils de traitements ou d’extractions de données. Il me semble qu’il est intéressant d’évoquer ce sujet dans la mesure où ces stratégies de traitements de données correspondent à des manières de travailler la donnée. En se basant sur les propos du créateur de DataGueule, on peut identifier différents types d’outils :
- Un outils de travail collaboratif auquel pense immédiatement Julien Goetz : “Le premier c’est Google Doc, pas parce qu’on aime Google mais c’est pratique pour travailler en collaboration”. Plus particulièrement, Google Spreadsheet permet déjà de “faire du croisement de données, faire des graphs, commencer à voir des échelles de valeurs ou de proportions.” . Ce mode de collaboration fait d’ailleurs directement penser au concept d’“l’internatisation du journalisme” développé par Sylvain Parasie et Eric Dagiral.
- Le deuxième type d’outils que Julien Goetz me cite sert à nettoyer des données : “Après y a Google Refine qui te permet de cleaner des données qui ne sont pas propre parce que parfois tu récupère des fichiers qui sont quand même complètement moisis.” .
- Viennent ensuite, deux types d’outils qui servent à accéder aux données, d’une part les “outils de scrapping pour créer la base de donnée toi même à partir d’un site web” et il y a des outils existants mais ça nous est arrivé de coder nous-même un outil pour aller scrapper des données.” et d’autre part les outils “d’OCR, qui sont pratique quand tu as 10 pages de tables sur un PDF”
- Citons enfin, des outils généraux type boîtes à outils du journaliste de données qui sont des sites regroupant tous les outils nécessaires. Sur ce point, “Il y a DataWrapper aussi qui fait un super travail de création d’outils de traitements de données à destination des journalistes et qui est très utilisé par les journalistes.”
Une fois le traitement des données effectués, il ne reste que la mise en récit de l’investigation et des données qui passe souvent par un travail de data-visualisation. Sur ce point, Julien Goetz me rappelle que, malgré l’aspect graphique des vidéos comme en témoigne les visualisations qui servent de conclusion à chacune des vidéos (Voir image ci-dessous), “DataGueule c’est pas totalement de la Data-viz puisqu’il y a assez peu de visualisation et c’est assez sommaire.”. De fait, le choix du
Image 2 : Visualisation de fin de l’épisode intitulé “Assistanat : un mythe qui ronge la solidarité
médium vidéo restreint les possibilités de faire de la data-viz puisqu’il n’est pas possible d’inclure de l’interactivité. De fait, le choix qui a été fait, c’est de “privilégier l’histoire pour arriver à donner une dynamique à l’épisode.”.
3 – Le data-journaliste, une figure qui témoigne de la recomposition du travail journalistique ?
“Sur l’utilisation des données, le problème c’est vraiment ça, et c’est sans doute encore qu’on se pose pas assez de question sur les données. On le voit pendant l’enquête, y a beaucoup de données qui ne sont jamais questionné”. Julien Goetz
Pour conclure ce travail, il m’a semblé intéressant de revenir aux différentes tendance qui ont contribué au développement du journalisme de données ainsi qu’à la recomposition du travail journalistique poussé notamment par le data-journalisme. La question est bien de savoir si l’utilisation de la donnée est un effet de mode ou une tendance lourde du journalisme.
De fait, l’informatisation d’abord qui a donné lieu à un “computer-assisted journalism” ainsi que l’internatisation lié au développement d’Internet a produit ses effets sur le champ journalistique. Ainsi, déjà en 1999, la profession utilise largement ce nouvel espace de connaissance puisque ”42 % des journalistes se connecteraient alors tous les jours à internet ; ils seraient 62 % à utiliser le web pour rechercher de nouvelles sources, tandis que 33 % des journalistes auraient recours au web pour trouver des idées d’articles.”[9]. Dans le même temps, l’arrivée des rédactions papier sur le Web a donné lieu à une recomposition de ces dernières avec l’arrivée des journalistes “techniciens” qu’ils soient développeur Web ou informaticien transformant alors le travail des journalistes. En examinant le parcours et les propos de Julien Goetz, il nous a semblé qu’ils représentaient assez bien cette double casquette journalistique ce qui nous amène à penser que le data-journalisme fait partie de cette tendance vers une recomposition du champ journalistique.
En effet, la pratique du journalismes de données est complètement ancrée dans les outils numériques ainsi que dans des stratégies basées sur la donnée (data-driven journalisme). La production de récit autour de la donnée est d’ailleurs très lié aux possibilités offertes par la presse en ligne notamment en termes de mise en forme de données interactives. Il suffit de regarder le travail de New York Times pour s’en convaincre. Me citant une partie des acteurs du data-journalisme en France et dans le monde, Julien Goetz me raconte d’ailleurs que “Les uns et les autres se regardent beaucoup pour savoir qui fait quoi, comment et pourquoi.”. Cette caractéristique du data-journalisme s’inscrit très bien dans l’internationalisation du journalisme et surtout dans l’internetisation. Cette internationalisation semble très claire lorsqu’on évoque la proximité entre journalisme d’investigation et data-journalisme. On note d’ailleurs que DataGueule est produit par la société Première Lignes également à l’origine de l’émission Cash Investigation ce qui a donné lieu à des collaborations entre les deux émissions. Lors de l’entretien, Julien Goetz me confirme d’ailleurs les proximités entre le data-journalisme et le journalisme d’investigation tel qu’il est pratiqué pour traiter des fuites d’informations de grandes ampleurs.
Ces éléments me font dire que le journalisme de données, au-delà d’être un terme marketing ou un effet de mode, constitue une tendance qui s’inscrit dans des évolutions plus large de l’organisation de la profession que ce soit au niveau des rédactions, mais aussi au niveau du travail journalistique. S’il faut aborder ce type de narration de l’information avec méfiance tant la donnée “donne l’illusion d’objectiver le monde” et n’est rien sans “un travail de contextualisation”. Il semble toutefois intéressant de s’attarder sur ces nouvelles manières de produire de l’information dans la mesure où cette médiation informationnelle constitue un bon exemple de l’évolution du champ journalistique.
[1] Kayser-Bril Nicolas, Guide du datajournalisme : collecter, analyser et visualiser les données, Eyrolles, 2014
[2] On notera le reportage, Une contre-histoire des internets
[3] Des éléments issus du livre sont disponible ici : http://gijn.org/2015/11/12/fifty-years-of-journalism-and-data-a-brief-history/
[4] Pour les détails du déroulement de l’enquête :
http://home.isr.umich.edu/sampler/revealing-the-roots-of-a-riot/
[5] Patrick Le Floch, Jean-Marie Charon, La presse en ligne, Paris, La Découverte, « Repères », 2011, 128 pages.
[6] Dupuy Camille, « Les travailleurs du Web : innovation et catégories professionnelles dans la presse en ligne », La Revue de l’Ires, 2/2013 (n° 77), p. 107-127.
[7] C’est le projet Warlogs : http://app.owni.fr/warlogs/
[8] Dagiral E., Parasie S. (2011), « Portrait du journaliste en programmeur : l’émergence d’une figure de journalistes hacker », Les Cahiers du journalisme, n° 22-23, p. 144-154.
[9] Dagiral Éric, Parasie Sylvain, « Presse en ligne : où en est la recherche ? », Réseaux, 2/2010 (n° 160-161), p. 13-42.