L’être humain est-il calculable ?

« La connaissance de soi par les nombres », telles est la devise d’un mouvement atypique apparu depuis quelques années : le « quantified self »[1]. Cette doctrine du « moi quantifié » conçoit les individus comme des enchâssements d’algorithmes mathématiques. Ainsi, il serait possible et même nécessaire de se connaître par l’analyse quantitative fine et permanente de son poids, sa température, son activité physique, son rythme cardiaque et tout un tas d’autres indicateurs biométriques allant jusqu’à la génétique, grâce aux objets connectés. Si l’avancement de la technologie détermine le niveau d’ambition d’une société, alors les sociétés occidentales d’aujourd’hui peuvent effectivement se permettre d’être plus ambitieuses que jamais. Depuis quelques années, la numérisation massive et rapide des pays développés produit des données numériques ou numérisées disponibles en temps réel et plus nombreuses, diverses et détaillées que jamais. Ce phénomène de big data change les manières d’analyser le monde et surtout les populations. Si le « quantified self » propose une analyse biologique volontaire et personnelle, il existe d’autres projets visant à user du big data pour étudier discrètement des populations entières d’un point de vue plus proche des sciences sociales.

 

 

 

Le projet de calculer l’humain

De nouvelles capacités

On sait maintenant que la numérisation croissante des sociétés développées depuis les années 2000 permet de transformer en données numériques de plus en plus d’activités humaines. Qui plus est, les objets connectés peuvent être utilisés comme des capteurs quotidiens à même de renseigner sur la vie de leurs propriétaires. Ces outils de communication deviennent des « machines à fabriquer des chiffres personnels »[2]. Enfin, l’émergence du web social et de plateformes où des millions d’internautes renseignent volontairement de nombreuses informations personnelles est d’un précieux secours lorsque l’on veut connaître les personnes. La collecte et le croisement de toutes ces données rendent possible un ciblage publicitaire fin très rentable dont les exemples sont aujourd’hui connus.

Collecter des données grâce à Facebook, les smartphones et les facteurs

Les géants du net, Google, Apple, Facebook, Amazon, appuient leurs croissances et chiffres d’affaires insolents en grande partie sur la détention et l’exploitation des données numériques. La nouvelle manne financière que représente le big data incite d’ailleurs nombre de structures publiques et surtout privées à s’organiser pour collecter ces données et les monétiser. La Poste a par exemple créé une filiale, Mediapost, spécialisée dans le courtage en données personnelles. L’entreprise publique profite de son exceptionnel réseau de distribution qui compte plus de 70 000 facteurs acheminant en moyenne près de 40 millions de lettres ou colis chaque jour en France. Ces facteurs ont depuis quelques années une nouvelle mission : collecter pendant leur tournée des informations sur les usagers livrés (type de logement, présence d’enfants dans le foyer, catégorie socio-professionnelle …). Les informations détenues par La Poste, notamment 40 millions d’adresses postales, sont ensuite croisées avec des données achetées à d’autres entreprises. Les exemples de réutilisations des données personnelles sont nombreux, particulièrement dans le secteur commercial.

Néanmoins, vendre des voitures, des yaourts ou des télévisions ne nécessite pas de connaître en profondeur l’être humain. Bien sûr, de nombreuses études sont financées pour connaître les motivations d’achat mais la consommation implique des ressorts intellectuels relativement simples. Acheter un paquet de chips pour quelques euros et qui sera consommé le jour même n’est pas une décision complexe ou engageante, ni un acte suscitant une réflexion intense ou s’appuyant sur des fondements socio-anthropologiques profonds. C’est pourtant sur ces achats mineurs mais pléthoriques que porte le travail de très nombreux data-scientists. D’ailleurs, si le big data est efficace dans l’univers commercial, c’est peut-être parce que calculer et prédire les comportements de consommation est somme toute simple. Qu’en est-il en revanche quand on s’intéresse à des pans plus fondamentaux du comportement des êtres humains, à leurs choix les plus importants, à leurs actes les plus graves ? Le big data est-il alors toujours aussi capable de calculer l’être humain ? Jusqu’où peut-on cerner les gens à partir de leurs usages du numérique, d’internet et du web ? Pour voir jusqu’où le traitement de ces mégadonnées peut mesurer et analyser l’humain, nous nous intéresserons à deux types de tentatives existantes dont les tenants et les aboutissants seront illustrés par des exemples concrets et réels. Nous nous pencherons d’abord sur des services de renseignements et leur utilisation des données numériques pour contrôler les populations et anticiper certains comportements dangereux, dans un second temps nous nous intéresserons au traitement du big data pour connaître et influencer les opinions politiques. A la fin de chacune de ces parties, nous évoquerons la réception et la perception qu’a le public de ces enjeux. Le public que nous avons sélectionné et décidé d’interroger pour ce travail se compose de huit étudiants dont la moitié suit des études liées au numérique (trois en université et le dernier à l’école 42) et l’autre moitié des études sans lien avec le numérique. En résumant les entretiens qu’ils nous ont accordés, nous comparerons ainsi la perception que les jeunes générations diplômées ont de notre sujet selon leur familiarité avec les nouvelles technologies de l’informatique. Avant cela, il nous faut cependant émettre une mise en garde éthique.

Les nécessaires questions éthiques

L’extension des domaines de la vie humaine numérisables et la progression phénoménale des puissances de calcul sont telles qu’elles inquiètent. De lourdes questions éthiques sur le respect de la vie privée et sur l’espionnage des citoyens et des consommateurs accompagnent la montée en puissance de l’analyse des données massives. Le progrès technologique permet de pister et connaître l’être humain de manière toujours plus précise. Certains logiciels de reconnaissance faciale sont par exemple capables de détecter des émotions et de transformer les caractéristiques d’un visage (couleur, âge, sexe, poids …) en informations statistiques. Toutefois, le principal danger ne réside pas dans la technique pure, mais dans l’utilisation qui en est faite par des êtres sociaux qui ont leurs propres enjeux et leurs propres buts. A bien y regarder, la volonté de chiffrer les populations et leurs activités a été particulièrement manifeste au sein d’États autoritaires, impérialistes voire fascistes.

Les nazis et le big data

Fin décembre 2017, Human Rights Watch affirmait que l’État chinois collectait l’ADN et d’autres informations biométriques des habitants de la province du Xinjiang peuplée pour moitié par des Musulmans et ce afin de croiser ces informations avec d’autres données. De telles démarches de contrôle des populations par leur mise en chiffre n’ont toutefois par attendu l’apparition de numérique. Soucieux de connaître et de contrôler son peuple frondeur, Napoléon Bonaparte avait nommé Ministre de la Police Joseph Fouché qui avait mis en place un vaste réseau de mouchards, aussi bien des domestiques que des nobles ou des prêtres, qui s’étendait des troquets aux salons mondains. Il est intéressant de noter que Fouché était professeur de mathématiques. Napoléon a également nommé Ministre de l’Intérieur Pierre-Simon de Laplace, lui aussi mathématicien de profession et auteur d’un « Essai philosophique sur les probabilités ». Les statistiques n’ont donc pas eu besoin de technologies sophistiquées pour intéresser les autorités étatiques et leurs forces de Police. Il faut attendre les années 1930 et IBM pour que l’idée de big data surgisse via son ancêtre. L’entreprise pionnière en informatique, qui sera à l’origine des tout premiers ordinateurs trente ans plus tard, commercialise alors des cartes perforées offrant une capacité inédite de stockage et de traitement des données à grande échelle à l’aide de « calculateurs ». L’entreprise états-unienne collabora par la suite avec le IIIème Reich. Ses cartes perforées servirent à recenser en un temps record les populations juives des pays conquis et les prisonniers des camps de concentration. Les numéros tatoués sur les bras des déportés correspondaient en fait à un numéro d’identification du système mécanographique de poinçonnage conçu par IBM[3]. Ces exemples nous interpellent sur la relation ancienne qui existe entre les statistiques et le contrôle des populations, notamment le comptage des êtres humains. Aujourd’hui que la technologie atteint une sophistication inégalée, les craintes sont légitimes et c’est naturellement vers les États les plus puissants et hégémoniques que les regards inquiets se tournent. Les révélations d’Edward Snowden ont mis au jour la surveillance de masse pratiquée par les États-Unis et notamment l’espionnage des télécommunications par la National Security Agency à l’échelle mondiale. Les déclarations de Snowden montrent que, sous justification de lutte anti-terroriste, l’État fédéral états-unien a mis en place plusieurs programmes de surveillance destinés à maximiser, en plus de la domination économique et diplomatique des États-Unis sur la scène internationale, le contrôle social de sa propre population.

Les services de renseignement : contrôler les populations

Le recours aux data-scientists

De nouveaux profils ont fait leur apparition au sein des services de renseignement. Les mathématiciens et scientifiques de la donnée spécialisés dans l’apprentissage statistique et capables de structurer et modéliser des données massives sont aujourd’hui de plus en plus sollicités. En effet, pour la première fois, les autorités ont accès à des informations très détaillées et parfois privées sur une immense quantité de citoyens. Pour remplir leur mission de surveillance, d’anticipation et d’empêchement des menaces criminelles ou terroristes, les services de renseignement ont donc accès depuis quelques années à une mine d’informations considérable. En France particulièrement, la montée en puissance du big data coïncide avec l’apparition d’un terrorisme islamiste ubérisé où des individus aux profils divers peuvent soudainement et rapidement planifier et exécuter des attentats. Le renseignement étant toujours au service d’une autorité politique qui fixe des objectifs et des demandes de résultat, l’analyse des mégadonnées se concentre logiquement sur l’arrestation de terroristes qui selon l’ancien Ministre de l’Intérieur Bernard Cazeneuve « ont des comportements numériques caractéristiques ». Aux États-Unis, ce lien entre sécurité et innovation numérique est encore bien plus ancien et plus profond qu’ailleurs.

La Silicon Valley, succursale de l’armée et du renseignement des États-Unis

Si l’on s’intéresse à l’Histoire des innovations numériques, on voit rapidement que leur émergence a lieu la plupart du temps aux États-Unis. A y regarder de plus près, il ne faudrait pas sous-estimer le rôle de l’armée et du département d’État américains dans le progrès des technologies numériques. Internet a par exemple été créé et financé jusque dans les années 1980 par l’armée des États-Unis avec le programme ARPANET. Les programmes successifs de l’institution militaire ont par la suite donné naissance à plusieurs innovations connues dans le domaine du numérique telles le GPS ou le réseau Tor. En 1999, la CIA a même développé In-Q-Tel, son  fonds d’investissement dont l’objectif est de repérer et financer des entreprises concevant des technologies à même de servir les services de renseignement. En rentrant au capital de start-ups innovantes dans les technologies de pointes, en particulier concernant la collecte et l’analyse de données, l’agence a accès à leur conseil d’administration. Ces prises de participation visent à développer ou à s’emparer d’acteurs du privé identifiés comme stratégiques car répondant aux besoins des services. Cette politique d’investissement a concerné des centaines de sociétés, dont Facebook, Palantir ou Google Earth, aussi bien américaines qu’étrangères, comme les françaises Viadeo ou Gemalto. Depuis les prémices du numérique jusqu’à aujourd’hui, nombre d’entreprises de la Silicon Valley s’appuieront sur les commandes de l’État fédéral pour lancer et entretenir leur activité. Ce partenariat public-privé permet de comprendre la prépondérance et le crédit accordé au big data malgré ses limites voire son manque d’efficacité en matière de renseignement.

Les carences du big data sécuritaire

En dépit d’une impression d’omniscience, de contrôle et de fiabilité, la technologie du big data est loin d’être la panacée sécuritaire. La fiabilité des données numériques n’est tout d’abord pas garantie. Une trace laissée sur un smartphone, un e-mail tapé sur un ordinateur ou la fréquentation d’un site internet peuvent en fait rarement être attribués à un individu de manière totalement certaine. C’est là un point faible du renseignement par le big data. Les données numériques ne sont pas des preuves physiques, comme un flagrant délit ou l’enregistrement vidéo d’un crime, mais de simples indicateurs dont l’identité de l’auteur est présumée. Devant un tribunal, leur fiabilité serait facilement attaquable. C’est pourquoi les services de renseignement ne peuvent exploiter les mégadonnées qu’en s’affranchissant des autorités judiciaires. Les données ne sont pas des actes criminels ou terroristes ni même leur preuve mais restent de simples soupçons.

D’autre part, disposer de milliards de données ne signifie pas savoir les traiter, les croiser et les analyser de manière pertinente. Les comportements en question sont particulièrement complexes et des modèles statistiques efficaces restent à inventer pour les maîtriser. L’intelligence artificielle et l’apprentissage automatique (le « machine learning ») sont des domaines pour l’instant très imparfaits qui en sont à leurs tâtonnements.

Enfin, si les données sont collectées à profusion, il est d’autant plus difficile de les maîtriser. John Edgar Hoover, premier directeur du FBI, avait instauré une centralisation des informations secrètes lui permettant de connaître n’importe quel renseignement à tout moment. Une telle stratégie serait évidemment impossible aujourd’hui. Au regard du nombre d’informations collectées, il est impensable de les analyser sans recourir à plusieurs milliers de personnes. C’est vraisemblablement la profusion d’informations à traiter qui explique l’inefficacité du big data pour les services de renseignement. Malgré des lois sécuritaires allant toujours plus loin dans la captation d’interactions privées et malgré la collaboration entre les services de nombreux pays, ces dernières années ont été marquées par des attentats perpétrés dans plusieurs grandes villes occidentales comme Boston, San Bernadino, Orlando, Londres, Bruxelles, Berlin, Paris ou Nice. Les analystes sont submergés par des contenus massifs qu’ils mettent longtemps à trier en passant parfois à côté des personnes dangereuses. En effet, le plus problématique pour un service de renseignement est probablement le temps nécessaire à ingurgiter et analyser toutes ces données. Les analystes sont ainsi presque toujours en retard sur les agissements des personnes suspectes. C’est pourquoi on apprend après coup que la plupart des terroristes ayant commis des attentats en France étaient fichés S et déjà surveillés. Ce problème de surcharge informationnelle a toutefois été anticipé dès l’explosion des télécommunications à la fin des années 1990. Bill Binney, devenu directeur de la NSA en 1997, et ses équipes avaient mis au point une méthode pour réduire le nombre de données nécessaires à analyser et le temps à y consacrer. Selon Binney, il faut s’intéresser non pas aux données mais d’abord se concentrer sur les métadonnées. Il recommandait de prioriser l’analyse de réseaux. Cette technique mêlant théorie des graphes et apprentissage statistique permet de cartographier des réseaux d’individus et de visualiser leurs relations à l’aide d’algorithmes de spatialisation. Un programme de sécurité, intitulé Thinthread, prévoyait d’analyser uniquement des métadonnées anonymisées, à savoir : qui communique avec qui, quand, où, comment et avec quelle régularité. Ainsi, il n’y avait pas besoin de collecter le plus de données privées possible ni de prendre connaissance de leur contenu. Seuls les réseaux relationnels fortement suspectés de terrorisme étaient analysés. En plus d’être respectueuse de la vie privée, cette méthode était rapide, très peu coûteuse et efficace. Elle aurait même pu, selon son responsable, éviter les attentats du 11 septembre 2001[4]. La NSA décida cependant de privilégier un autre programme : Trailblazer. La méthode de celui-ci, toujours pratiquée aujourd’hui, consiste à intercepter à peu près toutes les télécommunications du monde pour les trier d’après des mots-clés. Après sa démission de la NSA, Biney affirma devant plusieurs parlements européens que ce choix contre-productif était dû à la pression de sous-traitants privés.

Comme nous l’avons dit, l’armée et le renseignement états-uniens ont toujours été liés aux entreprises des nouvelles technologies. La branche sécuritaire de l’État fédéral a d’ailleurs pris l’habitude depuis la guerre du Vietnam de sous-traiter au secteur privé des opérations militaires extérieures entières mais aussi des missions de renseignement. On estime qu’aujourd’hui aux États-Unis, 70% des fonds destinés au renseignement vont à des structures privées[5]. Il est vrai que le marché de la surveillance américain, en plus d’être à l’abri des regards, s’élève à une centaine de milliards de dollars. On peut alors se demander s’il n’y a pas eu une inversion de la domination entre l’État fédéral et le secteur privé, si les missions d’intérêt public relevant de la sécurité ne sont pas depuis plusieurs années soumises aux besoins des entreprises au lieu d’en être à l’origine. Il n’est plus à démontrer comment la décision d’envahir l’Irak en 2003 a été prise par une administration Bush dont les membres étaient largement insérés dans les industries financière, militaire, pétrolière et de la construction. La privatisation rampante de la NSA a d’ailleurs orienté ses cadres supérieurs vers les entreprises de la Silicon Valley. De même, nombre de membres des différentes administrations qui se sont succédées au pouvoir, notamment démocrates, pratiquent les « revolving doors », les allers-retours entre le secteur public et le secteur privé[5′]. Moins sulfureuse que Wall Street, la Silicon Valley serait devenue une sorte de nouveau deep state pratiquant un lobbying permanent pour l’usage de technologies numériques comme le big data. Le criminologue Xavier Raufer a par exemple remarqué que « la plupart des articles sur les technologies prédictives émanent d’une unique boîte de com’ nommée ‘’Fusion’’ »[6] et spécialisée dans la publicité éditoriale et les publi-reportages. C’est ici une autre clé pour comprendre le succès du big data auprès des services de renseignement. Leur tâche principale consiste moins à réprimer qu’à prévoir les atteintes à la sécurité. Or, l’une des innovations les plus vantées et les plus révolutionnaires du big data est celle de faire parler les mégadonnées à l’aide d’algorithmes capables d’anticiper l’avenir. Cette prétention à prédire est à l’origine de raccourcis cognitifs paradoxaux difficiles à déjouer.

Le big data prédictif : pile je gagne, face tu perds

Il est particulièrement difficile d’argumenter contre l’utilisation du big data avec des intentions prédictives. En effet, les algorithmes et l’apprentissage automatique sont censés s’améliorer à partir des erreurs commises. Ainsi, l’efficacité du prédictif se nourrit de son inefficacité : si un algorithme de prédiction ne fonctionne pas, ses erreurs serviront à l’améliorer et il fonctionnera. De plus, il est toujours facile de vanter un logiciel prédictif quels que soient ses résultats. Supposons qu’un tel logiciel prédise un attentat. S’il a lieu le logiciel avait raison, s’il n’a pas lieu c’est que le nécessaire a été fait pour l’empêcher grâce au logiciel. La défense des algorithmes prédictifs gagne à tous les coups. Plusieurs pays se sont ainsi offert les services de Predpol, un logiciel capable de prédire les crimes et les délits. L’outil en question s’est avéré décevant car il révélait surtout des évidences déjà connues par les professionnels de la sécurité. C’est en dernier lieu l’ultime point faible du big data utilisé pour prévoir les évènements à venir. Ces algorithmes ne prédisent pas, ils projettent les données du passé dans le futur. Ils tentent de construire l’hypothèse la plus probable du futur d’après ce qui est déjà arrivé. Toutefois, c’est faire abstraction des « cygnes noirs », ces évènements imprévisibles et inédits dont la probabilité d’arriver était nulle au regard des évènements passés[7]. Ces évènements ont pourtant des conséquences d’autant plus grandes qu’ils sont soudains et sans précédent. Prenons la Révolution française. Si un algorithme prédictif avait été interrogé en 1788 sur la situation de la France en 2018, il aurait probablement décrit une monarchie dirigée par Louis XXVII. Or, ce sont justement ces mouvements brusques aux conséquences extraordinaires qui intéressent les services de renseignement. Paradoxalement, les nouvelles technologies numériques s’inscrivent précisément dans un modèle de « disruption », c’est-à-dire d’innovations tellement radicales qu’elles brisent des anciennes conventions. En un mot, le big data et ses algorithmes prédictifs n’auraient pas pu prévoir l’arrivée d’internet ou des smartphones. Le réel n’est pas une simple reproduction du passé.

L’avis des étudiants

72% des Français estiment que la confidentialité de leurs données personnelles n’est pas correctement assurée sur internet et s’en inquiètent selon un sondage BVA paru en octobre 2017[8]. La plupart d’entre eux n’a d’ailleurs pas confiance dans la sécurité des appareils numériques. On retrouve ici la méfiance générale à l’égard de la fiabilité concernant la confidentialité numérique dont les terminaux sont soupçonnés de rendre facilement accessibles à des tiers des informations privées. Interrogé à ce sujet, notre petit échantillon d’étudiants est relativement unanime. Si tous ont été évidemment choqués par les attentats survenus en France ces dernières années et conviennent que des mesures plus fermes de sécurité doivent être prises, ils ne livrent pas pour autant un blanc-seing aux autorités. Si deux étudiants sur les huit se disent prêts à faire des concessions sur leur vie privée pour plus de sécurité, la majorité ne juge pas souhaitable une intrusion des services de renseignement dans notre intimité numérique. Deux d’entre eux disent même trouver cela « choquant » et « révoltant ». Les études qu’ils font ne semblent pas les différencier sur ce point. Au-delà de ça, on distingue une nette méconnaissance des étudiants quand il s’agit de mettre le doigt concrètement sur les atteintes à la vie privée rendues possibles par les technologies numériques. Si l’espionnage des télécommunications est à chaque fois mentionné, on s’aperçoit qu’il règne une certain opacité sur les moyens utilisés par les services de renseignement et les politiques mises en place, y compris pour les étudiants des parcours liés au numérique. Nous verrons si leur opinion est différente sur les questions de propagande politique.

Les opinions politiques : connaître et influencer les comportements électoraux

Profiler les électeurs

Le big data est utilisé en politique pour modéliser le social à l’aide de traces laissées sur le web et d’informations privées concédées souvent sans véritable accord. Un nombre considérable d’informations individuelles est collecté et compilé dans des bases de données. Elles peuvent être de nature politique ou commerciale. Leur intérêt réside précisément dans l’étendue des champs qu’elles recouvrent et dans les croisements qu’on peut opérer entre elles. Ces croisements permettent de créer des profils d’électeurs. L’équipe de Barack Obama disposait par exemple dès 2008 d’une base de données qualifiée, c’est-à-dire avec des informations sociodémographiques, de 140 millions d’Américains, avec jusqu’à 600 informations par personne. La stratégie du Parti Démocrate était de consolider au maximum leurs bases de données existantes en accumulant les données individuelles du plus grand nombre d’électeurs possible. Grâce à l’analyse fine de ces mégadonnées, doublée d’études d’opinion, l’équipe d’Obama a pu ajuster ses actions de campagne et cibler les électeurs potentiellement les plus en adéquation avec les valeurs défendues par le candidat. Les démocrates ont alors eu recours à des médias locaux ou organisé des campagnes de porte à porte personnalisées. En effet, avant de frapper à une porte, les bénévoles démocrates étaient en possession d’informations sur le résident aussi précises que sa tendance politique, sa situation maritale et familiale, ses problèmes de santé, ses habitudes alimentaires, ses voyages etc … Chaque visite était donc préparée. Néanmoins, tout bien considéré, le porte à porte même ciblé ne reste qu’une méthode classique de campagne améliorée par le big data. Il existe en réalité des tactiques de communication numérique bien plus novatrices s’appuyant sur les bases de données massives du web social.

Cambridge Analytica et la psychométrie

On a vu qu’il est possible de croiser des données politiques avec des données sociodémographiques à l’échelle individuelle. Il est désormais possible d’y ajouter des données psychologiques. C’est ce qu’a entrepris Michal Kosinski, professeur au Centre de Psychométrie de l’Université de Cambridge, en développant un test de profilage psychologique à l’aide d’informations Facebook et de données issues des téléphones mobiles. Ses travaux furent ensuite récupérés par Stratégic Communication Laboratories (SCL), une entreprise américaine spécialisée dans la stratégie d’influence basée sur la psychologie comportementale. Après avoir créé des branches consacrées à la publicité commerciale et à des opérations militaires, le groupe a développé Cambridge Analytica, sa filiale politique. Repérée pendant la campagne référendaire du Brexit, où SCL a conseillé gratuitement le camp du « Leave », l’entreprise est sollicitée par l’équipe de Donald Trump en 2016[9]. La campagne du candidat républicain sera l’occasion d’expérimenter véritablement en politique sa méthode à mi-chemin entre les sciences comportementales, l’analyse big data et le ciblage publicitaire. La voici.

Pour commencer, Cambridge Analytica achète des données personnelles en très grande quantité à diverses sources. Aux États-Unis, quasiment toutes les données sont légalement vendues par des entreprises de courtage en données. L’innovation de Cambridge Analytica est de croiser ces multiples informations avec des données psychologiques. Celles-ci sont obtenues à l’aide de tests de personnalité présents en grand nombre sur Facebook et qui évaluent la culture, l’intelligence et la personnalité d’un individu. Par amusement, des centaines de milliers d’utilisateurs répondent à des questionnaires psychologiques tout en autorisant l’accès à leurs données personnelles. Les diagnostics psychologiques sont ensuite combinés aux données Facebook des usagers, notamment aux mentions « j’aime », elles-mêmes reliables à des données individuelles achetées à des data brokers. Les données Facebook combinées aux données psychométriques permettent d’établir des modèles de personnalité applicables ensuite à l’ensemble des utilisateurs. C’est là l’essentiel : en corrélant les informations psychologiques aux informations Facebook, il devient possible de déterminer la psychologie d’un utilisateur uniquement d’après ses données Facebook. En somme, les pages Facebook aimées par un utilisateur permettent de dresser son portrait personnel et psychologique et ce de manière étonnamment fine. En effet, dans une étude de 2014, les chercheurs de Cambridge ont montré qu’il suffit d’analyser une dizaine de « likes » d’un individu pour mieux le connaître que ses collègues de travail, environ 70 « likes » pour le connaître mieux que ses amis, 150 « likes » mieux que ses parents et 300 « likes » mieux que son conjoint. Ils prouvent également qu’en connaissant au moins 68 « likes » d’un internaute, il devient possible de prédire de manière quasi-certaine la couleur de sa peau, son orientation sexuelle ou sa tendance politique. La recherche se base au fond simplement sur l’idée bourdivine selon laquelle les goûts sont socialement situés[10]. Par exemple, les hommes qui aiment des marques de cosmétique ont plus de chances d’être homosexuels alors que « liker » un groupe de rap est plutôt synonyme d’hétérosexualité. Les amateurs de Lady Gaga sont plus extravertis tandis que les introvertis aiment davantage des livres de philosophie. Multipliés, ces exemples permettent de décrire des internautes de manière très précise. C’est d’ailleurs suite à la publicisation de ces recherches que Facebook rendra privées les mentions « j’aime » individuelles. En un mot, à partir des mentions  « j’aime », il devient possible de trouver des individus correspondant à un certain profil. Tout naturellement, les équipes de Trump vont s’intéresser à certains profils d’électeurs, les rechercher parmi les 220 millions de profils Facebook du pays et les relier aux 5000 informations en moyenne disponibles pour chaque Américain. La stratégie globale de communication de Donald Trump a consisté à utiliser les médias de masse, où ses provocations lui assuraient visibilité considérable et régulière, sachant que l’égalité du temps de parole a été supprimée sous Ronald Reagan, pour rassembler et motiver sa base électorale. Les messages individualisés émis sur les réseaux sociaux ont surtout été utilisés dans les États bascules (les swing states) où l’issue de l’élection était incertaine. Selon leur nombre de grands électeurs, ces États étaient susceptibles de faire pencher la balance dans un camp ou un autre. Une fois identifiés les électeurs pertinents dans ces États clés, les messages qu’ils reçoivent en ligne sont adaptés à leur situation mais aussi à leur psychologie. Non seulement la forme du message (le titre, les couleurs, l’illustration …) peut changer selon le profil psychologique de la cible mais son contenu même peut être ajusté. L’électorat peut donc être segmenté à partir de critères sociodémographiques mais désormais aussi de critères psychologiques. On peut dès lors se demander si ces pratiques ne contreviennent pas aux principes de la démocratie.

Individualiser l’électorat semble contradictoire avec l’objectif d’une campagne électorale qui est de fédérer autour d’un projet commun. De plus, certains messages hyper-ciblés ont été envoyés sur Facebook grâce au dispositif « dark post ». Cette fonctionnalité permet d’envoyer des messages personnalisés visibles uniquement par une population déterminée et qui n’apparaissent pas sur la page qui en est à l’origine. Ces messages sont invisibles pour les autres citoyens mais aussi pour les journalistes ou les juges, et même pour l’utilisateur ciblé ils disparaissent définitivement quelques instants après avoir été vus. Donc non seulement les internautes ont été soumis à des messages différents mais il est en plus impossible de savoir qui a reçu quels messages. Là encore, une telle opacité bafoue le principe d’une campagne électorale qui est d’être transparente et de réunir les citoyens d’une nation autour de diagnostics et de propositions clairs et partagés. Enfin, s’appuyer sur la psychologie pour guider les comportements électoraux n’est pas une chose légère. Certains utilisateurs diagnostiqués paranoïaques par le test psychométrique ont par exemple été soumis à des messages pro-Trump particulièrement anxiogènes sur l’immigration ou le port d’armes. L’équipe de Trump a donc entrepris de calculer les électeurs américains pour influencer leurs votes mais sans prendre en considération les conséquences possibles et les implications d’une telle manœuvre en termes démocratiques. Si l’on s’intéresse de plus près à l’entreprise qui a rendu cela possible, on s’aperçoit qu’elle a été en partie financée par Robert Murcer, un mathématicien d’extrême droite spécialisé dans le big data. Dans les années 1980, Murcer avait largement contribué à la création de la finance algorithmique, déconnectée des réalités véritables du marché marché, conduite uniquement par des indicateurs chiffrés et à l’origine de dérives constatées depuis lors sur les marchés financiers. De quoi donner le sentiment que la maîtrise des mathématiques est vouée à faire primer l’efficacité sur la morale mais aussi sur les conséquences futures des techniques créées.

Cependant, si ces méthodes ont permis à Donald Trump d’accéder à la Maison Blanche avec près de 3 millions de voix de retard, les exagérations quant à l’utilité du big data sont possibles. Toutes ces techniques et ces démarches sont secrètes donc invérifiables. Qui plus est, le big data est une technologie complexe qui compte très peu de gens à même ne serait-ce que de se figurer clairement de quoi il s’agit. D’autre part, il ne faut pas oublier l’intérêt économique que poursuit l’entreprise SCL sur un marché globalisé. L’élection de Trump étant probablement l’évènement le plus médiatisé de ces dernières  niveau mondial, c’est une occasion pour le groupe de promouvoir ses savoir-faire, quitte à exagérer son rôle dans la campagne.

La relative stérilité des mégadonnées politiques

Assez rapidement, l’information obtenue à l’aide du big data politique peut s’avérer plus limitée que si le chercheur avait eu recours à une enquête par questionnaire. Tous les aspects à même d’intéresser les stratèges politiques ne sont pas numérisés ou numérisables. Il est donc encore impossible de ne s’appuyer que sur le big data pour analyser les comportements électoraux, il faut toujours avoir recours à des études d’opinion et enquêtes sociologiques, à la science politique et à l’Histoire. D’autre part, chaque information est brute et sans contexte ce qui n’aide pas à donner du sens aux faits ou aux évènements en question. Les données ne fournissent pas d’explication des phénomènes qu’elles décrivent. Ce manque de signification est d’autant plus problématique qu’avec cette approche, le réel devient une norme indépassable. Le big data est en effet pour l’instant utilisé dans les campagnes électorales dans le but de s’appuyer sur l’opinion publique existante et non la modifier. Le but de la politique est pourtant de débattre et convaincre pour faire évoluer les mentalités et la société. On a au passage vu que l’utilisation des mégadonnées en politique ne s’appuyait pas seulement sur l’argumentation mais aussi sur la manipulation, les biais cognitifs ou certains bas instincts. Antoinette Rouvroy et Thomas Berns ont ainsi raison de pointer l’indifférence qu’une telle conception politique peut avoir pour les individus en ne les considérant qu’à travers un « double statistique » issu de corrélations automatisées : « Seules comptent les relations entre les données, qui ne sont que des fragments infraindividuels, miroitements partiels et impersonnels d’existences quotidiennes que le datamining permet de corréler à un niveau supra-individuel, mais qui ne dessine aucun dépassement de l’individu, aucun peuple donc. »[11] Le peuple est en somme bien loin des considérations qui conduisent ces pratiques. Pour finir, il ne faut pas oublier que si les États-Unis sont le fer de lance dans l’exploitation des données massives, ce n’est pas tant grâce à une avance technologique que par des particularités culturelles notamment une grande tolérance juridique.

Comment le big data politique est tenu loin de la politique française

La transposition des pratiques américaines en France est loin d’aller de soi. Lors de l’élection présidentielle de 2017, l’entreprise canadienne Filtéris prétendait par exemple utiliser le big data pour prédire les résultats finaux à l’aide de calculs tenus secrets[12]. Les indicateurs retenus n’auront pas permis d’obtenir une prédiction concluante (la dernière mesure de l’entreprise donnait Marine Le Pen en tête suivie de François Fillon, Jean-Luc Mélenchon puis Emmanuel Macron). L’usage de bases de données à des fins de militantisme est également plus tabou en France où il « s’accompagne de présupposés négatifs sur la technicisation des campagnes délaissant l’humain »[13]. Il faut aussi garder en tête que la législation des États-Unis reste très permissive quant à l’utilisation des données personnelles. Au contraire, il est en France interdit d’acquérir ou de constituer des bases de données sans l’accord préalable des personnes répertoriées. Pour contourner les dispositions de la CNIL, les équipes de communication françaises récoltent des données non pas individuelles et personnelles mais collectives et rendues publiques, comme les résultats électoraux par bureau de vote, par quartier, par ville, par région ou les divers chiffres de l’INSEE[14]. La communication politique très ciblée est donc impossible. Les sympathisants faisant du porte à porte ne peuvent par exemple cibler leurs opérations qu’à l’échelle du quartier et ne disposent presque d’aucune information sur les personnes qu’ils visitent. Ils ne font finalement que distribuer des tracts de façon à peine plus sélective que ce qui est fait d’ordinaire. Cette contrainte juridique rend le big data quasiment inexploitable lors d’élections françaises. Par ailleurs, il est clair que l’inflation des budgets de campagnes électorales aux États-Unis est en partie due à l’exploitation nouvelle des mégadonnées. Or, les budgets de campagne sont loin d’être comparables des deux côtés de l’Atlantique. Alors qu’ils sont en France généralement plafonnés autour d’une vingtaine de millions d’euros par le Conseil d’État, les budgets de campagne sont dérégulés aux États-Unis. A titre d’exemples, Emmanuel Macron a dépensé pour les deux tours de sa campagne de 2017 moins de 17 millions d’euros et Marine Le Pen près de 12 millions et demi. Pour l’élection de 2016, Hillary Clinton avait, elle, dépensé 1 milliard 200 millions de dollar[15]. De tels écarts de budget rendent forcément les possibilités techniques inégales.

L’avis des étudiants

Cette fois encore, les étudiants sont unanimement critiques quand il s’agit de l’utilisation du big data pour des campagnes électorales. Tous en ont une mauvaise opinion. Si l’on tente d’en savoir plus, on constate que cela suscite de fortes suspicions de manipulation. Peut-être parce que la France a une longue histoire de conflictualité politique, les opinions personnelles politiques et idéologiques sont entourées d’un certain tabou au sein de notre échantillon. Elles sont considérées comme relevant d’une forme particulière et assez sensible de vie privée. Les personnes interrogées justifient cet avis en faisant référence aux conséquences possibles. En effet, plusieurs étudiants mettent en avant le fait que l’usage du big data à des fins de propagande politique est un instrument à leurs yeux potentiellement très efficace mais manipulatoire. C’est parce le traitement des mégadonnées permettraient selon eux de donner à un candidat le pouvoir politique tout en constituant une sorte de manipulation des électeurs que cette technique est relativement mal vue, en particulier par les étudiants qui ne sont pas inscrits dans des spécialités liées au numérique.

La main invisible des algorithmes

En somme, l’exploitation automatisée de données formatées par des systèmes informatiques nous rapproche plus que jamais du rêve qu’ont eu certains de calculer l’être humain pour maîtriser l’incertitude inévitable qu’il génère. Le big data, parce qu’il s’appuie essentiellement sur des corrélations, représenterait toutefois une sort d’automatisation de l’étude dont les résultats sont précis mais pauvres en explications. C’est vraisemblablement parce que le big data ne fournit pas d’interprétation que cette technique se tourne vers le prédictif. Les faits sont livrés sans les causes. De plus, il faut garder à l’esprit que de larges pans de la vie sociale ne sont pas, à l’heure actuelle, observables au format numérique et que ces éléments non transformables en données sont susceptibles de fausser le travail de connaissance des êtres humains. Il est difficile de saisir avec exactitude quelles sont les probabilités d’obtention des données car tous les faits sociaux ni tous les individus ne laissent des traces en ligne avec la même facilité, dans les mêmes quantités ou sur les mêmes espaces. Même les nouvelles technologies n’ont pas rendu tous les aspects de la vie humaine calculables. Au final, la vraie valeur ajoutée des données concernées est au fond surtout qu’elles sont volées, du moins obtenues sans réel consentement, et qu’elles concernent des aspects de la vie privée des individus qui étaient auparavant inaccessibles en de telles quantités. On ne tient pas encore de méthode assez efficace pour pleinement les exploiter. Enfin, la froideur matérielle et objective de tels outils peut laisser croire à une neutralité trompeuse. L’exploitation du big data n’en repose pas moins sur des choix humains donc faillibles et potentiellement biaisés. Des opinions, des représentations ou des volontés se nichent dans les algorithmes programmés par des êtres de chair. Il est cependant plus commode et rassurant de croire en la main invisible des algorithmes. Pour des raisons de praticité d’abord, car déléguer le travail aux machines est en effet bien commode. Pour se rassurer ensuite, dans la mesure où la masse pléthorique de données accessibles et la sophistication des procédés utilisés pour les traiter tendent à généraliser un sentiment de contrôle dont on a vu qu’il était illusoire. Dans un sondage IFOP paru en janvier 2017[16], on apprend qu’une majorité de Français (53%) estime que les algorithmes sont plutôt une source d’erreurs contre 47% pensant qu’ils sont plutôt fiables. On pourrait ainsi se dire que le scepticisme prévaut. Néanmoins, si l’on se penche sur les opinions selon l’âge, on s’aperçoit que plus on est jeune plus on juge les algorithmes fiables (seuls 47% des 65 ans et plus les pensent fiables alors que c’est le cas de 61% des 18-24ans). On peut ainsi s’attendre à une influence croissante des algorithmes dans notre société donc à un usage toujours plus présent des outils numériques et par conséquent à l’augmentation de la quantité de données disponibles. Peut-être est-ce le signe de ce que Yuval Noah Harari qualifie de « dataïsme »[17], une sorte de nouvelle croyance en le big data. Le chercheur israélien affirme que si les algorithmes sont capables de calculer, de manière statistique à partir de quantités colossales de données donc plus efficacement que les Humains, quels sont les meilleurs choix à faire dans nos vies, alors de plus en plus de décisions individuelles et collectives leur seront confiées. Si à l’heure actuelle, l’être humain est dans une certaine mesure pistable et quantifiable, il ne semble pas réellement calculable, mais peut-être le sera-t-il de plus en plus. Il nous reste à comprendre quelles conséquences sont susceptibles de s’ensuivre et de nous désorienter quand on essaye et prétend calculer l’être humain.

 

Mathieu OUAGAZZAL

 

 

 

Bibliographie :

 

Camille Alloing, Nicolas Moinet, « Les signaux faibles : du mythe à la mystification », Hermès, La Revue 2016/3 (n° 76), p. 86-92

Jacques Bille, « Marketing politique et big data », Commentaire 2015/2 (Numéro 150), p. 307-314

Dominique Boullier, « Les sciences sociales face aux traces du big data. Société, opinion ou vibrations ? », Revue française de science politique 2015/5 (Vol. 65), p. 805-828

Jean-Pierre Dubois, « Nos droits face aux « big data » : quels enjeux, quels risques, quelles garanties ? », Après-demain 2016/1 (N ° 37, NF), p. 6-9

Béatrice Galinon-Mélènec, Sami Zlitni, « L’Homme-trace, producteur de traces numériques », CNRS éditions, pp.7-19, 2013

Éric Jean, « Les enjeux liés à la collecte de données en ligne. Le cas d’une recherche auprès de gestionnaires », La Revue des Sciences de Gestion 2015/2 (N° 272), p. 13-21

Étienne Ollion, « L’abondance et ses revers. Big data, open data et recherches sur les questions sociales », Informations sociales 2015/5 (n° 191), p. 70-79

Anne-Sylvie Pharabod et al., « La mise en chiffres de soi. Une approche compréhensive des mesures personnelles », Réseaux 2013/1 (n° 177), p. 97-129

Xavier Raufer, « Démons et merveilles du « prédictif » : une bonne fois pour toutes… », Sécurité globale 2016/4 (N° 8), p. 107-120

Antoinette Rouvroy, Thomas Berns, « Gouvernementalité algorithmique et perspectives d’émancipation. Le disparate comme condition d’individuation par la relation ? », Réseaux 2013/1 (n° 177), p. 163-196

Jay Rowell, « De l’urne de Bernoulli au big data. Penser la quantification avec Alain Desrosières », Genèses 2016/3 (n° 104), p. 163-168

Alain Supiot et al., « Quand les nombres nous gouvernent », Études 2016/9 (Septembre), p. 53-66

Anaïs Théviot, « Les data : nouveau trésor des partis politiques ? Croyances, constitutions et usages comparés des données numériques au Parti Socialiste et à l’Union pour un Mouvement Populaire », Politiques de communication 2016/1 (N° 6), p. 137-166.

Alain Vulbeau, « Contrepoint – L’infobésité et les risques de la surinformation », Informations sociales 2015/5 (n° 191), p. 35-35

 

Edwin Black, « IBM et l’Holocauste, L’alliance stratégique entre l’Allemagne nazie et la plus puissante multinationale américaine », Robert Laffont, 2001, 610 p

Pierre Bourdieu, Pierre, « La distinction : critique sociale du jugement », Minuit, 1979, 672p.

Yuval Noah Harari, “Homo Deus: A brief history of tomorrow”, Random House, 2016

Taleb Nassim Nicholas, « Le Cygne noir. La puissance de l’imprévisible », Les Belles Lettres, 2008

 

[1] http://quantifiedself.com/

[2] Anne-Sylvie Pharabod et al., « La mise en chiffres de soi. Une approche compréhensive des mesures personnelles », Réseaux 2013/1 (n° 177), p. 97-129

[3] Edwin Black, « IBM et l’Holocauste, L’alliance stratégique entre l’Allemagne nazie et la plus puissante multinationale américaine », Robert Laffont, 2001, 610 p

[4] http://www.01net.com/actualites/thinthread-le-programme-ferme-par-la-nsa-qui-aurait-pu-eviter-les-attentats-du-11-septembre-932074.html

[5] https://mic.com/articles/48845/booz-allen-hamilton-70-of-the-u-s-intelligence-budget-goes-to-private-contractors#.nZk0ZDLPe

[5′] https://www.monde-diplomatique.fr/2016/03/FRANK/54926

[6] Xavier Raufer, « Démons et merveilles du « prédictif » : une bonne fois pour toutes… », Sécurité globale 2016/4 (N° 8), p. 107-120

[7] Taleb Nassim Nicholas, « Le Cygne noir. La puissance de l’imprévisible », Les Belles Lettres, 2008

[8] https://www.bva-group.com/sondages/francais-donnees-numeriques-sondage-bva-figaro/

[9] https://motherboard.vice.com/en_us/article/mg9vvn/how-our-likes-helped-trump-win

[10] Pierre Bourdieu, Pierre, « La distinction : critique sociale du jugement », Minuit, 1979, 672p.

[11] Antoinette Rouvroy, Thomas Berns, « Gouvernementalité algorithmique et perspectives d’émancipation. Le disparate comme condition d’individuation par la relation ? », Réseaux 2013/1 (n° 177), p. 163-196

[12] « Filtéris : le big data est-il en passe de ringardiser les sondages ? », BFMTV, 2017 : http://bfmbusiness.bfmtv.com/mediaplayer/video/filteris-le-big-data-est-il-en-passe-de-ringardiser-les-sondages-925919.html

[13] Anaïs Théviot, « Les data : nouveau trésor des partis politiques ? Croyances, constitutions et usages comparés des données numériques au Parti Socialiste et à l’Union pour un Mouvement Populaire », Politiques de communication 2016/1 (N° 6), p. 137-166.

[14] A noter que beaucoup de données publiques issues du recensement sont également exploitées aux États-Unis où l’US Census Bureau va par exemple jusqu’à publier des cartographies ethniques de quartiers.

[15] https://nypost.com/2016/12/09/hillary-clintons-losing-campaign-cost-a-record-1-2b/

[16] http://www.ifop.com/?option=com_publication&type=poll&id=3621

[17] Yuval Noah Harari, “Homo Deus: A brief history of tomorrow”, Random House, 2016

Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *