# Contenu et sémantisation sur Twitter et Instagram

le

Par Richard Legrand

Sur Internet, les réseaux sociaux sont devenus un nouvel espace public – ou partiellement public – d’expression. Définis en 2007 par Nicole Ellison et Danah Boyd comme étant “Des services Web qui permettent aux individus de construire un profil public ou semi-public dans un système délimité et d’articuler une liste d’autres utilisateurs avec lesquels ils partagent des relations”, ils sont aujourd’hui investis par plusieurs gammes d’utilisateurs qui les investissent d’usages spécifiques : marques ou institutions souhaitant assurer leur communication ; influenceurs digitaux dont l’image constitue le fond de commerce ; simples individus souhaitant communiquer dans leur cercle de relations.

De nos jours, une part importante de la population mondiale – et une part largement majoritaire au sein des pays occidentaux – est présente sur ces réseaux sociaux. Il y aurait, sur 3.42 milliards d’internautes, 2.33 milliards qui sont actifs sur les réseaux sociaux, soit presque un tiers du nombre d’humains sur Terre. Nés du renouveau d’Internet dans la première moitié des années 2000 dans ce qui est communément désigné comme “web 2.0”, mettant l’accent sur la participation active de l’internaute devenu créateur autant que consommateur de contenu, des grands noms comme Facebook ou Twitter en sont aujourd’hui les fers de lance économiques.

Car en continuité du web 2.0 qui a vu se multiplier les contenus, ainsi que des progrès des terminaux informatiques notamment mobiles qui ont pu collecter un nombre croissant de données, a commencé ce qui peut être appelé un âge d’or des data. Grâce à l’activité de leurs utilisateurs, les réseaux sociaux en sont gorgés. Elles peuvent aussi bien être utilisées par des marques pour prédire les comportements des consommateurs ; par des logiciels de marketing politique cibler des citoyens ; ou par des chercheurs pour accéder à des corpus de recherche notablement larges. Pour dire les choses en reprenant une classification mise en place par Dominique Cardon, l’utilisation de ces données permet d’effectuer une analyse du web “en-dedans”, directement grâce aux traces que les internautes y ont laissées.

Mais ces traces sont de formats multiples – textes, images, vidéos, partages – dont le processus d’extraction de sens peut s’avérer compliqué pour les systèmes automatisés déployés pour traiter de tels volumes. Comprendre comment ces données sont obtenues, catégorisées, sémantisées et interconnectées est donc un enjeu d’importance préalablement à tout étude.

Si le sujet ainsi dessiné est assurément large, nous allons ici nous questionner dans un cadre précis, à savoir celui du sens et de la valeur des “hashtags” au sein de deux réseaux réseaux sociaux dont la comparaison nourrira notre compréhension : Twitter et Instagram. Dans un premier temps, nous présenterons plus en détail ces deux réseaux et les enjeux économiques qu’y représentent les données ; avant de nous pencher plus en détail sur la question des hashtags et du sens qu’ils produisent pour l’humain comme pour la machine ; et enfin de nous intéresser aux outils à notre disposition pour y accomplir une analyse de corpus, en mettant en avant leurs possibilités et leurs limites.

Lire le dossier en intégralité

Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *