Petit manuel des veilles biaisées

Print Friendly, PDF & Email

Voici maintenant des années que le marché de la social data est en plein essor. De plus en plus, on évolue vers des plateformes de veille où l’on nous promet qu’en deux clics,  un reporting parfait émergera. Tellement parfait qu’il suffirait de l’envoyer tel quel aux clients. Cette logique de la veille où l’on reçoit tout pour argent comptant est une chimère qui se transforme petit à petit en un véritable danger dans la mesure où la responsabilité de ces reportings incombe de plus en plus à des responsables de projet qui sont de véritables chèvres de la veille.

Incapable de paramétrer les requests qui fondent leur veille, incapable de filtrer leur requête, incapable de voir plus loin que les dashboard, ces François Pignon n’ont qu’une seule capacité : copier-coller des graphiques, sheets et recommandations prêtes à l’emploi dans un PowerPoint. C’est la raison pour laquelle j’estimais plus qu’indispensable, ne serait-ce que par honnêteté intellectuelle de revenir sur tous les chantiers de la veille sur les réseaux sociaux.

I. Le contexte

Signalons d’emblée que les propos ici sont généraux et varient donc en fonction des plateformes, des agences ou des annonceurs.

Tous dépendants des API.

Il existe un grand nombre d’impossibilités techniques dans le champ de la veille. Il faut savoir que les logiciels de veille reposent sur les tunnels que mettent à leur disposition les acteurs du Web. C’est ce qu’on appelle l’API pour Application Programming Interface. Si du jour au lendemain, un acteur du Web change un aspect dans cet API, n’importe quel logiciel de veille en sera affecté. Ces tunnels structurent donc tout ce qu’il est possible ou pas de faire. Si ce que l’on cherche n’est pas fourni par l’API, il est dès lors impossible d’effectuer quoi que ce soit. Ainsi, pour Facebook, il n’est pas possible de faire des recherches sémantiques à travers les profils d’utilisateurs, et ce même si leur post est public. Sur Linkedin, il est impossible d’accéder à presque toutes les informations, sauf les siennes.

De façon globale, il y a également ce qu’on appelle le Dark Web, soit tous les sites qui ne sont pas indexés par les moteurs de recherche. Pour qu’un site soit référencé par ce dernier, il faut que le Webmaster n’ait pas interdit l’interdit aux crawleurs (No-follow) et ou qu’un site référencé pointe vers ce lien non référencé. Tout ce champ n’est pas référencé et n’est donc pas visible par les moteurs de recherche et outils de veille traditionnels.

Tous axé sur la sémantique

Tous les logiciels ou presque ne permettent que de faire des relevés par objet sémantique. (Circonscrire à des mots et à des langues) On pourrait également citer la géolocalisation, mais le nombre d’outils disponible (Uniquement Twitter) et le nombre de personnes ayant activé l’option ne rendent pas la démarche très productive.

À côté de tout le texte et de la linguistique, des initiatives commencent à émerger çà et là autour de la reconnaissance d’image avec plus ou moins de succès. On connaît la recherche de Google par image, mais celle-ci n’est pas encore réellement au point pour ceux qui l’auront expérimenté. De plus, aucun logiciel de veille ne permet d’automatiser un flux par rapport à cela.

Google Image

Le moteur de recherche de la défense américaine : Memex serait plus adroit que Google pour décrypter les images. Du côté de la veille, une initiative pourrait faire parler d’elle : celle de Talkwalker qui proposerait la reconnaissance d’image pour extraire du contenu en rapport avec les marques. (Sur base des logos, etc.)  Dans un monde où l’image et la vidéo prennent de plus en plus d’importance, ce mode de veille devra prendre de l’importance et il y a fort à parier que cela représente un levier de croissance pour les plateformes de veille.

Autre point de contexte, presque toutes les marques utilisent les logiciels de veille pour écouter leur propre nombril : le nom de la marque, les noms de produit, les noms des dirigeants. Quelques marques mettent en place des War Rooms qui scrutent l’entièreté du Web.

War room

Mais presque aucune ne met en place une veille basée sur des personnes. Pourtant, les possibilités et les enseignements peuvent être très importants et les moyens techniques sont tout à fait possibles.

Des conversations qui n’en sont pas

Pas mal de logiciels de veille vantent le fait qu’ils captent des conversations. Sur Twitter ou sur Facebook, les conversations ne sont pas captées. Ce dernier ne propose rien et L’API sur les tweets propose des méta données qui sont : le lien, le hashtag, l’heure du tweet, les personnes mentionnées, les retweets, l’id du tweet… et une catégorie « Reply to id » qui ne fonctionne pas. Cette catégorie permettrait de capter toutes les réponses à un tweet identifié. Comme je pense avoir perdu pas mal de lecteurs dans cette explication, je vais prendre un simple exemple.

Soit un community manager ayant un logiciel de veille qui récupère des tweets autour de sa marque. Il a inscrit « Direct Energie » sur celui-ci et capte tous les tweets comportant la marque. Sur cet exemple :

On ne capterait que le premier tweet. Or, ceux qui intéressent les marques sont souvent les tweets N+1, soit les réponses à celui-ci. Et cela, Twitter ne le permet pas malgré une option dans son API. A une question qui serait « Que pensez-vous de la marque X », aucune réponse ou presque ne reprendrait la mention X, ce qui fait que le logiciel de veille ne le traitera jamais.

II. Les indicateurs bidon

1. Le nombre d’impressions.

Vaste fumisterie pourtant présente dans tous les logiciels de veille, le nombre d’impressions est une énorme approximation qui souffre de deux problèmes.

Premièrement, qu’est-ce qu’une impression ? Vous êtes sur votre smartphone, vous naviguez nonchalamment du bout de pouce à travers votre timeline, vous voyez une microseconde un tweet avant que votre pouce ne fasse apparaître d’autres flopées de tweets. 1 impression. Vous êtes maintenant dans votre lit, avec votre iPad, et vous refaites le fil de la journée. 2 impressions. Etc. Une impression n’est qu’une apparition sur un device, et ce même si celle-ci ne se traduit pas par une attention particulière. Depuis peu, sur Twitter, le nombre d’impressions comprend également les « embedded tweets » présents sur les sites en ligne.

L’impression sur les logiciels de veille. Le chiffre affiché sur tous les dashboard n’est qu’une mesure idéale. C’est la somme de tous les followers qui ont partagé les tweets correspondants à la requests que vous avez faite. Si le monitoring s’effectue sur votre compte, il est la somme de vos followers + la somme de tous les followers qui ont retweeté votre tweet.

Capture d’ecran 2016-04-07 à 12.42.56

Cela ne comprend donc pas :

  • La soustraction des inactifs de votre compte, de ceux qui ne se sont pas connectés, ou qui n’ont jamais vu votre message
  • Toutes les impressions gagnées par les embedded tweets sur les médias en ligne, et toutes les impressions glanées par le moteur de recherche ou le suivi d’un hashtag.

Le nombre d’impressions est donc un indicateur fallacieux, et n’est en rien une donnée fiable dans la mesure où des « influenceurs » historiques ont plus de 60 % d’inactifs parmi leurs followers. Il ne peut donc pas être pris pour benchmark ou toute autre chose. Je suis également au regret de vous annoncer que les concours d’influenceur sur certains événements étaient totalement truqués dans la mesure où il suffisait de tweeter avec son gros compte bourré d’inactif pour émerger en vainqueur.

Ces chiffres fallacieux sont dans tous les logiciels de veille, pour la simple raison que l’accès à Twitter Analytics et ses précieux chiffres n’est pas disponible via une quelconque API.

2. Le nombre de vues Facebook.

Autre pure arnaque qui floue pas mal de journalistes lorsqu’ils analysent des buzz. Le nombre de vues affiché par Facebook.

Capture d’ecran 2016-04-07 à 12.57.03

En réalité, ce nombre est totalement gonflé du fait de l’autoplay sur les timelines Facebook. La démonstration a parfaitement été faite par le Blog du Temps. En réalité, il s’agit de l’entièreté des gens qui ont subi une « impression », même s’ils n’ont jamais regardé la vidéo. En allant plus loin dans les statistiques, on voit parfaitement le phénomène :

fidelisation-1024x427

Dans l’exemple montré et qui serait représentatif, l’audience après 10 secondes ne serait plus que de 25,7 %.

3. Le nombre de followers/fans

Je vous renvoie aux égouts de l’influence volume I et volume II pour comprendre pourquoi cela ne veut absolument rien dire.

4. Les magnifiques mappemondes

Absolument magnifiques, elles permettraient de voir l’étendue de son pouvoir à travers le monde. On peut ainsi voir que notre influence s’étend jusqu’au fin fond de la Papouasie Orientale grâce à notre présence Web.

Mappemonde veille

En réalité pas mal de ces chiffres sont totalement tendancieux, voire fallacieux. Tout simplement parce que :

  • Pour les articles de Blog et Web, ils tiennent pour la plupart en compte l’emplacement du serveur. Reputatio Lab serait donc italien.
  • Pour Twitter, il n’existe en réalité aucune donnée fiable. Pourquoi ? Parce que lorsqu’on s’inscrit, la seule donnée plus au moins « listée » accessible via l’API est le fuseau horaire dans lequel on s’insère. La localité introduite est manuelle et ne peut donc être qu’interprétée via une autre API qui va localiser ce qui est introduit.
  • Pour Facebook, il n’y a pas d’accès via API au lieu de la personne.

Ces mappemondes ne sont donc que des effets visuels destinés à impressionner le chaland sur son influence mondiale. Comme cette option est présente dans la plupart des plateformes, les autres copient l’option, la plupart du temps avec la même API.

5. Les algorithmes de tonalité

La plus grosse fumisterie de tous les logiciels de veille : la tonalité des messages en positifs/négatifs et pour les moins charlatan en « neutre ». La plupart du temps, les logiciels de veille se justifieront en disant travailler avec les plus grands laboratoires de linguistique scientifique au monde. Tout ça n’est que de la poudre aux yeux. Je le sais, parce que je n’ai qu’à faire quelques pas pour croiser ces linguistes qui diront tous que ces données ne sont pas fiables, mais qu’on tend vers une « marge d’erreur ». Et puisque l’on parle de marge d’erreur, quelle est-elle ? La plupart des logiciels utilisent des APIs libres à l’emploi. Ces APIS ont été testées dans un Benchmark, comparées à un humain, et menées sur une langue anglaise moins complexe. Voici les résultats :

products_accuracy

L’API la plus proche ne donnait que 67 % de correspondance avec un humain, soit près de 33 % d’écart !

III. Les mauvaises utilisations

Beaucoup trop de bruits

Parfois, des utilisations peuvent être pas tout à fait parfaites. Je suis toujours étonné par exemple du nombre de volume qui augmente le bruit autour d’une organisation. Des mots génériques qui vont considérablement affecter tous les dashboards. Et des fois, ce bruit vient de là où on ne l’attend pas. EDF, par exemple, subit de plein fouet l’utilisation de l’acronyme pour « équipe de France ». Il est nécessaire de couper ce bruit, et pourtant, peu d’agences de communication le font. La faute à un paramètre opéré par le chargé de clientèle du logiciel de veille qui a tout intérêt à « blinder les requêtes » dans le but d’augmenter le tarif.

Attention aux Worldcloud

Chaque logiciel de veille met à disposition un Wordcloud qui résume les mots les plus utilisés autour des requêtes. Cependant ce Worldcloud a divers soucis :

  • Il est fortement influencé par Twitter. Un article de presse n’aura pas le même point que les 2000 tweets.
  • Comme il est fortement influencé par Twitter, les titres d’articles auront énormément d’impact sur le WordCloud
  • De même, il sera fortement influencé par les tweets les plus retweetés. Une bonne pratique consiste parfois à filtrer les mots sans les retweets. Cependant, tous les logiciels ne proposent pas l’option.

Une méconnaissance des requêtes comprises dans les dashboards

Bien trop souvent, la personne en charge de la gestion de la plateforme de veille ne connaît pas assez les requêtes qui ont été introduites pour générer les dashboards. À ce titre, j’ai une anecdote savoureuse où contacté pour analyser une crise sur les réseaux sociaux, je prends la main de la plateforme fournie à une agence depuis près de 1 mois et demi. Lorsque j’utilise l’API de Twitter, je n’obtiens pas du tout les mêmes résultats que les dashboards donnés par la plateforme de veille. On décide alors de contacter le chargé de clientèle de cette dernière pour lui faire état de grosses incohérences. Il me demande alors de lui montrer un échantillon de tweets non présents sur la plateforme. Une fois la démarche exécutée, il renvoie un mail pour annoncer l’incroyable : lors du paramètre des requêtes, le chargé de clientèle avait oublié d’introduire le nom de la marque dans les requêtes, et ce depuis un mois. Révélateur de la méconnaissance de la partie « back-office » qui prévaut parfois dans la gestion de ces plateformes.

 

Voilà, j’espère avoir dressé de manière succincte (ce fut dur de limiter la longueur de cet article) les problématiques et enjeux de la veille actuelle. Il est un fait que la veille stratégique sur les réseaux sociaux n’en est qu’à ses débuts et c’est la raison pour laquelle il est à mon sens important de dresser une revue des limites, mais aussi des opportunités de celle-ci.

  • Fabrice Berrahil

    Pas mieux ! Ah si : juste dire que ce sont quand même des outils incontournables si on veut faire de la veille un peu sérieusement. Simplement, ne pas oublier que le facteur humain est ce qui rendra la veille soit de qualité soit bullshit. Facteur humain c’est : cadrage stratégique de la démarche de veille avec l’ensemble de l’orga / définition d’objectifs / choix d’outils et de méthodes (en essayant de ne pas « s’enfermer » dans un outil) / évaluation et ajustements des outils et des méthodes / définition et configuration des requêtes (en fonction de la strat) / traitement des résultats / boucles de vérification et d’ajustement / analyse stratégique des résultats (en comptant sur son cerveau pas sur les outils)… et puis aussi lucidité, transparence et honnéteté sur les limites de l’exercice (pour se prémunir de la pensée magique technologiste).

  • David Millian

    Article salvateur. Merci énormémement de mettre le doigt sur les nombreux dérapages en cours dans le milieu du conseil…

  • Anne-Sophie Pereira

    Bonjour,

    Merci pour cet article intelligent et très pertinent.

    Je vais me permettre de rebondir sur qqs points à bâtons rompus, mais avant tout, je me présente : après 7 ans en agence RP à réaliser et coordonner des missions de veille en ligne, je travaille en tant que charge de clientèle chez le fournisseur d’outils Sysomos. Voilà, pour le petit disclaimer en toute transparence de bon aloi, & « views are my own » etc. 😉

    Tous dépendants des API = oh que oui. C’est parfois frustrant, mais c’est ainsi !

    Tous axé sur la sémantique / de la question de la reconnaissance d’image = oh que oui, de nouveau. Coté fournisseurs d’outils, il y a du progrès sur la dernière année. Outre l’offre de Talkwalker, Synthesio a lancé un partenariat avec Ditto, Sysomos a racheté une startup pour lancer Gaze. La prochaine question pour les veilleurs : comment intégrer cette data supplémentaire dans l’analyse ? Ça promet des chantiers passionnants !

    Tous axé sur la sémantique / peu de veille d’audience = encore une fois, oh que oui. C’est tellement dommage, car, comment communiquer intelligemment quand on ne fait que surveiller, et non écouter ses audiences ? « les moyens techniques sont tout à fait possibles » : en tant que customer success manager, je les recommande toujours à mes clients les plus avancés. Mais en vérité, ils rencontrent toujours le problème que j’avais moi-même en agence : « oh oui, ça a l’air intéressant. Quand on aura le temps ». Autrement dit, pas en 2016 😉

    Le nombre d’impressions = le souci, c’est qu’à moins d’avoir accès aux Google analytics d’un blog, ou au compte Twitter, on aura jamais accès a cette data privée. Donc que faire ? Je comprends parfaitement votre critique. Ensuite, chaque analyste / agence / client a sa propre philosophie, par rapport au reach. Certains aiment bien les gros chiffres flatteurs, certains appliquent leur propre algorithme de nettoyage. Je pense qu’on gagnerait déjà un peu à renommer cet indicateur « potentiel reach », ou comme on dit chez les marketeux « opportunities to see ».

    Les magnifiques mappemondes / Twitter « lorsqu’on s’inscrit, la seule donnée plus au moins « listée » accessible via l’API est le fuseau horaire dans lequel on s’insère » = hum, je viens de vérifier, on peut (sans obligation) rentrer son pays. De deux choses l’une, soit votre outil vous indique la géo uniquement d’après ce qui est renseigne par l’internaute, soit il y a un algo plus complexe, et ça vaut la peine de demander à en savoir plus.

    Requêtes / Beaucoup trop de bruit, Worldcloud qui donne la part belle à Twitter = on l’oublie trop souvent, le paramétrage du projet ou de la requête sont des étapes essentielles. Mauvais paramétrage = résultats biaisés, pour revenir sur votre titre 😉 Au final, le métier d’analyste a de beaux jours devant lui, la machine est loin de remplacer l’intelligence humaine !

  • Acube

    Pour reprendre l’intro de Fabrice Barrahil : Pas mieux !
    et ajouter toutefois que « chaque matin un pigeon se lève quelque part »
    et si ce pigeon – inculte et désorienté par le miroir aux alouettes de la veille « tout numérique » – souhaite dépenser l’argent de son entreprise dans des rapports dénués de contenus, grands biens lui fasse.
    La veille est un préalable à la réflexion, elle même préalable à l’action.
    dit autrement c’est l’intelligence mise en exposant des données de veille qui fera la qualité de celle-ci et chacun comprend qu’avec un exposant tendant vers zéro…