Tracking des Mentions sur les LLM : étude sur la volatilité des résultats sur Chat-GPT

Lionel Cherpin Directeur Conseil & CEO

Suivre les mentions d’une marque dans des outils comme ChatGPT ou Perplexity, ça semble simple sur le papier, mais en réalité… c’est loin d’être fiable. Les réponses des LLM varient énormément d’un compte à l’autre, d’un jour à l’autre, même avec les mêmes questions. Chez Empirik, on a mené une petite étude interne sur le sujet, et les résultats sont parlants : entre volatilité des réponses, mémorisation aléatoire et impossibilité de suivre les positions, il faut revoir complètement la façon de faire. On vous partage ici nos constats et quelques bonnes pratiques pour un suivi plus solide.

Pourquoi cette étude ?

Les Large Language Models (LLM) comme ChatGPT transforment l’accès à l’information.

Mais peut-on suivre les mentions de marques ou d’entreprises aussi facilement que sur le web traditionnel ?

Nous avons mené une étude pour explorer la volatilité des réponses et les défis du monitoring sur ces nouvelles plateformes.

Notre méthodologie

Nous avons analysé les réponses de ChatGPT à une série de prompts 

  • Sur 20 “vrais” comptes ChatGPT utilisés au quotidien par des collaborateurs d’Empirik avec un fort historique sur les sujets du marketing digital
  • Couvrant 2 thématiques : la recherche d’hôtel et la recherche d’agences digitales

Avec 2 types de prompts : “Classiques” (type recherche par mots-clés sur Google) et “Contextuels IA” (mises en situation).

Exemple de prompts

Prompts classiques

  • Digital : “quelle est la meilleure agence de génération de leads à Lyon ?”
  • Hotel : “quels sont les meilleurs hôtels à Chamonix pour un séminaire ?”

Prompts contextuels IA

Digital : “Je suis le directeur e-commerce d’une entreprise qui fabrique des pièces automobiles. Mon site utilise le CMS Shopify. Je suis la recherche d’une agence analytics basée à Lyon qui pourrait m’aider à déployer la solution GA4 en server side.”

Prompts contextuels IA

Hôtel : “Nous sommes un groupe d’amis ayant entre 30 et 35 ans et habitant à 30 kms de Chamonix. Nous cherchons un restaurant et un bar sympa proposant des cocktails. Nous sommes 6. Que proposes tu ?”

Métriques et traitements

  • Similarité des résultats : Indice de Jaccard moyen par prompt. 
  • Stabilité des positions : Coefficient de Kendall Tau 
  • Diversité des entités : Pourcentage d’entités uniques (apparaissant une seule fois par prompt). 
  • Analyse comparative : Par thématique et par type de prompt. 

Normalisation : Regroupement des variantes de noms d’entités pour une analyse cohérente.

Limites de l’étude

  • Taille de l’échantillon : L’analyse porte sur 12 prompts. Des tendances observées pourraient évoluer avec un corpus plus large.
  • Instantanéité : Les résultats des LLMs sont dynamiques. Cette analyse est une photographie à un instant T.

Normalisation des entités : Bien que rigoureuse, elle peut toujours comporter des imperfections face à la créativité lexicale des LLMs.

Enseignement N°1 : Une volatilité extrême des résultats

Pour un même prompt, les réponses des LLMs varient considérablement d’une session à l’autre.

La preuve en chiffres

  • Seulement 14.60% de similarité moyenne (Indice de Jaccard) entre les listes d’entités pour un même prompt.
    Cela signifie qu’en moyenne, seulement 14.60% des entités sont communes entre les listes de résultats pour un même prompt.
  • En moyenne, 63.33% d’entités uniques apparaissant une seule fois sur l’ensemble des résultats pour un même prompt !

Ces chiffres illustrent sans équivoque la difficulté d’obtenir des résultats cohérents et reproductibles, ce qui est un défi majeur pour le tracking des mentions.

Un exemple pour illustrer

Prompt 1
  • 34 entités différentes sont citées sur 26 résultats
  • 18 entités sur 34  (soit 53%) ne sont citées qu’une fois
  • 2 entités réussissent à être citées dans près de 70% des réponses mais le pourcentage chute ensuite assez vite : 38%, 31%, 23%, etc

Des constats identiques quels que soient les prompts ou les thématiques

Prompt 3

Le taux de présence moyen et médian 55% pour le top 3 des entités

Taux de présence moyen et médian
  • Si nous constatons une très forte volatilité des résultats au global, certaines entités arrivent à se détacher 
  • Le top 3 des entités de chaque prompt a un taux de présence moyen et médian de 55%.
  • Pour le top 1, le taux de présence moyen grimpe à 68%.  
  • Un taux de présence de 50% pourrait ainsi être considéré comme le seuil minimal d’une bonne visibilité sur un LLM.

Enseignement N°2 : La mémorisation accentue la volatilité des résultats

La volatilité est encore plus marquée pour les prompts dont la thématique a été “mémorisée” par Chat-GPT

La preuve en chiffres

  • Si l’indice de similarité (Jaccard) est de 14,60% au global, il n’est que de 11,42% pour les prompts de la thématique Digital.
  • Au-delà de la volatilité, on observe une dispersion plus forte sur les résultats des prompts de la thématique digitale : le pourcentage d’entités uniques par prompt est de 68,96% pour la thématique Digital contre 57,71% pour la thématique Hôtel.
  • Dans la même logique, le nombre d’entités moyen par résultat est beaucoup plus élevé pour la thématique Digital (15,4) contre 12,1 pour la thématique Hôtel. 

L’effet mémorisation

Prompt 4
  • Ces résultats plus volatiles et disparates pourrait s’explique par l’effet mémorisation des LLM.
  • Les LLMs comme Chat-GPT s’appuient sur la mémoire à court terme des conversations mais aussi les éléments importants des conversations passées pour personnaliser leurs réponses.

Webinar

Google Leak : réconcilier SEO, UX et CRO grâce à la data


Replay disponible


  • Pierre Ribeaucourt, Directeur Acquisition
  • Lionel Cherpin, CEO Empirik
Voir le replay

Une volatilité encore plus marquée pour les prompts “contextuels IA”

  • Les prompts que nous avons appelés “Contextuels IA” sont beaucoup plus détaillés et précis que les prompts classiques qui pourraient s’apparenter à une recherche SEO sur Google.
  • L’indice de similarité de leur résultats est beaucoup plus faible (12,68% contre 16,51% pour les prompts classiques). Leur pourcentage d’entités uniques par prompt est aussi plus élevé (69,90% contre 56,77%).

Ce résultat suggère une exploration plus large et moins consensuelle de la part du LLM.

Dans certains cas, la mémorisation modifie complètement la structure de la réponse

Exemple sur ce prompt : “Je suis le PDG d’une entreprise de construction de maison. Je suis à la recherche d’une agence de marketing digital lyonnaise capable de générer des leads”

Un résultat sur un compte d’un expert Analytics suggère des solutions : “Analyzify est une application Shopify dédiée à l’intégration avancée de GA4, offrant une solution clé en main pour le suivi des données.​..”

Un résultat sur un compte d’un consultant SEO propose : “En tant que directeur e-commerce d’une entreprise spécialisée dans les pièces automobiles et utilisant Shopify, vous recherchez une agence analytics basée à Lyon pour vous accompagner dans le déploiement de Google Analytics 4 (GA4) en mode server-side. Voici quelques agences lyonnaises reconnues pour leur expertise dans ce domaine : “

Enseignement N°3 : Le suivi de positions ? On oublie !

Dans les rares cas où les entités sont communes entre les mêmes résultats, leur ordre d’affichage varie énormément.

Un ordre d’affichage très instable

  • L’étude met en lumière une très forte instabilité des l’ordre d’affichage des positions. 
  • Le coefficient de Kendall Tau moyen qui mesure la similarité de l’ordre de classement de 2 variables est de 0. Une valeur de 0 indique une absence d’association ou de corrélation entre les classements.

Un suivi de position d’une mention sur un LLM n’a donc aucune intérêt. Il est donc préférable de se concentrer sur le taux de présence comme indicateur de référence de suivi des mentions.

Comment tracker les mentions sur les LLMs intelligemment ?

Une méthode de tracking à adapter

  • Il est impossible d’abandonner le tracking des mentions sur les LLMs , surtout pour une agence SEO
    , étant donné l’importance croissante de l’analyse de la visibilité d’une marque au sein des résultats IA.

  • Les résultats SEO sur Google sont également volatiles car ils sont personnalisés selon l’historique, la localisation, le profil, etc. Mais nous n’avons jamais observé une telle variabilité des résultats qui pourrait remettre en cause la fiabilité de suivi des positions.

La volatilité des LLMs est telle que les méthodes traditionnelles de tracking doivent être adaptées.

Les gardes-fous à déployer

➡️ On multiplie les interrogations d’un même prompt sur un LLM en variant les conditions de modèle (GPT4o, mini, etc) et de mémoire (aucune mémoire, mémoire très spécialisée, etc)

➡️ On calcule le taux de présence et on oublie la notion de position.

➡️ On considère qu’un bon taux de présence est à minima de 50%. Il pourrait correspondre à une visibilité en top 3 sur Google.

➡️ Un taux de présence de 70% pourrait matérialiser une visibilité optimale équivalente à une 1ère position SEO.

Vous souhaitez améliorer le tracking de vos mentions sur les LLMs ?

Contactez nous !
Vous souhaitez améliorer le tracking de vos mentions sur les LLMs ?

Ces articles peuvent vous intéresser

  • Conversion
Illustration scrapping de données amazon

Données Amazon : une mine d'or méconnue pour optimiser sa stratégie e-commerce

  • Conversion
  • SEA
  • SEO
Illustration Article Sunburst

Comment le Sunburst révolutionne l’analyse des parcours sur votre site ?