Le trafic SEO fantôme des documents PDF

Période d’Halloween oblige, nous vous proposons aujourd’hui un article sur le trafic fantôme des fichiers PDF. La diffusion de fichiers PDF est courante sur internet pour faciliter la lecture et l’impression, mais on oublie souvent que ces fichiers ont aussi le potentiel de se positionner. Les robots d’indexation sont tout à fait capables d’analyser le contenu d’un document PDF pour ensuite le positionner sur des requêtes.

 

S’il est possible d’optimiser pour le référencement naturel un fichier PDF, il est en revanche impossible d’ajouter un marqueur d’audience dans le document. Ce trafic fantôme, n’est donc pas comptabilisé dans vos statistiques Google Analytics (ou autres outils de mesure d’audience fonctionnant avec un tag).

L’indexation d’un fichier PDF

Il est courant de voir des documents PDF indexés dans les moteurs de recherche. Par méconnaissance du fonctionnement des robots d’indexation, l’indexation de ces documents n’est pas toujours souhaitée lors de leur publication sur un site. Pour identifier rapidement des fichiers indexés, vous pouvez utiliser la fonction de recherche « filetype:pdf » (pour rechercher les PDF dans Google que vous pouvez associer à une requête, comme par exemple :

 

Au moment même où je rédige cet article, cela me fait sourire de voir ce tweet de Marc Rees (NextINpact) :

 

Notez au passage dans le tweet l’utilisation de la fonction « site: » qui permet ici d’isoler la recherche sur le domaine « gouv.fr ».

Si vous ne souhaitez pas indexer ces fichiers, assurez-vous d’avoir mis en place les restrictions nécessaires sur votre site (robots.txt, gestion du header des PDF).

Des fichiers SEO-compatibles

Lors de l’exportation de votre fichier dans un format PDF, les propriétés du document sont utilisées comme instruction d’entête de document. Voici par exemple, celles d’un fichier Word :

Si on fait l’équivalence avec une page HTML, ces données correspondent aux informations inclues dans la balise <head> d’une page HTML :

  • Titre -> TITLE
  • Objet -> META Description
  • Keywords -> META

Vient ensuite l’optimisation de la structure du document. Ici aussi, si vous utilisez les styles de Word pour rédiger votre contenu nous trouvons des similitudes où les styles pour la titraille correspond au balisage H1, H2, H3, H4 :

A l’instar d’une page HTML, les PDF peuvent aussi créer de la duplication de contenu. Dans ce cas, vous pouvez également spécifier un lien canonique dans votre entête HTTP du document pour gérer cette duplication.

Mes PDF génèrent-ils du trafic sur mon site ?

Sauf à utiliser un outil d’analyse de log, il n’est pas possible de connaître avec Google Analytics le trafic capté par votre site sur des documents PDF. A défaut, vous pouvez identifier les fichiers les plus importants avec l’outil SEO Google Search Console.

Comment identifier les fichiers PDF qui se positionnent sur Google ?

  1. Se connecter à votre compte Google Search Console
  2. Rendez-vous dans le rapport d’analyse Trafic de recherche > Analyse de la recherche
  3. Sélectionnez « Page »
  1. Ajouter un filtre « Filtrer les pages contenants .pdf »

Vous obtenez ainsi la liste d’URL des fichiers PDF de votre domaine. Par défaut, Google Search Console limite à 999 le nombre de lignes retournées. Maintenant que vous avez une belle liste de fichier PDF, il nous intéresse de savoir quels documents :

  1. Se positionnent
  2. Génèrent des impressions
  3. Génèrent de clics

Pour obtenir ces informations, pensez à sélectionner les éléments dans la zone de filtrage :

Pour rappel :

  • Impression = affichage de l’URL sur une requête d’un internaute (prise en compte des résultats > 100e position)
  • Clic = clic sur l’URL
  • CTR (taux de clics) = ratio du nombre de clics sur le volume d’impression du résultat
  • Position = position moyenne de l’URL constatée sur l’ensemble des mots clés qui déclenchent l’impression (pondéré par le volume d’impression)

Par défaut, la période sélectionnée correspond aux 28 derniers jours. Pour rappel, la période maximum des données dans Google Search Console est de 90 jours. Si vous souhaitez conserver ces informations, pensez à exporter régulièrement ces données en utilisant la fonction d’export ou à utiliser des outils tel que SuperMetrics. Ce dernier vous permettra d’automatiser cet export dans une feuille Google Sheets.

Comment identifier ceux qui génèrent des visites ?

De manière basique et logique, il suffit d’identifier ceux qui enregistrent des clics ?. Voilà, voilà. Et maintenant, je fais quoi de ces informations ?

 

Dans le cas présent, certains PDF enregistrent plus de 4000 clics sur les 28 derniers jours. Cette audience n’est pas comptabilisée aujourd’hui dans l’audience du site. Il y a donc ici un intérêt SEO et une vigilance particulière à porter sur le trafic généré par ces fichiers.

Identifier le potentiel SEO de ses PDF

Comme vous l’aurez sans doute constaté, je n’ai pas encore parlé de mots clés à cette étape. Aussi, il est temps d’aborder le sujet.

Identifier les mots clés dans Google Search Console

Maintenant que vous savez lister vos URL de fichiers PDF, reste à connaître les mots clés utilisés par les internautes pour déclencher des impressions et pour accéder au document.

Avec Google Search Console, vous avez maintenant la possibilité soit d’afficher tous les mots clés qui contribuent aux impressions des PDF dans le moteur de recherche, soit de sélectionner une URL spécifique en cliquant dessus pour connaitre les mots clés propres à cette URL :

  • Tous les mots clés : cliquez simplement sur « requêtes »
  • Les mots clés spécifiques à une URL : cliquez sur l’URL de fichier, le champ de filtrage « pages » s’actualisera avec l’URL de fichier (1), puis cliquez sur « requêtes »

 

À partir de là, vous avez maintenant accès aux mots clés qui ont déclenchés des impressions et des clics pour ce fichier :

Vous pouvez à partir de là commencer à poser les bases d’une nouvelle étape de votre analyse : les internautes recherchent-ils avant tout un fichier PDF ou le PDF leur a-t-il été suggéré sur une requête plus large ? A noter que de la même manière que vous pouvez filtre une URL, vous pouvez également ajouter une surcouche de filtrage sur les requêtes pour inclure ou exclure les mots clés contenant « pdf » :

 

Pour traiter une seule URL, passer par Google Search Console n’est pas un problème. En revanche, si vous avez des dizaines (ou plus) d’URL à traiter, il vous faudra à chaque fois revenir sur le filtre de page pour identifier l’URL du PDF… #long #fastidieux #neeeeeeedstagiaire

Identifier les mots clés dans Google Data Studio

Sans parler de solution miracle, c’est ici où Google Data Studio trouve sa place. En jouant avec les différents connecteurs et filtres, vous pouvez réaliser le type de dashboard suivant :

 

Si vous souhaitez avoir la répartition « URL non PDF » vs « URL PDF », vous pouvez créer une dimension Data Studio avec la fonction suivante (nécessite au préalable d’avoir ajouté une liaison Google Search Console associée à l’URL) :

CASE WHEN REGEXP_MATCH(Landing Page, « .*pdf ») THEN « URL PDF » ELSE « URL non PDF » END

Du PDF à la page HTML

À partir de la liste des fichiers identifiés et des mots clés associés, vous avez différents choix qui s’offrent à vous : conserver le fichier PDF tel quel ou créer une version HTML du fichier.

Si les mots clés contiennent majoritairement ou exclusivement « PDF » dans la requête, il est préférable de conserver le fichier dans ce format afin de ne pas décevoir les internautes. Dans ce cas, il peut être intéressant d’étudier la mise en place d’un tracking serverside des fichiers PDF pour mesurer plus simplement dans Google Analytics l’audience de ces documents.

Si les mots clés ne contiennent pas systématiquement « PDF » dans la requête, nous pouvons envisager de créer la page HTML en s’assurant de mettre en place une redirection permanente (301) pour que rediriger les internautes & robots de l’URL initiale du fichier vers la nouvelle page. Nous cherchons ainsi à positionner la page en lieu et place du fichier PDF. En opérant cette bascule, vous avez maintenant la possibilité de suivre l’audience de votre page dans votre outil de mesure d’audience. Avec cette transformation, vous offrez également la possibilité à vos visiteurs de poursuivre plus facilement la navigation sur votre site.

En cas de refonte de votre site, s’il est commun de définir son plan de redirection pour les pages HTML, il est tout aussi courant de voir les médias complètement négligés dans ce type d’action alors qu’ils contribuent à leur manière à développer la visibilité d’un site. Ici nous traitons des fichiers PDF, mais nous pourrions également nous intéresser aux images et autres documents.

Venez découvrir nos offres SEO !

Ces articles peuvent vous intéresser

  • SEO

Etude sur l’impact de Google SGE sur le SEO aux Etats-Unis : nos analyses pour anticiper son arrivée en France

  • SEO

SXO : vraie évolution du SEO ou énième concept “bullshit” ?