Comment simuler Googlebot à l’aide de Chrome

Chez DeepCrawl, j’ai aidé à déboguer des milliers de problèmes de référencement technique chaque année sur certains des plus grands sites Web d’entreprise au monde.

J’ai créé un simulateur Googlebot dans Chrome pour répliquer et déboguer rapidement des problèmes techniques de référencement complexes. Je l’ai appelé la technique du Chromebot.

Dans ce guide, je vais vous expliquer comment créer votre propre simulateur Googlebot dans Google Chrome pour déboguer des problèmes techniques de référencement complexes.

Qu’est-ce que la technique Chromebot ?

La technique Chromebot est une solution simple sans code qui permet à un humain de configurer les paramètres de chrome afin qu’il agisse comme un robot Googlebot (pas de rendu). Il peut aider les spécialistes du référencement à identifier les problèmes uniques d’exploration et d’indexation sur un site Web.

Pourquoi utiliser cette technique ?

J’ai beaucoup utilisé cette technique chez DeepCrawl lors du débogage d’innombrables problèmes d’exploration et d’indexation de clients.

C’est une technique non codée assez simple mais efficace pour aider les référenceurs techniques à penser plus comme un robot d’exploration de moteur de recherche et moins comme un humain.

De nombreux sites Web peuvent faire des choses amusantes lorsque les utilisateurs de Googlebot demandent des pages.

Comment connaissez-vous les paramètres du robot Googlebot ?

Tous les paramètres sont basés sur le temps que j’ai passé à discuter avec des ingénieurs, à étudier la documentation autour de Googlebot et à mettre à jour la documentation du service de rendu de pages de DeepCrawl.

J’ai répertorié les documents originaux sur lesquels j’ai basé les paramètres:

  • Correction des problèmes JavaScript liés à la recherche
  • Comprendre le rendu sur la recherche Google
  • JavaScript et SEO: La différence Entre l’exploration et l’indexation

De quoi avez-vous besoin pour cette technique?

Tout ce dont vous avez besoin est Google Chrome Canary et un réseau Privé Virtuel (VPN).

Pourquoi simuler Googlebot dans Google Chrome?

Il y a quatre avantages fondamentaux à utiliser cette technique que je vais expliquer brièvement.

Débogage dans Google Chrome

J’ai débogué des centaines de sites Web dans mon temps chez DeepCrawl. Les outils d’exploration Web tiers sont incroyables, mais j’ai toujours trouvé qu’ils avaient des limites.

Lorsque je tente d’interpréter les résultats de ces outils, je me tourne toujours vers Chrome pour aider à comprendre et à déboguer des problèmes complexes.

Google Chrome est toujours mon outil non SEO préféré pour déboguer les problèmes et, lorsqu’il est configuré, il peut même simuler Googlebot pour valider les outils d’exploration.

Googlebot utilise Chromium

Gary a précisé que Googlebot utilise sa propre solution personnalisée pour récupérer et télécharger du contenu sur le Web. Qui est ensuite transmis aux systèmes d’indexation.

Il n’y a aucune preuve suggérant que Googlebot crawler utilise Chromium ou Chrome, cependant, Joshua Giardino chez IPullRank fait un excellent argument sur l’utilisation de Google Chromium pour créer un robot d’exploration Web basé sur un navigateur.

Google Chrome est également basé sur le projet open-source Chromium, ainsi que sur de nombreux autres navigateurs.

Il est alors logique d’utiliser un navigateur Chromium pour simuler l’exploration Web Googlebot afin de mieux comprendre votre site Web.

Unique SEO insights

L’utilisation de Google Chrome pour interpréter rapidement des pages Web comme Googlebot peut aider à mieux comprendre exactement pourquoi il y a des problèmes d’exploration ou d’indexation en quelques minutes.

Plutôt que de passer du temps à attendre la fin de l’exécution d’un robot d’exploration Web, je peux utiliser cette technique pour déboguer rapidement l’exploration et l’indexation potentielles.

J’utilise ensuite les données d’analyse pour voir l’étendue d’un problème.

Googlebot n’est pas humain

Le web devient de plus en plus complexe et dynamique.

Il est important de se rappeler que lors du débogage des problèmes d’exploration et d’indexation, vous êtes un humain et Googlebot est une machine. De nombreux sites modernes traitent ces deux utilisateurs différemment.

Google Chrome qui a été conçu pour aider les humains à naviguer sur le Web, peut maintenant aider un humain à visualiser un site comme un bot.

Comment configurer le simulateur Googlebot

À droite, assez du pourquoi. Laissez-moi vous expliquer comment créer votre propre simulateur Googlebot.

Télécharger Google Chrome

Je vous recommande de télécharger Chrome Canary et de ne pas utiliser votre propre navigateur Google Chrome (ou si vous êtes passé à Firefox, utilisez Google Chrome).

La raison principale en est que vous allez modifier les paramètres du navigateur, ce qui peut être pénible si vous oubliez de les réinitialiser ou si un million d’onglets sont ouverts. Gagnez du temps et utilisez simplement Canary comme simulateur Googlebot dédié.

Téléchargez ou utilisez un VPN

Si vous êtes en dehors des États-Unis, assurez-vous d’avoir accès à un Réseau privé virtuel (VPN), afin que vous puissiez changer votre adresse IP vers les États-Unis.

C’est parce que par défaut Googlebot explore depuis les États-Unis, et pour vraiment simuler le comportement d’exploration, vous devez prétendre accéder à un site depuis les États-Unis.

Paramètres Chrome

Une fois que vous les avez téléchargés et configurés, il est temps de configurer les paramètres Chrome.

J’ai expliqué pourquoi vous devez configurer chaque paramètre, mais l’idée originale d’utiliser Chromebot m’est venue lorsque j’ai réécrit le guide du service de rendu de page.

Outils de développement Web

L’interface utilisateur des Outils de développement Web est une partie importante de la visualisation de votre site Web comme Googlebot. Pour vous assurer de pouvoir naviguer dans la console, vous devrez déplacer les outils de développement Web dans une fenêtre séparée.

N’oubliez pas que votre fenêtre DevTools est liée à l’onglet dans lequel vous l’avez ouverte. Si vous fermez cet onglet dans Google Chrome, la fenêtre Paramètres et DevTools se fermera également.

C’est très simple à faire, tout ce que vous devez faire est:

  1. Faites un clic droit sur une page Web et cliquez sur inspecter l’élément (ou CTRL + MAJ + I)
  2. Naviguez vers la droite, cliquez sur les 3 points verticaux et sélectionnez l’option à quai à l’extrême gauche.

La console de l’outil de développement Web se trouve maintenant dans une fenêtre séparée.

Jeton d’agent utilisateur

Une chaîne d’agent utilisateur – ou une ligne de texte – permet aux applications de s’identifier aux serveurs ou aux réseaux. Pour simuler Googlebot, nous devons mettre à jour l’agent utilisateur du navigateur pour informer un site Web que nous sommes le robot d’exploration Web de Google.

Menu de commande

Utilisez le Menu de commande (CTRL+ Maj + P) et tapez « Afficher les conditions du réseau » pour ouvrir l’onglet État du réseau dans DevTools et mettre à jour l’agent utilisateur.

Manuel

Pour ce faire, accédez à la fenêtre séparée des outils de développement Web et appuyez sur la touche Echap. Cela ouvrira la console.

Cliquez sur les trois petits boutons à gauche de l’onglet de la console.

Dans la liste des options, cliquez sur les conditions du réseau. Cela ouvrira l’onglet Conditions réseau à côté de l’onglet console.

Dans l’onglet Conditions du réseau, faites défiler vers le bas et décochez l’option  » user-agent select automatically « .

Google Chrome vous permettra désormais de changer la chaîne d’agent utilisateur de votre navigateur en Googlebot ou Googlebot Mobile.

Je le règle généralement sur Googlebot Mobile avec l’indexation mobile par défaut. Bien que je recommande de vérifier dans la console de recherche Google pour voir quel Googlebot explore le plus souvent votre site Web.

 Googlebot mobile dans l'onglet réseau

L’agent utilisateur Googlebot utilisera automatiquement la version de Chrome dev beta et non la version stable. Ce n’est généralement pas un problème pour 99% des sites Web, mais si vous en avez besoin, vous pouvez saisir l’UA personnalisée à partir de Chrome stable.

Maintenant que vous avez changé l’agent utilisateur, fermez la console (appuyez à nouveau sur ÉCHAP).

Activer l’analyse sans état

Googlebot analyse les pages Web sans état à travers les chargements de pages.

La documentation du développeur de recherche Google indique que cela signifie que chaque nouvelle page explorée utilise un nouveau navigateur et n’utilise pas le cache, les cookies ou l’emplacement pour découvrir et explorer les pages Web.

Notre simulateur Googlebot doit également répliquer être sans état (autant qu’il le peut) sur chaque nouvelle page chargée. Pour ce faire, vous devrez désactiver le cache, les cookies et l’emplacement dans votre Chrome.

Désactiver le cache

Menu de commande

Utilisez le Menu de commande (CTRL + Maj + P) et tapez « Désactiver le cache » pour désactiver le cache lorsque DevTools est ouvert.

Manuel

Pour désactiver le cache, accédez au panneau Réseau de DevTools et cochez la case  » Désactiver le cache « .

Désactiver les cookies

Menu de commande

Utilisez le Menu de commande (CTRL + Maj + P) et tapez « Désactiver le cache » pour désactiver le cache lorsque DevTools est ouvert.

Manuel

Dans Chrome, accédez à chrome:// paramètres/ cookies. Dans les paramètres des cookies, choisissez l’option « Bloquer les cookies tiers ».

Désactivation de l’emplacement

Dans Chrome accédez à chrome://settings/content/location dans votre navigateur. Basculez « Demander avant d’accéder (recommandé) » sur « Bloqué ».

Désactivez les agents de service

Googlebot désactive les interfaces basées sur la spécification Service Worker. Cela signifie qu’il contourne le Service Worker qui pourrait mettre en cache les données et récupérer les URL du serveur.

Pour ce faire, accédez au panneau d’application de DevTools, accédez à Service Workers et cochez l’option  » Contourner le réseau « .

Une fois désactivé, le navigateur sera obligé de toujours demander une ressource au réseau et de ne pas utiliser un agent de service.

Désactiver JavaScript

Le robot Googlebot n’exécute aucun JavaScript lors de l’exploration.

Googlebot & JavaScript: Un regard de plus près sur le WRS – TechSEO Boost 2019

Les sous-systèmes d’exploration et de rendu sont expliqués plus en détail dans le guide Comprendre les bases du référencement JavaScript et Googlebot & JavaScript: Un examen plus approfondi du WRS à TechSEO Boost 2019.

 googlebot crawling systems
Comment Googlebot explore et rend le Web

Googlebot est un système très complexe et même ce diagramme ci-dessus est une simplification excessive. Cependant, le robot Googlebot doit d’abord récupérer, télécharger et inspecter une page Web quel que soit le rendu.

Il est important de s’assurer que nous pouvons inspecter les codes d’état HTML, http et ressources côté serveur sans JavaScript dans notre simulateur Googlebot.

Ligne de commande

Utilisez le menu de commande (CTRL + Maj + P) et tapez « Désactiver JavaScript » pour désactiver rapidement JavaScript.

Manuel

Pour désactiver JavaScript dans Chrome, accédez à DevTools et cliquez sur le rouage des paramètres.

Cochez ensuite la case « Désactiver JavaScript ».

Maintenant, lorsque vous utilisez votre simulateur Googlebot, vous n’inspecterez que le code HTML initial côté serveur. Cela aidera à mieux comprendre s’il y a des problèmes de lien, de contenu ou de code d’état HTTP à l’origine des problèmes du robot d’exploration.

Panneau réseau

Enfin, il est temps de configurer le panneau réseau. C’est dans ce domaine de DevTools que vous passerez beaucoup de temps en tant que Googlebot.

 Onglet réseau Google Chrome

Le panneau Réseau est utilisé pour s’assurer que les ressources sont récupérées et téléchargées. C’est dans ce panneau que vous pouvez inspecter les métadonnées, les en-têtes http, le contenu, etc. de chaque URL téléchargée lors de la demande d’une page.

Cependant; avant de pouvoir inspecter les ressources (HTML, CSS, IMG) téléchargées depuis le serveur comme Googlebot, nous devons mettre à jour les en-têtes pour afficher les informations les plus importantes dans le panneau.

Accédez au panneau Réseau dans DevTools (maintenant une fenêtre séparée). Sur le tableau du panneau, faites un clic droit sur les en-têtes de colonne et sélectionnez les en-têtes énumérés ci-dessous à ajouter en tant que colonnes dans le panneau réseau (supprimez les autres non répertoriés).

 mise à jour des en-têtes réseau

J’ai également fourni une brève explication de chaque en-tête et pourquoi ils devraient être ajoutés.

Status

Le code d’état https de l’URL téléchargée depuis le serveur. Googlebot modifiera son comportement d’exploration en fonction du type de code d’état http – l’une des informations les plus critiques à comprendre lors de l’audit des URL.

Schéma

Affiche le schéma https:// non sécurisé ou https:// sécurisé de la ressource en cours de téléchargement. Googlebot préfère analyser et indexer les URL HTTPS, il est donc important de bien comprendre le schéma utilisé par les ressources sur une page.

Domaine

Affiche le domaine dans lequel les ressources ont été téléchargées. Il est important de comprendre si le contenu important repose sur un CDN, une API ou un sous-domaine externe, car Googlebot pourrait avoir du mal à récupérer le contenu.

Adresse distante

Google Chrome répertorie l’adresse IP de l’hôte sur lequel les ressources sont téléchargées. Comme le budget d’exploration d’un site Web est basé sur l’adresse IP de l’hôte et non sur le domaine, il est important de prendre également en compte l’adresse IP de chaque URL extraite.

Tapez

Le type MIME de la ressource demandée. Il est important de s’assurer que les URL importantes sont étiquetées avec le type MIME correct car différents types de Googlebot sont intéressés par différents types de contenu (HTML, CSS, IMG).

Taille

Taille combinée des en-têtes de réponse et du corps de réponse, tels que fournis par le serveur. Il est important d’améliorer la vitesse du site d’un site Web, car cela peut aider vos utilisateurs et Googlebot à accéder plus rapidement à votre site.

Temps

La durée totale, depuis le début de la requête jusqu’à la réception de l’octet final dans la réponse. La réponse de votre serveur peut affecter la limite de taux d’exploration de Googlebot. Si le serveur ralentit, le robot d’exploration Web explorera moins votre site Web.

Priorité

La meilleure estimation du navigateur des ressources à charger en premier. Ce n’est pas ainsi que Googlebot analyse priorise les URL à explorer, mais il peut être utile de voir quelles ressources sont priorisées par le navigateur (en utilisant ses propres heuristiques).

Dernière modification

L’en-tête HTTP de la réponse dernière modification contient la date et l’heure auxquelles le serveur d’origine estime que la ressource a été modifiée pour la dernière fois. Cette réponse peut être utilisée par Googlebot, en combinaison avec d’autres signaux, pour aider à hiérarchiser l’exploration sur un site.

Adresse IP américaine

Une fois que vous avez mis à jour les en-têtes du panneau réseau dans Chrome DevTools, votre simulateur Googlebot est presque prêt.

Si vous souhaitez l’utiliser immédiatement, vous devez passer à une adresse IP américaine.

Googlebot rampe depuis les États-Unis d’Amérique. Pour cette raison, je vous recommande toujours de changer votre adresse IP aux États-Unis lorsque vous utilisez votre simulateur Googlebot.

C’est le meilleur moyen de comprendre le comportement de votre site Web lorsqu’il est visité par Googlebot. Par exemple, si un site bloque les visiteurs avec des adresses IP américaines ou redirige les visiteurs en fonction de leur emplacement, cela peut entraîner des problèmes d’exploration et d’indexation d’un site Web par Google.

I, Googlebot Chrome

Une fois votre adresse IP commutée, vous êtes prêt à utiliser votre propre simulateur Googlebot.

 googlebot simulator

Si vous voulez tester pour voir si cela fonctionne, allez à angular.io ou eventbrite.com . Ces sites Web nécessitent JavaScript pour charger le contenu et les liens – lorsque JavaScript est désactivé, ces sites ne chargent pas le contenu correctement dans l’interface.

Foire aux questions

Le simulateur fonctionne-t-il pour un seul onglet?

Oui. Les paramètres de Google DevTool ne concernent que l’onglet que vous avez actuellement ouvert. L’ouverture d’un nouvel onglet entraînera la réinitialisation des paramètres Désactiver JavaScript et User-agent.

D’autres paramètres basés sur Chrome (cookies, agents de service) seront toujours configurés.

Cela aide-t-il à déboguer les problèmes de référencement JavaScript?

Oui Cette technique peut être utilisée pour déboguer les problèmes de référencement JavaScript sur un site Web lors de la comparaison de la source d’affichage au HTML rendu. Bien qu’il puisse y avoir de meilleures extensions et outils pour le faire à grande échelle.

Dois-je mettre à jour les paramètres à chaque fois ?

Une fois votre onglet fermé, vous devrez mettre à jour les paramètres suivants:

  • Désactiver JavaScript
  • Mettre à jour le jeton de l’agent utilisateur

Tous les autres paramètres auront été enregistrés par le navigateur.

Pourquoi dois-je utiliser Chrome Canary ?

Je suggère seulement de l’utiliser pour vous empêcher de gâcher votre navigateur Chrome et de passer du temps à faire des allers-retours entre les paramètres.

Si vous utilisez Firefox ou Safari, téléchargez simplement le Google Chrome normal.

J’ai déjà construit cela dans chrome sans tête ou via une autre automatisation?

Tout d’abord, bravo! Si vous êtes comme moi et que vous n’avez pas (actuellement) le temps / la capacité d’apprendre de nouveaux langages de codage, cette méthode sans code est idéale pour commencer.

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée.