Cómo simular Googlebot usando Chrome

En DeepCrawl Ayudé a depurar miles de problemas técnicos de SEO cada año en algunos de los sitios web empresariales más grandes del mundo.

Creé un simulador de Googlebot en Chrome para replicar y depurar rápidamente problemas técnicos complejos de SEO. La llamé la técnica Chromebot.

En esta guía, voy a explicar cómo hacer su propio simulador de Googlebot en Google Chrome para depurar problemas técnicos complejos de SEO.

¿Qué es la técnica Chromebot?

La técnica Chromebot es una solución simple sin código que permite a un humano configurar los ajustes de Chrome para que actúen como rastreador de Googlebot (no renderizado). Puede ayudar a los especialistas en SEO a identificar problemas únicos de rastreo e indexación en un sitio web.

¿Por qué utilizar esta técnica?

He utilizado esta técnica mucho en DeepCrawl al depurar innumerables problemas de rastreo e indexación de clientes.

Es una técnica bastante simple pero efectiva sin código para ayudar a los SEO técnicos a pensar más como un rastreador de motores de búsqueda y menos como un humano.

Muchos sitios web pueden hacer cosas divertidas cuando los usuarios del Googlebot solicitan páginas.

¿Cómo sabes la configuración del rastreador de Googlebot?

Todas las configuraciones se basan en el tiempo que pasé charlando con los ingenieros, estudiando la documentación de Googlebot y actualizando la documentación del Servicio de Renderizado de páginas de DeepCrawl.

He enumerado los documentos originales en los que he basado la configuración:

  • Solucionar problemas de JavaScript relacionados con la búsqueda
  • Entender la representación en la búsqueda de Google
  • JavaScript y SEO: La Diferencia entre el rastreo y la Indexación

¿Qué necesita para esta técnica?

Todo lo que necesitas es Google Chrome Canary y una Red Privada Virtual (VPN).

¿Por qué simular el Googlebot en Google Chrome?

El uso de esta técnica tiene cuatro beneficios principales que explicaré brevemente.

Depuración en Google Chrome

He depurado cientos de sitios web en mi tiempo en DeepCrawl. Las herramientas de rastreo web de terceros son increíbles, pero siempre he encontrado que tienen límites.

Cuando intento interpretar los resultados de estas herramientas, siempre recurro a Chrome para ayudar a comprender y depurar problemas complejos.

Google Chrome sigue siendo mi herramienta no SEO favorita para depurar problemas y, cuando se configura, incluso puede simular el Googlebot para validar qué herramientas de rastreo están detectando.

Googlebot utiliza Chromium

Gary aclaró que Googlebot utiliza su propia solución personalizada para obtener y descargar contenido de la web. Que luego se pasa a los sistemas de indexación.

No hay evidencia que sugiera que el rastreador de Googlebot use Chromium o Chrome, sin embargo, Joshua Giardino en IPullRank hace un gran argumento sobre el uso de Google Chromium para crear un rastreador web basado en navegador.

Google Chrome también se basa en el proyecto de código abierto Chromium, así como en muchos otros navegadores.

Entonces tiene sentido usar un navegador Chromium para simular el rastreo web de Googlebot para comprender mejor tu sitio web.

Información SEO única

El uso de Google Chrome para interpretar rápidamente páginas web como Googlebot puede ayudar a comprender mejor exactamente por qué hay problemas de rastreo o indexación en minutos.

En lugar de pasar tiempo esperando que un rastreador web termine de ejecutarse, puedo usar esta técnica para depurar rápidamente el posible rastreo e indexación.

Luego utilizo los datos de rastreo para ver el alcance de un problema.

Googlebot no es humano

La web se está volviendo más compleja y dinámica.

Es importante recordar que al depurar problemas de rastreo e indexación, usted es un humano y el Googlebot es una máquina. Muchos sitios modernos tratan a estos dos usuarios de manera diferente.

Google Chrome, que fue diseñado para ayudar a los humanos a navegar por la web, ahora puede ayudar a un humano a ver un sitio como un bot.

Cómo configurar el simulador de Googlebot

Correcto, basta de por qué. Déjame explicarte cómo crear tu propio simulador de Googlebot.

Descargar Google Chrome

Recomiendo descargar Chrome Canary y no usar tu propio navegador Google Chrome (o si has cambiado a Firefox, usa Google Chrome).

La razón principal de esto es porque va a cambiar la configuración del navegador, lo que puede ser un dolor si se olvida de restablecerlos o tiene un millón de pestañas abiertas. Ahórrate algo de tiempo y simplemente usa Canary como tu simulador de Googlebot dedicado.

Descargue o use una VPN

Si se encuentra fuera de los Estados Unidos, asegúrese de tener acceso a una Red Privada Virtual (VPN), para que pueda cambiar su dirección IP a los Estados Unidos.

Esto se debe a que, por defecto, el Googlebot rastrea desde EE.UU., y para simular verdaderamente el comportamiento de rastreo, debe fingir que está accediendo a un sitio desde EE. UU.

Configuración de Chrome

Una vez que los haya descargado y configurado, es hora de configurar la configuración de Chrome.

He proporcionado una explicación de por qué necesita configurar cada configuración, pero la idea original de usar Chromebot se me ocurrió cuando reescribí la guía del Servicio de Renderizado de páginas.

Herramientas de desarrollo web

La interfaz de usuario de Herramientas para Desarrolladores Web es una parte importante de la visualización de su sitio web como Googlebot. Para asegurarse de que puede navegar por la consola, deberá mover las Herramientas de desarrollo Web a una ventana separada.

Recuerde que la ventana de DevTools está vinculada a la pestaña en la que la abrió. Si cierra esa pestaña en Google Chrome, la ventana de configuración y herramientas de desarrollo también se cerrará.

Es muy simple hacer esto, todo lo que necesita hacer es:

  1. Haga clic con el botón derecho en una página web y haga clic en inspeccionar elemento (o CTRL+MAYÚS+I)
  2. Navegue hasta el lado derecho, haga clic en los 3 puntos verticales y seleccione la opción del muelle del extremo izquierdo.

La consola de herramientas de desarrollo Web ahora se encuentra en una ventana separada.

Token de agente de usuario

Una cadena de agente de usuario, o línea de texto, es una forma de que las aplicaciones se identifiquen con servidores o redes. Para simular el Googlebot necesitamos actualizar el agente de usuario del navegador para que un sitio web sepa que somos el rastreador web de Google.

Menú de comandos

Use el Menú de comandos (CTRL + Mayús + P) y escriba «Mostrar condiciones de red» para abrir la pestaña condición de red en DevTools y actualizar el agente de usuario.

Manual

Para hacer esto, vaya a la ventana independiente de Herramientas de desarrollo Web y presione el botón Esc. Esto abrirá la consola.

Haga clic en los tres botones pequeños a la izquierda de la pestaña de la consola.

En la lista de opciones, haga clic en las condiciones de red. Esto abrirá la pestaña condiciones de red junto a la pestaña consola.

En la pestaña de condiciones de red, desplácese hacia abajo y desmarque la opción ‘seleccionar agente de usuario automáticamente’.

Google Chrome ahora le permitirá cambiar la cadena de agente de usuario de su navegador a Googlebot o Googlebot Móvil.

Por lo general, lo establezco en Googlebot Móvil con indexación móvil de forma predeterminada. Aunque te recomiendo que compruebes en la Consola de búsqueda de Google para ver qué Googlebot rastrea tu sitio web con mayor frecuencia.

 Googlebot mobile en la pestaña de red

El agente de usuario de Googlebot utilizará automáticamente la versión beta de desarrollo de Chrome, no la versión estable. Esto no suele ser un problema para el 99% de los sitios web, pero si lo necesita, puede ingresar el UA personalizado desde Chrome estable.

Ahora que ha cambiado el agente de usuario, cierre la consola (presione ESC de nuevo).

Habilita el rastreo sin estado

Googlebot rastrea páginas web sin estado a través de cargas de páginas.

La documentación para desarrolladores de búsquedas de Google indica que esto significa que cada página nueva rastreada utiliza un navegador nuevo y no utiliza la caché, las cookies ni la ubicación para descubrir y rastrear páginas web.

Nuestro simulador de Googlebot también necesita replicarse sin estado (tanto como pueda) en cada nueva página cargada. Para ello, deberás desactivar la caché, las cookies y la ubicación en tu Chrome.

Desactivar la caché

Menú de comandos

Utilice el menú de comandos (CTRL + Mayús + P) y escriba «Desactivar caché» para desactivar la caché cuando DevTools esté abierto.

Manual

Para desactivar la caché, vaya al panel de red en DevTools y marque la opción ‘Desactivar caché’.

Desactivar cookies

Menú de comandos

Utilice el menú de comandos (CTRL + Mayús + P) y escriba «Desactivar caché» para desactivar la caché cuando DevTools esté abierto.

Manual

En Chrome, vaya a chrome: / / configuración / cookies. En la configuración de cookies, elija la opción «Bloquear cookies de terceros».

Desactivación de ubicación

En Chrome, vaya a chrome: / / configuración / contenido / ubicación en su navegador. Cambia la opción » Preguntar antes de acceder (recomendado) «a»Bloqueado».

Deshabilitar Trabajadores de servicio

Googlebot deshabilita las interfaces que dependen de la especificación del trabajador de servicio. Esto significa que pasa por alto el Trabajador de servicio, que puede almacenar datos en caché y obtener direcciones URL del servidor.

Para hacer esto, vaya al panel de aplicaciones en DevTools, vaya a Trabajadores de servicios y marque la opción ‘Omitir la red’.

Una vez desactivado, el navegador se verá obligado a solicitar siempre un recurso de la red y no utilizar un Trabajador de servicio.

Deshabilitar JavaScript

El rastreador de Googlebot no ejecuta ningún JavaScript al rastrear.

Googlebot & JavaScript: Un vistazo más de cerca al WRS-TechSEO Boost 2019

Los subsistemas de rastreo y renderizado se explican con más detalle en la guía Comprender los conceptos básicos de SEO de JavaScript y Googlebot & JavaScript: Una mirada más cercana al WRS en TechSEO Boost 2019.

 sistemas de rastreo de googlebot
Cómo Googlebot rastrea y renderiza la web

Googlebot es un sistema muy complejo e incluso este diagrama anterior es una simplificación excesiva. Sin embargo, el rastreador de Googlebot primero debe buscar, descargar e inspeccionar una página web, independientemente de la representación.

Es importante asegurarse de que podemos inspeccionar HTML del lado del servidor, códigos de estado http y recursos sin JavaScript en nuestro simulador de Googlebot.

Línea de comandos

Use el menú de comandos (CTRL + Mayús + P) y escriba «Deshabilitar JavaScript» para deshabilitar rápidamente JavaScript.

Manual

Para desactivar JavaScript en Chrome, vaya a DevTools y haga clic en el engranaje de configuración.

A continuación, marque la casilla ‘Desactivar JavaScript’.

Ahora, cuando utilice su simulador de Googlebot, solo inspeccionará el HTML inicial del lado del servidor. Esto ayudará a comprender mejor si hay algún problema de enlace, contenido o código de estado HTTP que cause problemas en el rastreador.

Panel de red

Finalmente, es hora de configurar el panel de red. Es en esta área de DevTools donde pasará mucho tiempo como Googlebot.

 Pestaña de red de Google Chrome

El panel de red se utiliza para asegurarse de que los recursos se están obteniendo y descargando. Es en este panel donde puede inspeccionar los metadatos, encabezados http, contenido, etc. de cada URL descargada al solicitar una página.

Sin embargo, antes de poder inspeccionar los recursos (HTML, CSS, IMG) descargados del servidor como Googlebot, necesitamos actualizar los encabezados para mostrar la información más importante en el panel.

Vaya al panel de red en DevTools (ahora una ventana separada). En la tabla del panel, haga clic con el botón derecho en los encabezados de columna y seleccione los encabezados que se enumeran a continuación para agregarlos como columnas en el panel de red (elimine los demás que no figuran en la lista).

 actualización de encabezados de red

También he proporcionado una breve explicación de cada encabezado y por qué se deben agregar.

Estado

El código de estado https de la URL que se está descargando del servidor. Googlebot alterará su comportamiento de rastreo dependiendo del tipo de código de estado http, una de las piezas de información más críticas para comprender al auditar URL.

Scheme

Muestra el esquema https:// inseguro o https: / / seguro del recurso que se está descargando. El Googlebot prefiere rastrear e indexar las URL HTTPS, por lo que es importante comprender bien el esquema que utilizan los recursos de una página.

Dominio

Muestra el dominio donde se descargaron los recursos. Es importante entender si el contenido importante se basa en una CDN, API o subdominio externos, ya que el Googlebot podría tener problemas para obtener el contenido.

Dirección remota

Google Chrome enumera la dirección IP del host donde se descargan los recursos. Como el presupuesto de rastreo de un sitio web se basa en la dirección IP del host y no en el dominio, es importante también tener en cuenta la dirección IP de cada URL obtenida.

Escriba

El tipo MIME del recurso solicitado. Es importante asegurarse de que las URL importantes estén etiquetadas con el tipo MIME correcto, ya que los diferentes tipos de Googlebot están interesados en diferentes tipos de contenido (HTML, CSS, IMG).

Tamaño

El tamaño combinado de los encabezados de respuesta más el cuerpo de respuesta, tal como lo entrega el servidor. Es importante mejorar la velocidad de un sitio web, ya que esto puede ayudar tanto a sus usuarios como al Googlebot a acceder a su sitio más rápido.

Tiempo

La duración total, desde el inicio de la solicitud hasta la recepción del byte final en la respuesta. La respuesta de tu servidor puede afectar el límite de velocidad de rastreo del Googlebot. Si el servidor se ralentiza, el rastreador web rastreará menos su sitio web.

Prioridad

La mejor estimación del navegador de qué recursos cargar primero. Así no es como Googlebot crawls prioriza las URL para rastrear, pero puede ser útil ver qué recursos son priorizados por el navegador (usando su propia heurística).

Última modificación

El encabezado HTTP de respuesta última modificación contiene la fecha y la hora en que el servidor de origen cree que el recurso se modificó por última vez. Esta respuesta puede ser utilizada por el Googlebot, en combinación con otras señales, para ayudar a priorizar el rastreo en un sitio.

Dirección IP de EE. UU.

Una vez que haya actualizado los encabezados del panel de red en Chrome DevTools, su simulador de Googlebot está casi listo.

Si desea usarlo de inmediato, debe cambiar a una dirección IP de EE.

El Googlebot se arrastra desde los Estados Unidos de América. Por esta razón, siempre recomiendo cambiar su dirección IP a los EE.UU. cuando use su simulador de Googlebot.

Es la mejor manera de entender cómo se comporta tu sitio web cuando es visitado por Googlebot. Por ejemplo, si un sitio bloquea a los visitantes con direcciones IP de EE.UU. o redirige geográficamente a los visitantes en función de su ubicación, esto podría causar problemas con el rastreo e indexación de un sitio web por parte de Google.

I, Googlebot Chrome

Una vez que cambie su dirección IP, estará listo para tener su propio simulador de Googlebot.

 simulador de googlebot

Si desea probar para ver si funciona, vaya a angular.io o eventbrite.com. Estos sitios web requieren JavaScript para cargar contenido y enlaces; con JavaScript desactivado, estos sitios no cargarán el contenido correctamente en la interfaz.

Preguntas frecuentes

¿Funciona el simulador para una sola pestaña?

Sí. La configuración de Google DevTool es solo para la pestaña que ha abierto actualmente. Abrir una nueva pestaña hará que se restablezcan los ajustes de Desactivar JavaScript y Agente de usuario.

Se seguirán configurando otras configuraciones basadas en Chrome (cookies, trabajadores de servicios).

¿Esto ayuda a depurar problemas de SEO de JavaScript?

Sí, esta técnica se puede usar para depurar problemas de SEO de JavaScript en un sitio web al comparar el código de vista con HTML renderizado. Aunque podría haber mejores extensiones y herramientas para hacer esto a escala.

¿Necesito actualizar la configuración cada vez?

Una vez que se cierre la pestaña, deberá actualizar la siguiente configuración:

  • Deshabilitar JavaScript
  • Actualizar token de agente de usuario

El navegador guardará todas las demás configuraciones.

¿Por qué necesito usar Chrome Canary?

Solo sugiero usar esto para evitar que arruines tu navegador Chrome y tengas que pasar tiempo yendo y viniendo entre configuraciones.

Si usas Firefox o Safari, descarga el Google Chrome normal.

¿Ya he construido esto en chrome sin cabeza o a través de alguna otra automatización?

En primer lugar, ¡bien hecho! Si eres como yo y (actualmente) no tienes el tiempo/la capacidad para aprender nuevos lenguajes de codificación, este método sin código es excelente para comenzar.

Deja una respuesta

Tu dirección de correo electrónico no será publicada.