como simular o Googlebot usando o Chrome

no DeepCrawl, ajudei a depurar milhares de problemas técnicos de SEO a cada ano em alguns dos maiores sites corporativos do mundo.

criei um simulador Googlebot no Chrome para replicar e depurar rapidamente problemas técnicos complexos de SEO. Eu o chamei de técnica Chromebot.

neste guia, vou explicar como fazer seu próprio simulador Googlebot no Google Chrome para depurar problemas técnicos complexos de SEO.

o que é a técnica Chromebot?

a técnica Chromebot é uma solução simples sem código que permite que um humano configure as configurações do chrome para que ele atue como Googlebot crawler (não render). Ele pode ajudar os especialistas em SEO a identificar problemas exclusivos de rastreamento e indexação em um site.

por que usar essa técnica?

usei muito essa técnica no DeepCrawl ao depurar inúmeros problemas de rastreamento e indexação de clientes.

é uma técnica não codificada bastante simples, mas eficaz, para ajudar os SEOs técnicos a pensar mais como um rastreador de mecanismo de pesquisa e menos como um humano.

muitos sites podem fazer coisas engraçadas quando os usuários do Googlebot solicitam páginas.

como você sabe as configurações do rastreador Googlebot?

todas as configurações são baseadas no tempo que passei conversando com engenheiros, estudando a documentação em torno do Googlebot e atualizando a documentação do serviço de renderização de páginas do DeepCrawl.

listei os documentos originais nos quais baseei as configurações:

  • corrigir problemas de JavaScript relacionados à pesquisa
  • entender a renderização na pesquisa do Google
  • JavaScript e SEO: A diferença entre rastreamento e indexação

o que você precisa para essa técnica?

tudo que você precisa é o Google Chrome Canary e uma rede privada Virtual (VPN).

por que simular Googlebot no Google Chrome?

existem quatro principais benefícios em usar esta técnica, que explicarei brevemente.

depuração no Google Chrome

depurei centenas de sites no meu tempo no DeepCrawl. Ferramentas de rastreamento da web de terceiros são incríveis, mas sempre descobri que elas têm limites.

ao tentar interpretar os resultados dessas ferramentas, sempre recorro ao Chrome para ajudar a entender e depurar problemas complexos.O Google Chrome ainda é minha ferramenta não SEO favorita para depurar problemas e, quando configurado, pode até simular o Googlebot para validar quais ferramentas de rastreamento estão pegando.O Googlebot usa o Chromium

Gary esclareceu que o Googlebot usa sua própria solução personalizada para buscar e baixar conteúdo da web. Que é então passado para os sistemas de indexação.

Não há evidências que sugiram que o Googlebot crawler use o Chromium ou o Chrome, no entanto, Joshua Giardino do IPullRank faz um grande argumento sobre o Google usando o Chromium para criar um rastreador da web baseado em navegador.

o Google Chrome também é baseado no projeto Chromium de código aberto, bem como em muitos outros navegadores.

faz sentido usar um navegador Chromium para simular o rastreamento da web do Googlebot para entender melhor seu site.

insights exclusivos de SEO

usar o Google Chrome para interpretar rapidamente páginas da web como o Googlebot pode ajudar a entender melhor exatamente por que há problemas de rastreamento ou indexação em minutos.

em vez de gastar tempo esperando por um rastreador da web para terminar a execução, posso usar essa técnica para depurar rapidamente o rastreamento e a indexação em potencial.

eu então uso os dados de rastreamento para ver a extensão de um problema.

Googlebot não é humano

a web está se tornando mais complexa e dinâmica.

é importante lembrar que, ao depurar problemas de rastreamento e indexação, você é humano e o Googlebot é uma máquina. Muitos sites modernos tratam esses dois usuários de maneira diferente.O Google Chrome, que foi projetado para ajudar os humanos a navegar na web, agora pode ajudar um ser humano a visualizar um site como um bot.

como configurar o Googlebot simulator

certo, o suficiente do porquê. Deixe-me explicar como criar seu próprio simulador Googlebot.

baixe o Google Chrome

eu recomendo baixar o Chrome Canary e não usar seu próprio navegador Google Chrome (ou se você mudou para o Firefox, use o Google Chrome).

a principal razão para isso é porque você estará alterando as configurações do navegador, o que pode ser uma dor se você esquecer de redefini-las ou ter um milhão de guias abertas. Economize algum tempo e use Canary como seu simulador Googlebot dedicado.

baixe ou use uma VPN

se você estiver fora dos Estados Unidos, certifique-se de ter acesso a uma rede privada Virtual (VPN), para que você possa mudar seu endereço IP para os EUA.

isso ocorre porque, por padrão, o Googlebot rastreia dos EUA e, para simular verdadeiramente o comportamento de rastreamento, você precisa fingir estar acessando um site dos EUA.

configurações do Chrome

depois de fazer o download e a configuração, é hora de definir as configurações do Chrome.

eu forneci uma explicação de por que você precisa configurar cada configuração, mas a ideia original de usar o Chromebot veio até mim quando reescrevi o Guia de Serviço de renderização de página.

Web Dev Tools

a interface do usuário do Web Developer Tools é uma parte importante da visualização de seu site como o Googlebot. Para ter certeza de que você pode navegar pelo console, você precisará mover as ferramentas de desenvolvimento da Web para uma janela separada.

lembre-se de que sua janela DevTools está vinculada à guia na qual você a abriu. Se você fechar essa guia no Google Chrome, a janela Configurações e DevTools também será fechada.

é muito simples de fazer, tudo que você precisa fazer é:

  1. clique com o botão Direito do mouse em uma página da web e clique em inspecionar elemento (ou CTRL+SHIFT+I)
  2. Navegar para o lado direito, clique nos 3 pontos verticais, e selecione a extremidade esquerda do cais, a opção.

o console de ferramentas Web Dev agora está em uma janela separada.

User-Agent token

uma string user-agent – ou linha de texto-é uma maneira de os aplicativos se identificarem com servidores ou redes. Para simular o Googlebot, precisamos atualizar o agente do usuário do navegador para que um site saiba que somos o rastreador da web do Google.

menu de comando

Use o Menu de comando (CTRL + Shift + P) e digite “Mostrar condições de rede” para abrir a guia condição de rede no DevTools e atualizar o user-agent.

Manual

para fazer isso, navegue até a janela separada do Web Dev Tools e pressione o botão Esc. Isso abrirá o console.

clique nos três pequenos botões à esquerda da guia console.

na lista de opções, clique nas condições da rede. Isso abrirá a guia condições de rede ao lado da guia console.

na guia condições de rede, role para baixo e desmarque a opção ‘user-agent select automatically’.

o Google Chrome agora permitirá que você altere a string do agente do usuário do seu navegador para Googlebot ou Googlebot Mobile.

eu costumo configurá-lo para Googlebot Mobile com indexação móvel por padrão. Embora eu recomende verificar no Google Search Console para ver qual Googlebot rastreia seu site com mais frequência.

Googlebot mobile na guia Rede

o agente do Usuário Googlebot usará a versão Dev Beta Chrome, não a versão estável, automaticamente. Isso geralmente não é um problema para 99% dos sites, mas se você precisar, pode inserir o UA personalizado do Chrome estável.

Agora você mudou o user-agent, feche o console (pressione ESC novamente).

Ativar rastreamento sem estado

Googlebot rastreia páginas da web sem estado em cargas de página.

a documentação do Google Search developer afirma que isso significa que cada nova página rastreada usa um novo navegador e não usa o cache, cookies ou local para descobrir e rastrear páginas da web.

nosso simulador Googlebot também precisa replicar ser sem estado (tanto quanto possível) em cada nova página carregada. Para fazer isso, você precisará desativar o cache, os cookies e a localização no seu Chrome.

desative o cache

menu de comando

Use o Menu de comando (CTRL + Shift + P) e digite “desativar Cache” para desativar o cache quando o DevTools estiver aberto.

Manual

para desativar o cache, vá para o painel de rede no DevTools e verifique o ‘Desativar cache’.

desative os cookies

menu de comando

Use o Menu de comando (CTRL + Shift + P) e digite “desativar Cache” para desativar o cache quando o DevTools estiver aberto.

Manual

no Chrome navegue até chrome:/ / Configurações / cookies. Nas configurações de cookies, escolha a opção “Bloquear cookies de terceiros”.

desativando localização

no Chrome navegue até o chrome: / / settings / content / location em seu navegador. Alterne o ” Perguntar antes de acessar (recomendado)” para “Bloqueado”.

desative Service Workers

o Googlebot desativa as interfaces que dependem da especificação Service Worker. Isso significa que ele ignora o Service Worker que pode armazenar dados em cache e buscar URLs do servidor.

para fazer isso, navegue até o painel de aplicativos no DevTools, vá para Service Workers e marque a opção ‘Ignorar a rede’.

uma vez desativado, o navegador será forçado a sempre solicitar um recurso da rede e não usar um Service Worker.

desativar JavaScript

o rastreador Googlebot não executa nenhum JavaScript ao rastrear.

Googlebot & JavaScript: um olhar mais atento ao WRS-TechSEO Boost 2019

os subsistemas de rastreamento e renderização são explicados no Understand the JavaScript SEO basics guide e no Googlebot & JavaScript: um olhar mais atento aos WRS no TechSEO Boost 2019.

googlebot crawling systems
como Googlebot rastreia e torna a web

Googlebot é um sistema muito complexo e até mesmo este diagrama acima é uma simplificação excessiva. No entanto; o rastreador Googlebot deve primeiro buscar, baixar e inspecionar uma página da web, independentemente da renderização.

é importante ter certeza de que podemos inspecionar HTML do lado do servidor, códigos de status http e recursos sem JavaScript em nosso simulador Googlebot.

linha de comando

Use o Menu de comando (CTRL + Shift + P) e digite “desativar JavaScript” para desativar rapidamente o JavaScript.

Manual

para desativar o JavaScript no Chrome, navegue até DevTools e clique na engrenagem de Configurações.

em seguida, marque a caixa ‘desativar JavaScript’.

agora, quando você usa seu simulador Googlebot, você só inspecionará o HTML inicial do lado do servidor. Isso ajudará a entender melhor se há algum problema de link, conteúdo ou código de status HTTP causando os problemas do rastreador.

Painel de rede

Finalmente, é hora de configurar o painel de rede. É nesta área em DevTools onde você vai passar muito tempo como Googlebot.

guia de rede do Google chrome

o painel de rede é usado para garantir que os recursos estejam sendo buscados e baixados. É neste painel que você pode inspecionar os metadados, cabeçalhos http, conteúdo, etc de cada URL individual baixado ao solicitar uma página.

no entanto; antes de podermos inspecionar os recursos (HTML, CSS, IMG) baixados do servidor como Googlebot, precisamos atualizar os cabeçalhos para exibir as informações mais importantes no painel.

vá para o painel de rede no DevTools (agora uma janela separada). Na tabela no painel, clique com o botão direito do mouse nos cabeçalhos das colunas e selecione os títulos listados abaixo para serem adicionados como colunas no painel de rede (remova quaisquer outros não listados).

atualizando cabeçalhos de rede

eu também forneci uma breve explicação de cada título e por que eles devem ser adicionados.

Status

o código de status https do URL que está sendo baixado do servidor. O Googlebot alterará seu comportamento de rastreamento dependendo do tipo de código de status http – uma das informações mais críticas a serem entendidas ao auditar URLs.

esquema

exibe o https não Seguro: / / ou https seguro: / / esquema do recurso que está sendo baixado. O Googlebot prefere rastrear e indexar URLs HTTPS, por isso é importante entender bem o esquema que está sendo usado pelos recursos em uma página.

domínio

exibe o domínio onde os recursos foram baixados. É importante entender se um conteúdo importante depende de um CDN, API ou subdomínio externo, pois o Googlebot pode ter problemas para buscar o conteúdo.

endereço remoto

o Google Chrome lista o endereço IP do host onde os recursos estão sendo baixados. Como o orçamento de rastreamento de um site é baseado no endereço IP do host e não no domínio, é importante também levar em consideração o endereço IP de cada URL buscado.

digite

o tipo MIME do recurso solicitado. É importante garantir que URLs importantes sejam rotulados com o tipo MIME correto, pois diferentes tipos de Googlebot estão interessados em diferentes tipos de conteúdo (HTML, CSS, IMG).

Tamanho

o tamanho combinado dos cabeçalhos de resposta mais o corpo da resposta, conforme entregue pelo servidor. É importante melhorar a velocidade do site de um site, pois isso pode ajudar seus usuários e o Googlebot a acessar seu site mais rapidamente.

tempo

a duração total, desde o início da solicitação até o recebimento do byte final na resposta. A resposta do seu servidor pode afetar o limite de taxa de rastreamento do Googlebot. Se o servidor desacelerar, o rastreador da web rastreará menos o seu site.

prioridade

o melhor palpite do navegador de quais recursos carregar primeiro. Não é assim que o Googlebot crawls prioriza URLs para rastreamento, mas pode ser útil ver quais recursos são priorizados pelo navegador (usando suas próprias heurísticas).

última modificação

o cabeçalho HTTP de Resposta da última modificação contém a data e a hora em que o servidor de origem acredita que o recurso foi modificado pela última vez. Essa resposta pode ser usada pelo Googlebot, em combinação com outros sinais, para ajudar a priorizar o rastreamento em um site.

endereço IP dos EUA

depois de atualizar os cabeçalhos do Painel de rede no Chrome DevTools, seu simulador Googlebot está quase pronto.

se você quiser usá-lo imediatamente, você precisa mudar para um endereço IP dos EUA.

Googlebot rastreia dos Estados Unidos da América. Por esse motivo, eu sempre recomendo alterar seu endereço IP para os EUA ao usar seu simulador Googlebot.

é a melhor maneira de entender como seu site se comporta quando visitado pelo Googlebot. Por exemplo, se um site estiver bloqueando visitantes com endereços IP dos EUA ou redirecionando geo-visitantes com base em sua localização, isso pode causar problemas com o rastreamento do Google e a indexação de um site.

I, Googlebot Chrome

uma vez que seu endereço IP Está ligado, você está pronto para ir e tem seu próprio simulador Googlebot.

 googlebot simulator

se você quiser testar para ver se funciona, vá para angular.io ou eventbrite.com. Esses sites exigem JavaScript para carregar conteúdo e links – com JavaScript desativado, esses sites não carregarão o conteúdo corretamente na interface.

Perguntas Frequentes

o simulador funciona para apenas uma guia?

Sim. As configurações do Google DevTool são apenas para a guia que você abriu atualmente. Abrir uma nova guia fará com que as configurações Desativar JavaScript e User-agent sejam redefinidas.

outras configurações baseadas no Chrome (cookies, service workers) ainda serão configuradas.

isso ajuda a depurar problemas de SEO JavaScript?

Sim, esta técnica pode ser usada para depurar problemas de SEO JavaScript em um site ao comparar view-source com HTML renderizado. Embora possa haver melhores extensões e ferramentas para fazer isso em escala.

preciso atualizar as configurações todas as vezes?

uma Vez que seu guia é fechado, você precisará atualizar as seguintes configurações:

  • Desativar o JavaScript
  • Update User-agent token

Todas as outras configurações foram salvas pelo navegador.

por que preciso usar o Chrome Canary?

eu só sugiro usar isso para impedi-lo de bagunçar seu navegador Chrome e ter que gastar tempo indo e voltando entre as configurações.

se você usa o Firefox ou Safari, basta baixar o Google Chrome normal.

eu já construí isso no chrome sem cabeça ou através de alguma outra automação?

primeiro, bem feito! Se você é como eu e não (atualmente) tem tempo / capacidade para aprender novas linguagens de codificação, esse método sem código é ótimo para começar.

Deixe uma resposta

O seu endereço de email não será publicado.