Come simulare Googlebot utilizzando Chrome

A DeepCrawl ho aiutato il debug migliaia di problemi tecnici SEO ogni anno su alcuni dei più grandi siti web aziendali in tutto il mondo.

Ho creato un simulatore Googlebot in Chrome per replicare rapidamente ed eseguire il debug di complessi problemi tecnici SEO. L’ho chiamata la tecnica Chromebot.

In questa guida, ho intenzione di spiegare come rendere il proprio simulatore Googlebot in Google Chrome per eseguire il debug di problemi tecnici complessi SEO.

Che cos’è la tecnica Chromebot?

La tecnica Chromebot è una semplice soluzione non-codice che permette un umano configurare le impostazioni di Chrome in modo che si comporta come Googlebot crawler (non il rendering). Può aiutare gli specialisti SEO a identificare i problemi di indicizzazione e indicizzazione unici su un sito web.

Perché usare questa tecnica?

Ho usato molto questa tecnica a DeepCrawl durante il debug di innumerevoli problemi di scansione e indicizzazione dei client.

È una tecnica non codificata abbastanza semplice ma efficace per aiutare i SEO tecnici a pensare più come un crawler dei motori di ricerca e meno come un essere umano.

Molti siti web possono fare cose divertenti quando gli utenti di Googlebot richiedono pagine.

Come conosci le impostazioni di Googlebot crawler?

Tutte le impostazioni sono basate sul tempo trascorso a chattare con gli ingegneri, a studiare la documentazione su Googlebot e ad aggiornare la documentazione del servizio di rendering delle pagine di DeepCrawl.

Ho elencato i documenti originali su cui ho basato le impostazioni:

  • Risolvi i problemi JavaScript relativi alla ricerca
  • Comprendere il rendering sulla ricerca Google
  • JavaScript e SEO: La differenza tra scansione e indicizzazione

Di cosa hai bisogno per questa tecnica?

Tutto ciò che serve è Google Chrome Canary e una rete privata virtuale (VPN).

Perché simulare Googlebot in Google Chrome?

Ci sono quattro vantaggi principali nell’utilizzo di questa tecnica che spiegherò brevemente.

Debug in Google Chrome

Ho eseguito il debug di centinaia di siti web nel mio tempo a DeepCrawl. Gli strumenti di scansione Web di terze parti sono incredibili, ma ho sempre scoperto che hanno dei limiti.

Quando cerco di interpretare i risultati di questi strumenti, mi rivolgo sempre a Chrome per aiutare a comprendere ed eseguire il debug di problemi complessi.

Google Chrome è ancora il mio strumento non SEO preferito per eseguire il debug dei problemi e quando configurato può persino simulare Googlebot per convalidare quali strumenti di scansione stanno raccogliendo.

Googlebot utilizza Chromium

Gary ha chiarito che Googlebot utilizza una propria soluzione personalizzata per il recupero e il download di contenuti dal web. Che viene poi passato sui sistemi di indicizzazione.

Non ci sono prove che suggeriscono che Googlebot crawler utilizza Chromium o Chrome, tuttavia, Joshua Giardino a IPullRank fa un grande argomento su Google utilizzando Chromium per creare un crawler web basato su browser.

Google Chrome si basa anche sul progetto open-source Chromium, così come molti altri browser.

Ha senso quindi utilizzare un browser Chromium per simulare Googlebot web crawling per capire meglio il tuo sito web.

Approfondimenti SEO unici

L’utilizzo di Google Chrome per interpretare rapidamente pagine Web come Googlebot può aiutare a capire meglio esattamente perché ci sono problemi di scansione o indicizzazione in pochi minuti.

Piuttosto che passare il tempo ad aspettare che un crawler web finisca di funzionare, posso usare questa tecnica per eseguire rapidamente il debug di potenziali crawling e indicizzazione.

Utilizzo quindi i dati di scansione per vedere l’entità di un problema.

Googlebot non è umano

Il web sta diventando più complesso e dinamico.

È importante ricordare che durante il debug dei problemi di scansione e indicizzazione sei un essere umano e Googlebot è una macchina. Molti siti moderni trattano questi due utenti in modo diverso.

Google Chrome, che è stato progettato per aiutare gli esseri umani la navigazione sul web, può ora aiutare una vista umana un sito come un bot.

Come configurare Googlebot simulator

Giusto, basta con il perché. Lasciatemi spiegare come creare il proprio simulatore Googlebot.

Scarica Google Chrome

Ti consiglio di scaricare Chrome Canary e di non utilizzare il tuo browser Google Chrome (o se sei passato a Firefox, usa Google Chrome).

La ragione principale di ciò è perché cambierai le impostazioni del browser che possono essere un dolore se ti dimentichi di ripristinarle o hai un milione di schede aperte. Risparmia un po ‘ di tempo e usa Canary come simulatore Googlebot dedicato.

Scarica o usa una VPN

Se sei al di fuori degli Stati Uniti, assicurati di avere accesso a una rete privata virtuale (VPN), in modo da poter cambiare il tuo indirizzo IP negli Stati Uniti.

Questo perché per impostazione predefinita Googlebot esegue la scansione dagli Stati Uniti e per simulare veramente il comportamento di scansione devi fingere di accedere a un sito dagli Stati Uniti.

Impostazioni di Chrome

Una volta scaricati e configurati, è ora di configurare le impostazioni di Chrome.

Ho fornito una spiegazione del perché è necessario configurare ogni impostazione, ma l’idea originale di utilizzare Chromebot mi è venuta quando ho riscritto la guida al servizio di rendering della pagina.

Strumenti di sviluppo Web

L’interfaccia utente degli strumenti di sviluppo Web è una parte importante della visualizzazione del tuo sito web come Googlebot. Per assicurarti di poter navigare nella console, dovrai spostare gli strumenti di sviluppo Web in una finestra separata.

Ricorda che la tua finestra DevTools è collegata alla scheda in cui l’hai aperta. Se chiudi quella scheda in Google Chrome si chiuderà anche la finestra Impostazioni e DevTools.

È molto semplice farlo, tutto ciò che devi fare è:

  1. Fare clic con il pulsante destro del mouse su una pagina Web e fare clic su ispeziona elemento (o CTRL+MAIUSC+I)
  2. Passare al lato destro, fare clic sui 3 punti verticali e selezionare l’opzione dockside all’estrema sinistra.

La console Web Dev Tool è ora in una finestra separata.

Token user-agent

Una stringa user-agent, o riga di testo, è un modo per le applicazioni di identificarsi nei server o nelle reti. Per simulare Googlebot dobbiamo aggiornare l’user-agent del browser per far sapere a un sito web che siamo il web crawler di Google.

Menu comandi

Utilizzare il menu Comandi (CTRL + Maiusc + P) e digitare “Mostra condizioni di rete” per aprire la scheda Condizioni di rete in DevTools e aggiornare l’user-agent.

Manuale

Per fare ciò, passare alla finestra separata degli strumenti di sviluppo Web e premere il pulsante Esc. Questo aprirà la console.

Fare clic sui tre piccoli pulsanti a sinistra della scheda console.

Nell’elenco delle opzioni, fare clic sulle condizioni di rete. Si aprirà la scheda Condizioni di rete accanto alla scheda console.

Nella scheda condizioni di rete scorrere verso il basso e deselezionare l’opzione ‘user-agent select automatically’.

Google Chrome ti consentirà ora di modificare la stringa user-agent del tuo browser in Googlebot o Googlebot Mobile.

Di solito l’ho impostato su Googlebot Mobile con l’indicizzazione mobile per impostazione predefinita. Anche se consiglierei di controllare Google Search Console per vedere quale Googlebot esegue la scansione del tuo sito Web più spesso.

Googlebot mobile nella scheda di rete

L’user-agent di Googlebot utilizzerà automaticamente la versione beta di Chrome, non la versione stabile. Questo di solito non è un problema per 99% di siti web, ma se è necessario è possibile inserire l’UA personalizzato da Chrome stabile.

Ora che hai cambiato l’user-agent, chiudi la console (premi di nuovo ESC).

Abilita la scansione senza stato

Googlebot esegue la scansione di pagine Web senza stato tra i carichi di pagine.

La documentazione di Google Search developer afferma che ciò significa che ogni nuova pagina sottoposta a scansione utilizza un nuovo browser e non utilizza la cache, i cookie o la posizione per scoprire e scansionare le pagine Web.

Il nostro simulatore Googlebot ha anche bisogno di replicare essendo stateless (per quanto possibile) su ogni nuova pagina caricata. Per fare questo è necessario disabilitare la cache, i cookie, e la posizione nel vostro Chrome.

Disabilita la cache

Menu comandi

Usa il menu Comandi (CTRL + Maiusc + P) e digita “Disattiva cache” per disabilitare la cache quando DevTools è aperto.

Manuale

Per disabilitare la cache vai al pannello di rete in DevTools e controlla la ‘Disabilita cache’.

Disabilitare i cookie

Menu comandi

Utilizzare il menu Comandi (CTRL + Maiusc + P) e digitare “Disabilita cache” per disabilitare la cache quando DevTools è aperto.

Manuale

In Chrome passare a chrome://settings/cookies. Nelle impostazioni dei cookie scegliere l’opzione “Blocca cookie di terze parti”.

Disabilitazione della posizione

In Chrome passare a chrome: / / settings/content / location nel browser. Commuta “Chiedi prima di accedere (consigliato)” su “Bloccato”.

Disabilita Service Worker

Googlebot disabilita le interfacce basandosi sulle specifiche Service Worker. Ciò significa che ignora il Service Worker che potrebbe memorizzare nella cache i dati e recuperare gli URL dal server.

Per fare ciò, passare al pannello dell’applicazione in DevTools, andare a Service Worker e selezionare l’opzione ‘Ignora la rete’.

Una volta disabilitato il browser sarà costretto a richiedere sempre una risorsa dalla rete e non utilizzare un operatore di servizio.

Disabilita JavaScript

Il crawler Googlebot non esegue alcun JavaScript durante la scansione.

Googlebot & JavaScript: uno sguardo più da vicino al WRS-TechSEO Boost 2019

I sottosistemi di crawling e rendering sono ulteriormente spiegati nella guida alle nozioni di base di JavaScript SEO e Googlebot & JavaScript: uno sguardo più da vicino al WRS a TechSEO Boost 2019.

googlebot crawling systems
Come Googlebot esegue la scansione e il rendering del web

Googlebot è un sistema molto complesso e anche questo diagramma sopra è una semplificazione eccessiva. Tuttavia; il crawler Googlebot deve prima recuperare, scaricare e ispezionare una pagina Web indipendentemente dal rendering.

È importante assicurarsi di poter ispezionare HTML lato server, codici di stato http e risorse senza JavaScript nel nostro simulatore Googlebot.

Riga di comando

Utilizzare il menu dei comandi (CTRL + Maiusc + P) e digitare “Disabilita JavaScript” per disabilitare rapidamente JavaScript.

Manuale

Per disabilitare JavaScript in Chrome, passare a DevTools e fare clic sul cog impostazioni.

Quindi seleziona la casella ‘Disabilita JavaScript’.

Ora, quando usi il tuo simulatore Googlebot, ispezionerai solo l’HTML iniziale lato server. Ciò aiuterà a capire meglio se ci sono problemi di link, contenuti o codice di stato HTTP che causano i problemi del crawler.

Pannello di rete

Infine, è il momento di configurare il pannello di rete. È in questa zona in DevTools dove trascorrerai molto tempo come Googlebot.

Scheda di rete Google chrome

Il pannello di rete viene utilizzato per assicurarsi che le risorse vengano recuperate e scaricate. È in questo pannello che è possibile ispezionare i metadati, le intestazioni http, il contenuto, ecc.

Tuttavia; prima di poter ispezionare le risorse (HTML, CSS, IMG) scaricate dal server come Googlebot dobbiamo aggiornare le intestazioni per visualizzare le informazioni più importanti nel pannello.

Vai al pannello di rete in DevTools (ora una finestra separata). Nella tabella del pannello fare clic con il tasto destro sulle intestazioni delle colonne e selezionare le intestazioni elencate di seguito da aggiungere come colonne nel pannello di rete (rimuovere tutte le altre non elencate).

aggiornamento delle intestazioni di rete

Ho anche fornito una breve spiegazione di ciascuna intestazione e perché dovrebbero essere aggiunte.

Stato

Il codice di stato https dell’URL scaricato dal server. Googlebot modificherà il suo comportamento di scansione a seconda del tipo di codice di stato http – una delle informazioni più critiche da capire durante il controllo degli URL.

Schema

Visualizza lo schema https non sicuro:// o https sicuro:// della risorsa da scaricare. Googlebot preferisce eseguire la scansione e indicizzare gli URL HTTPS, quindi è importante avere una buona comprensione dello schema utilizzato dalle risorse in una pagina.

Dominio

Visualizza il dominio in cui sono state scaricate le risorse. È importante capire se il contenuto importante si basa su un CDN, un’API o un sottodominio esterni poiché Googlebot potrebbe avere problemi a recuperare il contenuto.

Indirizzo remoto

Google Chrome elenca l’indirizzo IP dell’host in cui vengono scaricate le risorse. Poiché il budget di scansione di un sito Web si basa sull’indirizzo IP dell’host e non sul dominio, è importante tenere conto anche dell’indirizzo IP di ciascun URL recuperato.

Digitare

Il tipo MIME della risorsa richiesta. È importante assicurarsi che gli URL importanti siano etichettati con il tipo MIME corretto poiché diversi tipi di Googlebot sono interessati a diversi tipi di contenuto (HTML, CSS, IMG).

Dimensione

La dimensione combinata delle intestazioni di risposta più il corpo della risposta, come fornito dal server. È importante migliorare la velocità del sito di un sito Web, in quanto ciò può aiutare sia gli utenti che Googlebot ad accedere al sito più rapidamente.

Tempo

La durata totale, dall’inizio della richiesta alla ricezione del byte finale nella risposta. La risposta del server può influire sul limite di velocità di scansione di Googlebot. Se il server rallenta, il crawler web eseguirà la scansione del tuo sito Web di meno.

Priorità

La migliore ipotesi del browser di quali risorse caricare per prime. Questo non è il modo in cui Googlebot esegue la scansione delle priorità degli URL per eseguire la scansione, ma può essere utile vedere quali risorse sono prioritarie dal browser (usando la propria euristica).

Ultima modifica

L’intestazione HTTP dell’ultima risposta modificata contiene la data e l’ora in cui il server di origine ritiene che la risorsa sia stata modificata per l’ultima volta. Questa risposta può essere utilizzata da Googlebot, in combinazione con altri segnali, per aiutare a dare priorità alla scansione su un sito.

US IP Address

Una volta aggiornate le intestazioni del pannello di rete in Chrome DevTools, il tuo simulatore Googlebot è quasi pronto.

Se si desidera utilizzarlo immediatamente è necessario passare a un indirizzo IP degli Stati Uniti.

Googlebot esegue la scansione dagli Stati Uniti d’America. Per questo motivo, ti consiglio sempre di cambiare il tuo indirizzo IP negli Stati Uniti quando usi il tuo simulatore Googlebot.

È il modo migliore per capire come si comporta il tuo sito web quando viene visitato da Googlebot. Ad esempio, se un sito blocca i visitatori con indirizzi IP statunitensi o reindirizza i visitatori in base alla loro posizione, ciò potrebbe causare problemi con la scansione e l’indicizzazione di un sito Web da parte di Google.

I, Googlebot Chrome

Una volta che il tuo indirizzo IP è cambiato, sei pronto per andare e avere il tuo simulatore Googlebot.

 googlebot simulator

Se vuoi testare per vedere se funziona, vai a angular.io oppure eventbrite.com. Questi siti web richiedono JavaScript per caricare contenuti e link – con JavaScript disabilitato questi siti non caricare il contenuto correttamente nell’interfaccia.

Domande frequenti

Il simulatore funziona per una sola scheda?

Sì. Le impostazioni di Google DevTool sono solo per la scheda che hai attualmente aperto. L’apertura di una nuova scheda farà sì che le impostazioni Disabilita JavaScript e User-agent vengano ripristinate.

Altre impostazioni basate su Chrome (cookie, operatori del servizio) verranno comunque configurate.

Questo aiuta a eseguire il debug di problemi SEO JavaScript?

Sì questa tecnica può essere utilizzata per eseguire il debug di problemi SEO JavaScript su un sito Web quando si confronta view-source con HTML renderizzato. Anche se potrebbero esserci estensioni e strumenti migliori per farlo su larga scala.

Devo aggiornare le impostazioni ogni volta?

Una volta chiusa la scheda è necessario aggiornare le seguenti impostazioni:

  • Disabilita JavaScript
  • Aggiorna il token User-agent

Tutte le altre impostazioni saranno state salvate dal browser.

Perché devo usare Chrome Canary?

Suggerisco solo di usarlo per impedirti di rovinare il tuo browser Chrome e di dover passare il tempo ad andare avanti e indietro tra le impostazioni.

Se si utilizza Firefox o Safari quindi basta scaricare il normale Google Chrome.

Ho già costruito questo in chrome senza testa o attraverso qualche altra automazione?

Prima di tutto, ben fatto! Se sei come me e non hai (attualmente) il tempo/la capacità di imparare nuovi linguaggi di codifica, questo metodo non codificato è ottimo per iniziare.

Lascia un commento

Il tuo indirizzo email non sarà pubblicato.