hur man simulerar Googlebot med Chrome

på DeepCrawl hjälpte jag till att felsöka tusentals tekniska SEO-problem varje år på några av de största företagswebbplatserna i världen.

jag skapade en Googlebot-simulator i Chrome för att snabbt replikera och felsöka komplexa tekniska SEO-problem. Jag kallade det Chromebot-tekniken.

i den här guiden kommer jag att förklara hur du gör din egen Googlebot-simulator i Google Chrome för att felsöka komplexa tekniska SEO-problem.

Vad är Chromebot-tekniken?

Chromebot-tekniken är en enkel icke-kodlösning som tillåter en mänsklig konfigurera chrome-inställningar så att de fungerar som Googlebot-sökrobot (inte rendering). Det kan hjälpa SEO-specialister att identifiera unika krypnings-och indexeringsproblem på en webbplats.

Varför använda denna teknik?

jag har använt den här tekniken mycket vid DeepCrawl när jag felsöker otaliga klientkrypnings-och indexeringsproblem.

det är en ganska enkel men effektiv icke-kodteknik för att hjälpa tekniska SEO: er att tänka mer som en sökmotorsökrobot och mindre som en människa.

många webbplatser kan göra roliga saker när Googlebot-användare begär sidor.

Hur känner du till Googlebot crawlers inställningar?

alla inställningar är baserade på den tid jag tillbringade chatta med ingenjörer, studera dokumentationen kring Googlebot, och uppdatera DeepCrawl sida Rendering servicedokumentation.

jag har listat originaldokumenten som jag har baserat inställningarna på:

  • fixa sökrelaterade JavaScript-problem
  • förstå rendering på Google-sökning
  • JavaScript och SEO: Skillnaden mellan krypning och indexering

vad behöver du för den här tekniken?

allt du behöver är Google Chrome Canary och ett virtuellt privat nätverk (VPN).

varför simulera Googlebot i Google Chrome?

det finns fyra kärnfördelar med att använda denna teknik som jag kortfattat kommer att förklara.

Felsökning i Google Chrome

jag har felsökt hundratals webbplatser under min tid på DeepCrawl. Tredjeparts webbsökningsverktyg är fantastiska men jag har alltid funnit att de har gränser.

när jag försöker tolka resultat från dessa verktyg vänder jag mig alltid till Chrome för att förstå och felsöka komplexa problem.

Google Chrome är fortfarande mitt favoritverktyg som inte är SEO för att felsöka problem och när det är konfigurerat kan det till och med simulera Googlebot för att validera vilka genomsökningsverktyg som plockar upp.

Googlebot använder Chromium

Gary klargjorde att Googlebot använder sin egen specialbyggda lösning för att hämta och ladda ner innehåll från webben. Som sedan överförs till indexeringssystemen.

det finns inga bevis som tyder på att Googlebot crawler använder Chromium eller Chrome, men Joshua Giardino på IPullRank gör ett bra argument om att Google använder Chromium för att skapa en webbläsarbaserad webbsökare.

Google Chrome är också baserat på Chromium-projektet med öppen källkod, liksom många andra webbläsare.

det är vettigt att använda en Chromium-webbläsare för att simulera Googlebot-webbsökning för att bättre förstå din webbplats.

unika SEO-insikter

att använda Google Chrome för att snabbt tolka webbsidor som Googlebot kan hjälpa till att bättre förstå exakt varför det finns krypnings-eller indexeringsproblem på några minuter.

i stället för att spendera tid på att vänta på en webbsökare för att slutföra körning, kan jag använda den här tekniken för att snabbt felsöka potentiell genomsökning och indexering.

jag använder sedan genomsökningsdata för att se omfattningen av ett problem.

Googlebot är inte mänsklig

webben blir mer komplex och dynamisk.

det är viktigt att komma ihåg att när du felsöker krypnings-och indexeringsproblem är du en människa och Googlebot är en maskin. Många moderna webbplatser behandlar dessa två användare annorlunda.

Google Chrome som har utformats för att hjälpa människor navigering på webben, kan nu hjälpa en människa visa en webbplats som en bot.

hur man ställer Googlebot simulator

höger, nog av varför. Låt mig förklara hur du skapar din egen Googlebot simulator.

ladda ner Google Chrome

jag rekommenderar att du laddar ner Chrome Canary och inte använder din egen Google Chrome-webbläsare (eller om du har bytt till Firefox använder du Google Chrome).

den främsta orsaken till detta är att du kommer att ändra webbläsarinställningar som kan vara en smärta om du glömmer att återställa dem eller har en miljon flikar öppna. Spara lite tid och använd bara Canary som din dedikerade Googlebot-simulator.

ladda ner eller använd en VPN

om du befinner dig utanför USA, se till att du har tillgång till ett virtuellt privat nätverk (VPN), så att du kan byta din IP-adress till USA.

detta beror på att Googlebot som standard kryper från USA, och för att verkligen simulera genomsökningsbeteende måste du låtsas ha åtkomst till en webbplats från USA.

Chrome-Inställningar

när du har laddat ner dessa och konfigurerat är det dags att konfigurera Chrome-inställningar.

jag har gett en förklaring till varför du behöver konfigurera varje inställning men den ursprungliga tanken på att använda Chromebot kom till mig när jag skrev om sidan Rendering Service guide.

Web Dev Tools

WEBBUTVECKLARVERKTYGSGRÄNSSNITTET är en viktig del av att visa din webbplats som Googlebot. För att se till att du kan navigera runt konsolen måste du flytta Web Dev-verktygen till ett separat fönster.

kom ihåg att ditt DevTools-fönster är länkat till fliken du öppnade den i. Om du stänger den fliken i Google Chrome stängs fönstret Inställningar och DevTools också.

det är väldigt enkelt att göra detta, allt du behöver göra är:

  1. högerklicka på en webbsida och klicka på Inspektera element (eller CTRL+SHIFT+I)
  2. navigera till höger, klicka på de 3 vertikala prickarna och välj alternativet längst till vänster.

Web Dev Tool console finns nu i ett separat fönster.

User-agent token

en User-agent sträng – eller textrad – är ett sätt för applikationer att identifiera sig till servrar eller nätverk. För att simulera Googlebot måste vi uppdatera webbläsarens användaragent så att en webbplats vet att vi är Googles sökrobot.

Kommandomeny

använd kommandomenyn (CTRL + Shift + P) och skriv ”Visa nätverksförhållanden” för att öppna fliken nätverkstillstånd i DevTools och uppdatera användaragenten.

Manual

för att göra detta, navigera till det separata Web Dev Tools-fönstret och tryck på Esc-knappen. Detta öppnar konsolen.

klicka på de tre små knapparna till vänster på fliken Konsol.

klicka på nätverksförhållandena i listan med alternativ. Detta öppnar fliken nätverksförhållanden bredvid fliken Konsol.

på fliken nätverksförhållanden bläddrar du ner och avmarkerar alternativet’ User-agent select automatically’.

Google Chrome låter dig nu ändra användaragentsträngen i din webbläsare till Googlebot eller Googlebot Mobile.

jag brukar ställa in den på Googlebot Mobile med mobilindexering som standard. Även om jag rekommenderar att du checkar in i Google Search Console för att se vilken Googlebot som genomsöker din webbplats oftast.

Googlebot mobile i nätverksfliken

Googlebot-användaragenten använder dev beta Chrome-versionen, inte den stabila versionen, automatiskt. Detta är vanligtvis inte ett problem för 99% av webbplatser, men om du behöver kan du mata in den anpassade UA från stabil Chrome.

nu har du ändrat användaragenten, stäng konsolen (tryck på ESC igen).

aktivera statslös genomsökning

Googlebot genomsöker webbsidor statslösa över sidbelastningar.

dokumentationen för Google Search developer anger att detta innebär att varje ny sida som genomsöks använder en ny webbläsare och inte använder cache, cookies eller plats för att upptäcka och genomsöka webbsidor.

vår Googlebot-simulator måste också replikera att vara statslös (så mycket som möjligt) över varje ny sida som laddas. För att göra detta måste du inaktivera cache, cookies och plats i din Chrome.

inaktivera cachen

Kommandomeny

använd kommandomenyn (CTRL + Shift + P) och skriv ”inaktivera Cache” För att inaktivera cachen när DevTools är öppen.

Manual

för att inaktivera cachen gå till Nätverkspanelen i DevTools och kontrollera ’Inaktivera cache’.

inaktivera cookies

Kommandomeny

använd kommandomenyn (CTRL + Shift + P) och skriv ”inaktivera Cache” För att inaktivera cachen när DevTools är öppen.

Manual

i Chrome navigera till chrome://inställningar/cookies. I inställningarna för cookies väljer du alternativet ”Blockera cookies från tredje part”.

inaktivera plats

i Chrome navigera till chrome://inställningar / innehåll / plats i din webbläsare. Växla ” fråga innan du öppnar (rekommenderas) ”till”blockerad”.

inaktivera servicearbetare

Googlebot inaktiverar gränssnitt som bygger på servicearbetarspecifikationen. Det betyder att det kringgår Servicearbetaren som kan cache data och hämtar webbadresser från servern.

för att göra detta, navigera till Applikationspanelen i DevTools, gå till servicearbetare och kolla alternativet ’Bypass the network’.

när inaktiverad webbläsaren kommer att tvingas att alltid begära en resurs från nätverket och inte använda en servicearbetare.

inaktivera JavaScript

Googlebot-sökroboten kör inte JavaScript vid genomsökning.

Googlebot & JavaScript: en närmare titt på WRS-TechSEO Boost 2019

genomsöknings-och renderingsundersystemen förklaras ytterligare i Förstå JavaScript SEO basics guide och Googlebot & JavaScript: en närmare titt på WRS på TechSEO Boost 2019.

googlebot crawling systems
hur Googlebot kryper och gör webben

Googlebot är ett mycket komplext system och även detta diagram ovan är en förenkling. Googlebot-sökroboten måste dock först hämta, hämta och inspektera en webbsida oavsett rendering.

det är viktigt att se till att vi kan inspektera serversidan HTML, http-statuskoder och resurser utan JavaScript i vår Googlebot-simulator.

kommandorad

använd kommandomenyn (CTRL + Shift + P) och skriv ”inaktivera JavaScript” för att snabbt inaktivera JavaScript.

Manual

för att inaktivera JavaScript i Chrome, navigera till DevTools och klicka på inställningskuggan.

markera sedan rutan inaktivera JavaScript.

nu när du använder din Googlebot simulator kommer du bara att inspektera den ursprungliga serversidan HTML. Detta hjälper till att bättre förstå om det finns några problem med länk, innehåll eller HTTP-statuskod som orsakar sökrobotproblemen.

Nätverkspanel

slutligen är det dags att konfigurera nätverkspanelen. Det är i detta område i DevTools där du kommer att spendera mycket tid som Googlebot.

fliken Google chrome network

nätverkspanelen används för att se till att resurser hämtas och hämtas. Det är i den här panelen att du kan inspektera metadata, http-rubriker, innehåll etc. för varje enskild webbadress som hämtas när du begär en sida.

men; innan vi kan inspektera resurserna (HTML, CSS, IMG) som laddats ner från servern som Googlebot måste vi uppdatera rubrikerna för att visa den viktigaste informationen i panelen.

gå till nätverkspanelen i DevTools (nu ett separat fönster). På bordet i panelen högerklicka på kolumnrubrikerna och välj rubrikerna nedan för att läggas till som kolumner i nätverkspanelen (ta bort alla andra som inte listas).

 uppdatering av nätverkshuvuden

jag har också gett en kort förklaring av varje rubrik och varför de ska läggas till.

Status

https-statuskoden för webbadressen som hämtas från servern. Googlebot kommer att ändra sitt beteende genomsökning beroende på vilken typ av http – statuskod-en av de mest kritiska bitar av information för att förstå när granska webbadresser.

schema

visar osäker https:// eller säker https:// – schema för resursen som laddas ner. Googlebot föredrar att genomsöka och indexera HTTPS-webbadresser så det är viktigt att få en god förståelse för systemet som används av resurser på en sida.

domän

visar domänen där resurserna hämtades. Det är viktigt att förstå om viktigt innehåll är beroende av en extern CDN, API eller underdomän eftersom Googlebot kan ha problem med att hämta innehållet.

Fjärradress

Google Chrome listar IP-adressen för värden där resurserna laddas ner. Eftersom genomsökningsbudgeten för en webbplats baseras på värdens IP-adress och inte på domänen är det viktigt att också ta hänsyn till IP-adressen för varje hämtad URL.

skriv

MIME-typen för den begärda resursen. Det är viktigt att se till att viktiga webbadresser är märkta med rätt MIME-typ eftersom olika typer av Googlebot är intresserade av olika typer av innehåll (HTML, CSS, IMG).

Storlek

den kombinerade storleken på svarsrubrikerna plus svarskroppen, som levereras av servern. Det är viktigt att förbättra webbplatsens hastighet, eftersom det kan hjälpa både dina användare och Googlebot att komma åt din webbplats snabbare.

tid

den totala varaktigheten, från början av begäran till mottagandet av den slutliga byte i svaret. Serverns svar kan påverka gränsen för genomsökningshastighet för Googlebot. Om servern saktar ner kommer webbsökaren att genomsöka din webbplats mindre.

prioritet

den bästa gissningen av webbläsaren för vilka resurser som ska laddas först. Det här är inte hur Googlebot genomsöker prioriterar webbadresser att genomsöka, men det kan vara användbart att se vilka resurser som prioriteras av webbläsaren (med sin egen heuristik).

Senast ändrad

det senast ändrade svaret HTTP-huvudet innehåller datum och tid då origin-servern tror att resursen senast ändrades. Detta svar kan användas av Googlebot, i kombination med andra signaler, för att prioritera genomsökning på en webbplats.

US IP-adress

när du har uppdaterat nätverkspanelhuvudena i Chrome DevTools är din Googlebot-simulator nästan klar.

om du vill använda den direkt måste du byta till en amerikansk IP-adress.

Googlebot kryper från USA. Av denna anledning rekommenderar jag alltid att du ändrar din IP-adress till USA när du använder din Googlebot-simulator.

det är det bästa sättet att förstå hur din webbplats beter sig när den besöks av Googlebot. Om en webbplats till exempel blockerar besökare med amerikanska IP-adresser eller geo-omdirigerar besökare baserat på deras plats kan det orsaka problem med Google-genomsökning och indexering av en webbplats.

i, Googlebot Chrome

när din IP-adress har bytts är du redo att gå och ha din egen Googlebot-simulator.

googlebot simulator

om du vill testa för att se om det fungerar, gå till angular.io eller eventbrite.com. Dessa webbplatser kräver JavaScript för att ladda innehåll och länkar – med JavaScript inaktiverat kommer dessa webbplatser inte att ladda innehåll korrekt i gränssnittet.

Vanliga frågor

fungerar simulatorn för bara en flik?

Ja. Google DevTool-inställningar är bara för fliken du för närvarande har öppnat. Om du öppnar en ny flik återställs inställningarna för inaktivera JavaScript och användaragent.

andra Chrome – baserade inställningar (cookies, servicearbetare) kommer fortfarande att konfigureras.

hjälper detta till att felsöka JavaScript SEO-problem?

ja den här tekniken kan användas för att felsöka JavaScript SEO-problem på en webbplats när man jämför view-source med renderad HTML. Även om det kan finnas bättre tillägg och verktyg för att göra detta i skala.

behöver jag uppdatera inställningarna varje gång?

när fliken är stängd måste du uppdatera följande inställningar:

  • inaktivera JavaScript
  • uppdatera User-agent token

alla andra inställningar har sparats av webbläsaren.

Varför behöver jag använda Chrome Canary?

jag föreslår bara att du använder det här för att hindra dig från att röra upp din Chrome-webbläsare och behöva spendera tid fram och tillbaka mellan inställningarna.

om du använder Firefox eller Safari laddar du bara ner den vanliga Google Chrome.

jag har redan byggt detta i headless chrome eller genom någon annan automatisering?

först och främst, bra gjort! Om du är som jag och inte (för närvarande) har tid/kapacitet att lära dig nya kodningsspråk är den här icke-kodmetoden bra att komma igång.

Lämna ett svar

Din e-postadress kommer inte publiceras.