sådan simuleres Googlebot ved hjælp af Chrome

på Deepcrave hjalp jeg med at fejle tusindvis af tekniske SEO-problemer hvert år på nogle af de største virksomhedshjemmesider i verden.

jeg oprettede en Googlebot-simulator i Chrome for hurtigt at replikere og debug komplekse tekniske SEO-problemer. Jeg kaldte det Chromebot-teknikken.

i denne vejledning skal jeg forklare, hvordan du laver din egen Googlebot-simulator i Google Chrome for at fejle komplekse tekniske SEO-problemer.

hvad er Chromebot-teknikken?

Chromebot-teknikken er en simpel ikke-kodeløsning, der tillader en menneskelig konfiguration af chrome-indstillinger, så de fungerer som Googlebot-larvebånd (ikke gengivelse). Det kan hjælpe SEO-specialister med at identificere unikke gennemsøgnings-og indekseringsproblemer på en hjemmeside.

Hvorfor bruge denne teknik?

jeg har brugt denne teknik meget på Deepcragle når debugging utallige klient kravle og indeksering spørgsmål.

det er en ret simpel, men effektiv ikke-kodeteknik, der hjælper tekniske SEO ‘ er med at tænke mere som en søgemaskine-larvebånd og mindre som et menneske.

mange hjemmesider kan gøre sjove ting, når Googlebot-brugere anmoder om sider.

Hvordan kender du Googlebot ‘ s indstillinger?

alle indstillinger er baseret på den tid, jeg brugte på at chatte med ingeniører, studere dokumentationen omkring Googlebot og opdatere deepcraves sidegengivelsestjenestedokumentation.

jeg har listet de originale dokumenter, som jeg har baseret indstillingerne på:

  • Løs søgerelaterede JavaScript-problemer
  • forstå gengivelse på Google søgning
  • JavaScript og SEO: Forskellen mellem gennemsøgning og indeksering

hvad har du brug for til denne teknik?

alt du behøver er Google Chrome Canary og et virtuelt privat netværk (VPN).

hvorfor simulere Googlebot i Google Chrome?

der er fire kernefordele ved at bruge denne teknik, som jeg kort vil forklare.

Debugging i Google Chrome

jeg har debugged hundredvis af hjemmesider i min tid på Deepcrave. Tredjeparts gennemsøgningsværktøjer er fantastiske, men jeg har altid fundet ud af, at de har grænser.

når jeg prøver at fortolke resultater fra disse værktøjer, henvender jeg mig altid til Chrome for at hjælpe med at forstå og fejle komplekse problemer.

Google Chrome er stadig mit foretrukne ikke-SEO-værktøj til fejlfinding af problemer, og når det er konfigureret, kan det endda simulere Googlebot for at validere, hvilke gennemsøgningsværktøjer der henter.

Googlebot bruger Chromium

Gary præciserede, at Googlebot bruger sin egen specialbyggede løsning til at hente og hente indhold fra internettet. Som derefter overføres til indekseringssystemerne.

der er ingen beviser, der tyder på, at Google bruger Chromium eller Chrome, men Joshua Giardino hos IPullRank gør et godt argument om, at Google bruger Chromium til at oprette en bro.serbaseret internetspor.

Google Chrome er også baseret på open source Chromium-projektet såvel som mange andre bro.sere.

det er fornuftigt at bruge en Chromium-bro.ser til at simulere Googlebot-gennemsøgning for bedre at forstå din hjemmeside.

unik SEO insights

brug af Google Chrome til hurtigt at fortolke hjemmesider som Googlebot kan hjælpe med til bedre at forstå præcis, hvorfor der er gennemsøgning eller indeksering problemer på få minutter.

i stedet for at bruge tid på at vente på, at en banekrydser er færdig med at køre, kan jeg bruge denne teknik til hurtigt at debugge potentiel gennemsøgning og indeksering.

jeg bruger derefter gennemsøgningsdataene til at se omfanget af et problem.

Googlebot er ikke menneske

internettet bliver mere komplekst og dynamisk.

det er vigtigt at huske, at når du debugger gennemsøgning og indeksering af problemer, er du et menneske, og Googlebot er en maskine. Mange moderne sider behandler disse to brugere forskelligt.

Google Chrome, der er designet til at hjælpe mennesker med at navigere på nettet, kan nu hjælpe et menneske med at se et sted som en bot.

Sådan setup Googlebot simulator

højre, nok af hvorfor. Lad mig forklare, hvordan du opretter din egen Googlebot-simulator.

Hent Google Chrome

Jeg vil anbefale at hente Chrome Canary og ikke bruge din egen Google Chrome-bro.ser (eller hvis du har skiftet til Google Chrome, skal du bruge Google Chrome).

hovedårsagen til dette er, at du vil ændre bro.serindstillinger, hvilket kan være en smerte, hvis du glemmer at nulstille dem eller har en million faner åbne. Spar dig selv lidt tid og brug bare Canary som din dedikerede Googlebot-simulator.

Hent eller brug en VPN

hvis du er uden for USA, så sørg for at have adgang til et virtuelt privat netværk (VPN), så du kan skifte din IP-adresse til USA.

dette skyldes, at Googlebot som standard gennemsøger fra USA, og for virkelig at simulere gennemsøgningsadfærd skal du foregive at have adgang til et sted fra USA.

Chrome-indstillinger

når du har hentet og konfigureret, er det tid til at konfigurere Chrome-indstillinger.

jeg har givet en forklaring på, hvorfor du skal konfigurere hver indstilling, men den oprindelige ide om at bruge Chromebot kom til mig, da jeg omskrev sidegengivelsestjenesteguiden.

Internetudviklerværktøjer

brugergrænsefladen til Internetudviklerværktøjer er en vigtig del af at se din hjemmeside som Googlebot. For at sikre, at du kan navigere rundt i konsollen, skal du flytte Internet-Dev-værktøjerne til et separat vindue.

Husk, at dit DevTools-vindue er knyttet til den fane, du åbnede det i. Hvis du lukker denne fane i Google Chrome, lukkes vinduet Indstillinger og DevTools også.

det er meget simpelt at gøre dette, alt hvad du skal gøre er:

  1. Højreklik på en hjemmeside, og klik på Undersøg element (eller CTRL+SHIFT+I)
  2. Naviger til højre, klik på de 3 lodrette prikker, og vælg den yderste venstre dockside mulighed.

værktøjskonsollen er nu i et separat vindue.

User-agent token

en brugeragentstreng – eller tekstlinje – er en måde for applikationer at identificere sig til servere eller netværk. For at simulere Googlebot skal vi opdatere brugerens brugeragent for at lade en hjemmeside vide, at vi er Googles internetsøgemaskine.

Kommandomenu

brug Kommandomenuen (CTRL + Shift + P) og skriv “Vis netværksbetingelser” for at åbne fanen netværkstilstand i DevTools og opdatere brugeragenten.

Manual

for at gøre dette skal du navigere til vinduet separate værktøjer til internetudvikling og trykke på Esc-knappen. Dette åbner konsollen.

Klik på de tre små knapper til venstre for fanen Konsol.

klik på netværksbetingelserne på listen over indstillinger. Dette åbner fanen netværksbetingelser ved siden af fanen Konsol.

i fanen netværksbetingelser skal du rulle ned og fjerne markeringen af indstillingen ‘user-agent select automatically’.

Google Chrome giver dig nu mulighed for at ændre brugeragentstrengen på din bro.ser til Googlebot eller Googlebot Mobile.

jeg sætter det normalt til Googlebot Mobile med mobilindeksering som standard. Selvom jeg vil anbefale at tjekke i Google Search Console for at se, hvilke Googlebot gennemsøger din hjemmeside oftest.

Googlebot mobile i netværksfanen

Googlebot-brugeragenten bruger automatisk Dev beta Chrome-versionen, ikke den stabile version. Dette er normalt ikke et problem for 99% af hjemmesider, men hvis du har brug for det, kan du indtaste den brugerdefinerede UA fra stabil Chrome.

nu har du ændret brugeragenten, luk konsollen (tryk på ESC igen).

aktiver statsløs gennemgang

Googlebot gennemsøger hjemmesider statsløse på tværs af sideindlæsninger.

dokumentationen til Google search developer angiver, at det betyder, at hver ny gennemsøgt side bruger en ny bro.ser og ikke bruger cachen, cookies eller placering til at opdage og gennemgå hjemmesider.

vores Googlebot simulator skal også replikere at være statsløs (så meget som muligt) på tværs af hver ny side indlæst. For at gøre dette skal du deaktivere cache, cookies og placering i din Chrome.

Deaktiver cachen

Kommandomenu

brug Kommandomenuen (CTRL + Shift + P) og skriv “Deaktiver Cache” for at deaktivere cachen, når DevTools er åben.

Manual

for at deaktivere cachen skal du gå til netværkspanelet i DevTools og kontrollere ‘Deaktiver cache’.

Deaktiver cookies

Kommandomenu

brug Kommandomenuen (CTRL + Shift + P) og skriv “Deaktiver Cache” for at deaktivere cachen, når DevTools er åben.

Manual

i Chrome Naviger til chrome://indstillinger/cookies. I cookieindstillingerne skal du vælge muligheden for at “blokere tredjepartscookies”.

deaktivering af placering

i Chrome Naviger til chrome://indstillinger/indhold/placering i din bro.ser. Skift “Spørg før adgang (anbefales)”til ” blokeret”.

Deaktiver servicemedarbejdere

Googlebot deaktiverer grænseflader, der er afhængige af Servicemedarbejderens specifikation. Dette betyder, at det omgår servicemedarbejderen, der muligvis cache data og henter URL ‘ er fra serveren.

for at gøre dette skal du navigere til applikationspanelet i DevTools, gå til servicemedarbejdere og kontrollere indstillingen ‘omgå netværket’.

når den er deaktiveret, bliver bro.sereren tvunget til altid at anmode om en ressource fra netværket og ikke bruge en servicemedarbejder.

Deaktiver JavaScript

Googlebot-larven udfører ikke JavaScript, når den gennemsøges.

Googlebot & JavaScript: et nærmere kig på VRS-TechSEO Boost 2019

de gennemsøgning og rendering undersystemer er yderligere forklaret i forstå JavaScript SEO basics guide og Googlebot & JavaScript: et nærmere kig på VRS på TechSEO Boost 2019.

googlebot gennemsøgningssystemer
hvordan Googlebot gennemsøger og gengiver internettet

Googlebot er et meget komplekst system, og selv dette diagram ovenfor er en forenkling. Imidlertid; Googlebot-larven skal først hente, hente og inspicere en hjemmeside uanset gengivelse.

det er vigtigt at sikre, at vi kan inspicere server-side HTML, http statuskoder og ressourcer uden JavaScript i Vores Googlebot simulator.

kommandolinje

brug Kommandomenuen (CTRL + Shift + P) og skriv “Deaktiver JavaScript” for hurtigt at deaktivere JavaScript.

Manual

for at deaktivere JavaScript i Chrome skal du navigere til DevTools og klikke på Indstillinger tandhjul.

marker derefter afkrydsningsfeltet ‘Deaktiver JavaScript’.

nu når du bruger din Googlebot simulator vil du kun inspicere den oprindelige server-side HTML. Dette hjælper med til bedre at forstå, om der er problemer med link -, indholds-eller HTTP-statuskoden, der forårsager overvågningsproblemerne.

Netværkspanel

endelig er det tid til at konfigurere netværkspanelet. Det er i dette område i DevTools, hvor du vil bruge en masse tid som Googlebot.

fanen Google chrome netværk

netværkspanelet bruges til at sikre, at ressourcer hentes og hentes. Det er i dette panel, at du kan inspicere metadata, http-overskrifter, indhold osv.

dog; før vi kan inspicere ressourcerne (HTML, CSS, IMG) hentet fra serveren som Googlebot, skal vi opdatere overskrifterne for at vise de vigtigste oplysninger i panelet.

gå til netværkspanelet i DevTools (nu et separat vindue). Højreklik på kolonneoverskrifterne på bordet i panelet, og vælg overskrifterne nedenfor, der skal tilføjes som kolonner i netværkspanelet (Fjern andre, der ikke er angivet).

opdatering af netværksoverskrifter

jeg har også givet en kort forklaring på hver overskrift, og hvorfor de skal tilføjes.

Status

https-statuskoden for den URL, der hentes fra serveren. Googlebot vil ændre sin gennemsøgningsadfærd afhængigt af typen af http – statuskode-en af de mest kritiske oplysninger, der skal forstås, når der revideres URL ‘ er.

Scheme

viser den usikre https:// eller secure https:// scheme af den ressource, der hentes. Googlebot foretrækker at gennemgå og indeksere HTTPS-URL ‘ er, så det er vigtigt at få en god forståelse af ordningen, der bruges af ressourcer på en side.

domæne

viser det domæne, hvor ressourcerne blev hentet. Det er vigtigt at forstå, om vigtigt indhold er afhængig af et eksternt CDN, API eller underdomæne, da Googlebot kan have problemer med at hente indholdet.

fjernadresse

Google Chrome viser IP-adressen på værten, hvor ressourcerne hentes. Da gennemsøgningsbudgettet for en hjemmeside er baseret på værtens IP-adresse og ikke på domænet, er det vigtigt også at tage hensyn til IP-adressen for hver URL, der hentes.

skriv

MIME-typen af den anmodede ressource. Det er vigtigt at sikre, at vigtige URL ‘ er er mærket med den korrekte MIME-type, da forskellige typer Googlebot er interesseret i forskellige typer indhold (HTML, CSS, IMG).

Størrelse

den kombinerede størrelse af svaroverskrifterne plus svarlegemet, som leveret af serveren. Det er vigtigt at forbedre hastigheden på en hjemmeside, da dette kan hjælpe både dine brugere og Googlebot med at få adgang til din hjemmeside hurtigere.

tid

den samlede varighed, fra starten af anmodningen til modtagelsen af den endelige byte i svaret. Svaret på din server kan påvirke grænsen for gennemsøgningshastighed for Googlebot. Hvis serveren bremser, vil internetsøgeren gennemgå din hjemmeside mindre.

prioritet

det bedste gæt på, hvilke ressourcer der skal indlæses først. Dette er ikke, hvordan Googlebot gennemsøgninger prioriterer URL ‘ er til at gennemgå, men det kan være nyttigt at se, hvilke ressourcer der prioriteres af bro.ser (ved hjælp af sin egen heuristik).

Sidst ændret

den sidst ændrede svar HTTP-header indeholder den dato og det tidspunkt, hvor oprindelsesserveren mener, at ressourcen sidst blev ændret. Dette svar kan bruges af Googlebot i kombination med andre signaler til at hjælpe med at prioritere gennemsøgning på et sted.

US IP-adresse

når du har opdateret netværkspaneloverskrifterne i Chrome DevTools, er din Googlebot-simulator næsten klar.

hvis du vil bruge det med det samme, skal du skifte til en amerikansk IP-adresse.

Googlebot kravler fra USA. Af denne grund vil jeg altid anbefale at ændre din IP-adresse til USA, når du bruger din Googlebot-simulator.

det er den bedste måde at forstå, hvordan din hjemmeside opfører sig, når den besøges af Googlebot. For eksempel, hvis en hjemmeside blokerer besøgende med amerikanske IP-adresser eller geo-omdirigerer besøgende baseret på deres placering, kan dette medføre problemer med Google gennemgang og indeksering af en hjemmeside.

i, Googlebot Chrome

når din IP-adresse er skiftet, er du klar til at gå og have din egen Googlebot-simulator.

googlebot simulator

hvis du vil teste for at se om det virker, skal du gå til angular.io eller eventbrite.com. Disse hjemmesider kræver JavaScript for at indlæse indhold og links – med JavaScript deaktiveret disse steder vil ikke indlæse indhold korrekt i grænsefladen.

Ofte Stillede Spørgsmål

fungerer simulatoren kun for en fane?

Ja. Google DevTool-indstillinger er kun til den fane, du i øjeblikket har åbnet. Åbning af en ny fane medfører, at indstillingerne Deaktiver JavaScript og brugeragent nulstilles.

andre Chrome-baserede indstillinger (cookies, servicemedarbejdere) vil stadig blive konfigureret.

hjælper dette med at debug JavaScript SEO problemer?

ja denne teknik kan bruges til at debug JavaScript SEO problemer på en hjemmeside, når man sammenligner visning-kilde til gengivet HTML. Selvom der måske er bedre udvidelser og værktøjer til at gøre dette i skala.

skal jeg opdatere indstillingerne hver gang?

når din fane er lukket, skal du opdatere følgende indstillinger:

  • Deaktiver JavaScript
  • Opdater User-agent token

alle andre indstillinger er blevet gemt af bro.sereren.

hvorfor skal jeg bruge Chrome Canary?

jeg foreslår kun at bruge dette til at forhindre dig i at ødelægge din Chrome-bro.ser og skulle bruge tid på at gå frem og tilbage mellem indstillingerne.

hvis du bruger Safari så bare hente den normale Google Chrome.

jeg har allerede bygget dette i headless chrome eller gennem en anden automatisering?

først ud, godt klaret! Hvis du er som mig og ikke (i øjeblikket) har tid/kapacitet til at lære nye kodningssprog, er denne ikke-kodemetode fantastisk at komme i gang.

Skriv et svar

Din e-mailadresse vil ikke blive publiceret.