How to simulate Googlebot using Chrome

op DeepCrawl heb ik geholpen met het debuggen van duizenden technische SEO-problemen per jaar op enkele van de grootste bedrijfswebsites ter wereld.

ik heb een Googlebot-simulator in Chrome gemaakt om snel complexe technische SEO-problemen te repliceren en te debuggen. Ik noemde het de Chromebot techniek.

in deze gids ga ik uitleggen hoe je je eigen Googlebot simulator in Google Chrome te maken om complexe technische SEO problemen debuggen.

Wat is de chromebottechniek?

de chromebot techniek is een eenvoudige niet-code oplossing waarmee een mens Chrome instellingen kan configureren, zodat ze werken als Googlebot crawler (niet renderen). Het kan helpen SEO specialisten identificeren unieke kruipen en indexeren problemen op een website.

waarom deze techniek gebruiken?

ik heb deze techniek veel gebruikt bij DeepCrawl bij het debuggen van talloze client crawling-en indexeringsproblemen.

het is een vrij eenvoudige maar effectieve non-code techniek om technische SEO ‘ s te helpen meer te denken als een zoekmachine crawler en minder als een mens.

veel websites kunnen grappige dingen doen wanneer Googlebot-gebruikers pagina ‘ s aanvragen.

Hoe weet u de Instellingen van Googlebot crawler?

alle instellingen zijn gebaseerd op de tijd die ik besteed heb aan het chatten met ingenieurs, het bestuderen van de documentatie rond Googlebot, en het updaten van Deepcrawl ‘ s pagina Rendering service documentatie.

ik heb de originele documenten weergegeven waarop ik de Instellingen heb gebaseerd:

  • zoekgerelateerde JavaScript-problemen oplossen
  • rendering op Google-zoekopdracht begrijpen
  • JavaScript en SEO: Het verschil tussen crawlen en indexeren

wat heeft u nodig voor deze techniek?

alles wat u nodig hebt is Google Chrome Canary en een Virtual Private Network (VPN).

waarom Googlebot simuleren in Google Chrome?

het gebruik van deze techniek heeft vier belangrijke voordelen, die ik kort zal toelichten.

foutopsporing in Google Chrome

ik heb honderden websites foutopsporing uitgevoerd in mijn tijd bij DeepCrawl. Third party web crawling tools zijn geweldig, maar ik heb altijd gevonden dat ze grenzen hebben.

wanneer ik de resultaten van deze tools probeer te interpreteren, ga ik altijd naar Chrome om complexe problemen te helpen begrijpen en te debuggen.

Google Chrome is nog steeds mijn favoriete Niet-SEO tool om problemen te debuggen en wanneer geconfigureerd kan het zelfs Googlebot simuleren om te valideren welke crawling tools worden opgepikt.

Googlebot gebruikt Chromium

Gary verduidelijkt dat Googlebot zijn eigen op maat gemaakte oplossing gebruikt voor het ophalen en downloaden van inhoud van het web. Die vervolgens wordt doorgegeven aan de indexering systemen.

er is geen bewijs om te suggereren dat Googlebot crawler gebruikt Chromium of Chrome, echter, Joshua Giardino bij IPullRank maakt een groot argument over Google met behulp van Chromium om een browser gebaseerde Web crawler te maken.

Google Chrome is ook gebaseerd op het open-source Chromium project, evenals vele andere browsers.

het is dan zinvol om een Chromium browser te gebruiken om Googlebot webcrawling te simuleren om uw website beter te begrijpen.

unieke SEO-inzichten

het gebruik van Google Chrome om webpagina ‘ s zoals Googlebot snel te interpreteren, kan helpen om beter te begrijpen waarom er problemen zijn met crawlen of indexeren in minuten.

in plaats van tijd te besteden aan het wachten op een webcrawler om het draaien te voltooien, Kan ik deze techniek gebruiken om snel potentiële crawling en indexering te debuggen.

Ik gebruik de crawling data om de omvang van een probleem te zien.

Googlebot is niet menselijk

het web wordt complexer en dynamischer.

het is belangrijk om te onthouden dat bij het debuggen van crawling-en indexeringsproblemen u een mens bent en Googlebot een machine is. Veel moderne sites behandelen deze twee gebruikers anders.

Google Chrome, ontworpen om mensen te helpen surfen op het web, kan nu een mens helpen een site als een bot te bekijken.

Hoe stelt u Googlebot simulator

goed, genoeg van het waarom. Laat me uitleggen hoe je je eigen Googlebot simulator te maken.

Download Google Chrome

ik raad u aan om Chrome Canary te downloaden zonder uw eigen Google Chrome-browser te gebruiken (of als u bent overgestapt op Firefox, gebruik dan Google Chrome).

de belangrijkste reden hiervoor is dat u de browserinstellingen zult veranderen, wat lastig kan zijn als u vergeet ze te resetten of als er een miljoen tabbladen geopend zijn. Bespaar uzelf wat tijd en gebruik Canary als uw toegewijde Googlebot simulator.

Download of gebruik een VPN

als u zich buiten de Verenigde Staten bevindt, zorg er dan voor dat u toegang hebt tot een Virtual Private Network (VPN), zodat u uw IP-adres naar de VS kunt schakelen.

dit komt omdat Googlebot standaard vanuit de VS kruipt, en om echt crawl gedrag te simuleren moet je doen alsof je toegang hebt tot een site vanuit de VS.

Chrome-instellingen

zodra u deze instellingen hebt gedownload en ingesteld, is het tijd om Chrome-instellingen te configureren.

ik heb uitgelegd waarom u elke instelling moet configureren, maar het oorspronkelijke idee om Chromebot te gebruiken kwam bij mij toen ik de Service guide voor het renderen van pagina ‘ s herschreef.

Web Dev Tools

de Web Developer Tools UI is een belangrijk onderdeel van het bekijken van uw website zoals Googlebot. Om er zeker van te zijn dat je door de console kunt navigeren, moet je de Web Dev Tools in een apart venster verplaatsen.

onthoud dat uw DevTools-venster is gekoppeld aan het tabblad waarin u het hebt geopend. Als u dat tabblad in Google Chrome sluiten de Instellingen en DevTools venster zal ook sluiten.

het is heel eenvoudig om dit te doen, alles wat u hoeft te doen is:

  1. Klik met de rechtermuisknop op een webpagina en klik op inspecteer element (of CTRL+SHIFT+I)
  2. Navigeer naar de rechterkant, klik op de 3 verticale stippen en selecteer de optie uiterst links dockside.

de Web Dev Tool console bevindt zich nu in een apart venster.

User-agent token

een user-agent string – of tekstregel-is een manier voor toepassingen om zich te identificeren met servers of netwerken. Om Googlebot te simuleren moeten we de user-agent van de browser bijwerken om een website te laten weten dat we Google ‘ s webcrawler zijn.

Opdrachtmenu

gebruik het Opdrachtmenu (CTRL + Shift + P) en typ “Toon netwerkomstandigheden” om het tabblad netwerkvoorwaarde in DevTools te openen en de user-agent bij te werken.

handmatig

om dit te doen, navigeert u naar het aparte venster Web Dev Tools en drukt u op de Esc-knop. Dit zal de console openen.

klik op de drie kleine knoppen aan de linkerkant van het tabblad console.

klik in de lijst met opties op de netwerkomstandigheden. Dit opent het tabblad netwerkomstandigheden naast het tabblad console.

in het tabblad netwerkomstandigheden scroll naar beneden en vink de optie ‘user-agent select automatically’ uit.

Google Chrome stelt u nu in staat om de user-agent string van uw browser te wijzigen in Googlebot of Googlebot Mobile.

ik meestal ingesteld op Googlebot Mobile Met mobile-indexering standaard. Hoewel ik zou aanraden om te controleren in Google Search Console om te zien welke Googlebot kruipt uw website het vaakst.

Googlebot mobile in tabblad Netwerk

de Googlebot user-agent gebruikt automatisch de dev beta Chrome-versie, niet de stabiele versie. Dit is meestal niet een probleem voor 99% van de websites, maar als je nodig hebt om u kunt de invoer van de aangepaste UA van stabiele Chrome.

nu u de user-agent hebt gewijzigd, sluit u de console (druk nogmaals op ESC).

staatloos crawlen

Googlebot kruipt statenloze webpagina ‘ s Over pagina-ladingen.

in de documentatie van Google Search developer staat dat dit betekent dat elke nieuwe pagina die gecrawld wordt een nieuwe browser gebruikt en niet de cache, cookies of locatie gebruikt om webpagina ‘ s te ontdekken en te doorzoeken.

onze Googlebot-simulator moet ook het statenloos zijn (zoveel mogelijk) repliceren op elke nieuwe pagina die wordt geladen. Om dit te doen moet u de cache, cookies en locatie in uw Chrome uitschakelen.

Schakel de cache

Opdrachtmenu

gebruik het Opdrachtmenu (CTRL + Shift + P) en typ “Disable Cache” om de cache uit te schakelen wanneer DevTools geopend is.

handmatig

om de cache uit te schakelen, ga naar het netwerkpaneel in DevTools en controleer de ‘cache uitschakelen’.

cookies uitschakelen

Command Menu

gebruik het Command Menu (CTRL + Shift + P) en typ “Disable Cache” om de cache uit te schakelen wanneer DevTools geopend is.

handmatig

in Chrome navigeer naar chrome: / / instellingen / cookies. Kies in de instellingen voor cookies de optie “Cookies van derden blokkeren”.

het uitschakelen van locatie

in Chrome navigeer naar de Chrome: / / instellingen / inhoud / locatie in uw browser. Schakel de “vragen voor toegang (aanbevolen)” naar “Geblokkeerd”.

servicemedewerkers

Googlebot schakelt interfaces uit die afhankelijk zijn van de specificatie van de servicemedewerker. Dit betekent dat het omzeilt de service werknemer die gegevens kan cachen en haalt URL ‘ s van de server.

om dit te doen navigeer naar het Toepassingspaneel in DevTools, ga naar Service Workers en vink de optie ‘het netwerk omzeilen’ aan.

eenmaal uitgeschakeld zal de browser worden gedwongen om altijd een bron van het netwerk aan te vragen en geen gebruik te maken van een Service-Medewerker.

Javascript

uitschakelen de Googlebot crawler voert geen JavaScript uit tijdens het crawlen.

Googlebot & JavaScript: een nadere blik op de WRS-TechSEO Boost 2019

de crawling en rendering subsystemen worden verder uitgelegd in de begrijp de JavaScript SEO basics guide en Googlebot & JavaScript: een nadere blik op de WRS op TechSEO Boost 2019.

googlebot crawling systems
hoe Googlebot het web kruipt en weergeeft

Googlebot is een zeer complex systeem en zelfs dit diagram hierboven is een oversimplificatie. Echter; de Googlebot crawler moet eerst een webpagina ophalen, downloaden en inspecteren, ongeacht het renderen.

het is belangrijk om ervoor te zorgen dat we server-side HTML, http-statuscodes en bronnen zonder JavaScript kunnen inspecteren in onze Googlebot simulator.

opdrachtregel

gebruik het Opdrachtmenu (CTRL + Shift + P) en typ “JavaScript uitschakelen” om JavaScript snel uit te schakelen.

handmatig

om JavaScript in Chrome uit te schakelen, navigeert u naar DevTools en klikt u op de Instellingen cog.

vink dan het vakje’ JavaScript uitschakelen ‘ aan.

wanneer u nu uw Googlebot simulator gebruikt, inspecteert u alleen de oorspronkelijke HTML aan de serverzijde. Dit zal helpen om beter te begrijpen of er een link, inhoud of HTTP-statuscode problemen zijn die de crawler problemen veroorzaken.

netwerkpaneel

eindelijk is het tijd om het netwerkpaneel in te stellen. Het is in dit gebied in DevTools waar u veel tijd als Googlebot zult doorbrengen.

Google Chrome network tab

het netwerkpaneel wordt gebruikt om ervoor te zorgen dat bronnen worden opgehaald en gedownload. Het is in dit paneel dat u de metadata, http headers, inhoud, enz.van elke individuele gedownloade URL kunt inspecteren bij het aanvragen van een pagina.

echter; voordat we de bronnen (HTML, CSS, IMG) gedownload van de server zoals Googlebot kunnen inspecteren, moeten we de headers bijwerken om de belangrijkste informatie in het paneel weer te geven.

Ga naar het netwerkpaneel in DevTools (nu een apart venster). Klik op de tabel in het paneel met de rechtermuisknop op de kolomkoppen en selecteer de onderstaande koppen die als kolommen in het netwerkpaneel moeten worden toegevoegd (verwijder alle andere niet in de lijst).

bijwerken van netwerkheaders

ik heb ook een korte uitleg gegeven van elke header en waarom ze moeten worden toegevoegd.

Status

de HTTPS-statuscode van de URL die van de server wordt gedownload. Googlebot zal zijn gedrag van kruipen veranderen, afhankelijk van het type http – statuscode-een van de meest kritische stukjes informatie om te begrijpen bij het controleren van URL ‘ s.

schema

toont het onveilige HTTPS:// of veilige HTTPS: / / schema van de bron die wordt gedownload. Googlebot geeft de voorkeur aan HTTPS-URL ‘ s te crawlen en te indexeren, dus het is belangrijk om een goed begrip te krijgen van het schema dat wordt gebruikt door bronnen op een pagina.

domein

geeft het domein weer waar de bronnen zijn gedownload. Het is belangrijk om te begrijpen of belangrijke inhoud afhankelijk is van een externe CDN, API of subdomein, omdat Googlebot problemen kan hebben met het ophalen van de inhoud.

extern adres

Google Chrome geeft het IP-adres weer van de host waar de bronnen worden gedownload. Aangezien het crawl budget van een website gebaseerd is op het IP-adres van de host en niet op het domein, is het belangrijk om ook rekening te houden met het IP-adres van elke opgehaalde URL.

Type

het MIME – type van de gevraagde bron. Het is belangrijk om ervoor te zorgen dat belangrijke URL ‘ s zijn gelabeld met de juiste MIME-type als verschillende soorten Googlebot zijn geïnteresseerd in verschillende soorten inhoud (HTML, CSS, IMG).

Size

de gecombineerde grootte van de responskoppen plus de responslichaam, zoals geleverd door de server. Het is belangrijk om de site snelheid van een website te verbeteren, omdat dit zowel uw gebruikers en Googlebot toegang tot uw site sneller kan helpen.

tijd

de totale duur, vanaf het begin van het verzoek tot de ontvangst van de definitieve byte in het antwoord. Het antwoord van uw server kan de crawl rate limit van Googlebot beïnvloeden. Als de server vertraagt dan zal de web crawler uw website minder crawlen.

prioriteit

de beste schatting van de browser van welke bronnen het eerst moet worden geladen. Dit is niet hoe Googlebot crawls prioriteit geeft aan url ‘ s om te crawlen, maar het kan nuttig zijn om te zien welke bronnen prioriteit krijgen door de browser (met behulp van zijn eigen heuristiek).

Laatst gewijzigd

de HTTP-header voor het laatst gewijzigd antwoord bevat de datum en het tijdstip waarop de origin-server denkt dat de bron voor het laatst is gewijzigd. Deze reactie kan worden gebruikt door Googlebot, in combinatie met andere signalen, om prioriteit te geven aan kruipen op een site.

US IP-adres

zodra u de headers van het netwerkpaneel in Chrome DevTools hebt bijgewerkt, is uw Googlebot-simulator bijna klaar.

Als u het direct wilt gebruiken, moet u overschakelen naar een Amerikaans IP-adres.

Googlebot kruipt uit de Verenigde Staten van Amerika. Om deze reden, Ik zou altijd aanraden om uw IP-adres te veranderen naar de VS bij het gebruik van uw Googlebot simulator.

het is de beste manier om te begrijpen hoe uw website zich gedraagt wanneer u Googlebot bezoekt. Bijvoorbeeld, als een site is het blokkeren van bezoekers met ons IP-adressen of geo-redirects bezoekers op basis van hun locatie, dit kan leiden tot problemen met Google crawlen en indexeren van een website.

I, Googlebot Chrome

zodra uw IP-adres is geschakeld, bent u klaar om uw eigen Googlebot-simulator te gebruiken.

googlebot-simulator

als u wilt testen om te zien of het werkt, ga naar angular.io of eventbrite.com. Deze websites vereisen JavaScript om inhoud en links te laden – met JavaScript uitgeschakeld zullen deze sites de inhoud niet goed laden in de interface.

Veelgestelde vragen

werkt de simulator voor slechts één tabblad?

Ja. Google DevTool-instellingen zijn alleen voor het tabblad dat u momenteel hebt geopend. Het openen van een nieuw tabblad zorgt ervoor dat de JavaScript-en user-agent-instellingen worden gereset.

andere Chrome-instellingen (cookies, servicepersoneel) worden nog steeds geconfigureerd.

helpt dit om JavaScript-SEO-problemen te debuggen?

Ja Deze techniek kan worden gebruikt om JavaScript SEO problemen op een website te debuggen bij het vergelijken van view-source met gerenderde HTML. Hoewel er misschien betere extensies en tools zijn om dit op grote schaal te doen.

moet ik de Instellingen elke keer bijwerken?

zodra uw tabblad is gesloten, moet u de volgende instellingen bijwerken:

  • Javascript
  • bijwerken user-agent token

alle andere instellingen zullen door de browser zijn opgeslagen.

Waarom moet Ik Chrome Canary gebruiken?

ik stel alleen voor om dit te gebruiken om te voorkomen dat u uw Chrome-browser in de war brengt en tijd moet besteden aan het heen en weer gaan tussen instellingen.

als u Firefox of Safari gebruikt, download dan gewoon de normale Google Chrome.

ik heb dit al gebouwd in headless chrome of via een andere automatisering?

Ten Eerste, goed gedaan! Als je net als ik en niet (momenteel) hebben de tijd/capaciteit om nieuwe codering talen te leren dan is deze niet-code methode is geweldig om te beginnen.

Geef een antwoord

Het e-mailadres wordt niet gepubliceerd.