jak simulovat Googlebot pomocí prohlížeče Chrome

v DeepCrawl jsem pomohl každý rok ladit tisíce technických SEO problémů na některých z největších podnikových webových stránek na světě.

v Chromu jsem vytvořil simulátor Googlebot, který rychle replikuje a ladí složité technické problémy se SEO. Nazval jsem to technikou Chromebot.

v této příručce vysvětlím, jak vytvořit svůj vlastní simulátor Googlebot v prohlížeči Google Chrome pro ladění složitých technických problémů se SEO.

jaká je technika Chromebotu?

technika Chromebot je jednoduché řešení bez kódu, které umožňuje člověku konfigurovat nastavení prohlížeče chrome, takže se chová jako prohledávač Googlebot(ne Vykreslování). Může pomoci SEO specialistům identifikovat jedinečné problémy s procházením a indexováním na webu.

Proč používat tuto techniku?

použil jsem tuto techniku hodně na DeepCrawl při ladění nespočetných problémů s procházením a indexováním klientů.

je to poměrně jednoduchá, ale účinná technika bez kódu, která pomáhá technickým SEO myslet spíše jako prohledávač vyhledávačů a méně jako člověk.

mnoho webových stránek může dělat zábavné věci, když uživatelé Googlebotu požadují stránky.

jak znáte nastavení prohledávače Googlebot?

všechna nastavení jsou založena na čase, který jsem strávil chatováním s inženýry, studiem dokumentace kolem Googlebotu a aktualizací dokumentace služby vykreslování stránek DeepCrawl.

uvedl jsem původní dokumenty, na kterých jsem založil nastavení:

  • Opravte problémy s JavaScriptem související s vyhledáváním
  • porozumět Vykreslování ve Vyhledávání Google
  • JavaScript a SEO: Rozdíl mezi procházením a indexováním

co potřebujete pro tuto techniku?

vše, co potřebujete, je Google Chrome Canary a virtuální privátní síť (VPN).

proč simulovat Googlebot v prohlížeči Google Chrome?

použití této techniky má čtyři hlavní výhody, které stručně vysvětlím.

ladění v prohlížeči Google Chrome

ve své době v DeepCrawl jsem odladil stovky webových stránek. Nástroje pro procházení webu třetích stran jsou úžasné, ale vždy jsem zjistil, že mají limity.

při pokusu o interpretaci výsledků z těchto nástrojů se vždy obrátím na Chrome, abych pomohl pochopit a ladit složité problémy.

Google Chrome je stále můj oblíbený nástroj bez SEO pro ladění problémů a při konfiguraci může dokonce simulovat Googlebot, aby ověřil, jaké nástroje pro procházení zachycují.

Googlebot používá Chromium

Gary objasnil, že Googlebot používá vlastní vlastní řešení pro načítání a stahování obsahu z webu. Který je pak předán na indexovací systémy.

neexistují žádné důkazy, které by naznačovaly, že Googlebot crawler používá Chromium nebo Chrome, nicméně Joshua Giardino v IPullRank dělá skvělý argument o tom, že Google používá Chromium k vytvoření webového prohledávače založeného na prohlížeči.

Google Chrome je také založen na projektu Chromium s otevřeným zdrojovým kódem a mnoha dalších prohlížečích.

má smysl použít Prohlížeč Chromium k simulaci procházení webu Googlebot, aby lépe porozuměl vašemu webu.

unikátní SEO insights

použití prohlížeče Google Chrome k rychlé interpretaci webových stránek, jako je Googlebot, může pomoci lépe pochopit, proč jsou problémy s procházením nebo indexováním během několika minut.

spíše než trávit čas čekáním na webový prohledávač na dokončení běhu, mohu tuto techniku použít k rychlému ladění potenciálního procházení a indexování.

pak používám data procházení, abych viděl rozsah problému.

Googlebot není člověk

web je stále složitější a dynamičtější.

je důležité si uvědomit, že při ladění problémů s procházením a indexováním jste člověk a Googlebot je stroj. Mnoho moderních webů zachází s těmito dvěma uživateli odlišně.

Google Chrome, který byl navržen tak, aby pomohl lidem navigaci na webu, nyní může pomoci člověku zobrazit stránky jako bot.

jak nastavit simulátor Googlebot

správně, dost proč. Dovolte mi vysvětlit, jak vytvořit svůj vlastní simulátor Googlebot.

stáhnout Google Chrome

doporučuji stáhnout Chrome Canary a nepoužívat svůj vlastní prohlížeč Google Chrome (nebo pokud jste přešli na Firefox, Použijte Google Chrome).

hlavním důvodem je to, že budete měnit nastavení prohlížeče, což může být bolest, pokud je zapomenete resetovat nebo máte otevřeno milion karet. Ušetřete si nějaký čas a stačí použít Canary jako svůj vyhrazený simulátor Googlebot.

Stáhněte si nebo použijte VPN

pokud jste mimo Spojené státy, ujistěte se, že máte přístup k virtuální privátní síti (VPN), abyste mohli přepnout svou IP adresu do USA.

je to proto, že ve výchozím nastavení Googlebot prochází z USA a skutečně simuluje chování procházení, musíte předstírat, že přistupujete k webu z USA.

nastavení prohlížeče Chrome

jakmile je stáhnete a nastavíte, je čas nakonfigurovat nastavení prohlížeče Chrome.

poskytl jsem vysvětlení, proč je třeba nakonfigurovat každé nastavení, ale původní myšlenka použití Chromebotu ke mně přišla, když jsem přepsal příručku služby Vykreslování stránky.

Web dev Tools

uživatelské rozhraní nástroje pro vývojáře webu je důležitou součástí prohlížení vašich webových stránek, jako je Googlebot. Abyste se ujistili, že se můžete pohybovat po konzole, budete muset přesunout nástroje Web Dev do samostatného okna.

nezapomeňte, že vaše okno DevTools je propojeno se záložkou, ve které jste ji otevřeli. Pokud tuto kartu zavřete v prohlížeči Google Chrome, zavře se také okno Nastavení a DevTools.

je to velmi jednoduché, vše, co musíte udělat, je:

  1. klepněte pravým tlačítkem myši na webovou stránku a klepněte na položku Zkontrolovat prvek (nebo CTRL+SHIFT+I)
  2. přejděte na pravou stranu, klikněte na 3 svislé tečky a vyberte možnost zcela vlevo dockside.

konzola nástroje Web Dev je nyní v samostatném okně.

User-agent token

řetězec user-agent-nebo řádek textu-je způsob, jak se aplikace identifikují na servery nebo sítě. Abychom simulovali Googlebot, musíme aktualizovat uživatelského agenta prohlížeče, aby web věděl, že jsme webový prohledávač Google.

příkazové Menu

pomocí příkazového Menu (CTRL + Shift + P) a zadejte „Zobrazit podmínky sítě“ otevřete kartu stavu sítě v DevTools a aktualizujte user-agent.

manuál

Chcete-li to provést, přejděte do samostatného okna nástroje Web Dev a stiskněte tlačítko Esc. Tím se otevře konzola.

klikněte na tři malá tlačítka na levé straně karty konzoly.

v seznamu možností klikněte na podmínky sítě. Tím se otevře karta podmínky sítě vedle karty konzole.

na kartě podmínky sítě přejděte dolů a zrušte zaškrtnutí volby „user-agent select automatically“.

Google Chrome vám nyní umožní změnit řetězec user-agent vašeho prohlížeče na Googlebot nebo Googlebot Mobile.

obvykle jsem ji nastavil na Googlebot Mobile s mobilním indexováním ve výchozím nastavení. I když bych doporučil zkontrolovat Google Search Console a zjistit, který Googlebot prochází váš web nejčastěji.

Googlebot mobile v kartě sítě

uživatel-agent Googlebot automaticky použije verzi Dev beta Chrome, nikoli stabilní verzi. To obvykle není problém pro 99% webových stránek, ale pokud potřebujete, můžete zadat vlastní UA ze stabilního prohlížeče Chrome.

Nyní jste změnili agenta uživatele, Zavřete konzolu (znovu stiskněte ESC).

povolit procházení bez státní příslušnosti

Googlebot prochází webové stránky bez státní příslušnosti po načtení stránky.

dokumentace pro vývojáře vyhledávání Google uvádí, že to znamená, že každá nová procházená stránka používá nový prohlížeč a nepoužívá mezipaměť, soubory cookie nebo umístění k objevování a procházení webových stránek.

náš simulátor Googlebot musí také replikovat, že je bez státní příslušnosti (co nejvíce) na každé nové načtené stránce. Chcete-li to provést, musíte v prohlížeči Chrome zakázat mezipaměť, soubory cookie a umístění.

zakažte mezipaměť

příkazové Menu

použijte příkazové Menu (CTRL + Shift + P) a zadejte „zakázat mezipaměť“ pro deaktivaci mezipaměti, když je DevTools otevřený.

manuál

Chcete-li zakázat mezipaměť, přejděte na síťový panel v DevTools a zkontrolujte „zakázat mezipaměť“.

zakázat soubory cookie

příkazové Menu

použijte příkazové Menu (CTRL + Shift + P) a zadejte „zakázat mezipaměť“ pro deaktivaci mezipaměti, když je DevTools otevřený.

manuál

v prohlížeči Chrome přejděte do prohlížeče chrome: / / settings / cookies. V nastavení cookies zvolte možnost „blokovat cookies třetích stran“.

zakázání umístění

v prohlížeči Chrome přejděte do prohlížeče chrome: / / settings / content / location. Přepněte „zeptat se před přístupem (doporučeno)“ na „blokováno“.

zakázat servisní pracovníky

Googlebot zakáže rozhraní v závislosti na specifikaci servisního pracovníka. To znamená, že obchází servisního pracovníka, který může ukládat data do mezipaměti a načítá adresy URL ze serveru.

Chcete-li to provést, přejděte na panel aplikace v DevTools, přejděte na servisní pracovníci a zkontrolujte možnost „obejít síť“.

po deaktivaci bude prohlížeč nucen vždy požádat o zdroj ze sítě a nepoužívat servisního pracovníka.

zakázat JavaScript

prohledávač Googlebot nespustí při procházení Žádný JavaScript.

Googlebot & JavaScript: bližší pohled na WRS-TechSEO Boost 2019

podsystémy pro procházení a Vykreslování jsou dále vysvětleny v příručce pochopit základy SEO JavaScript a Googlebot & JavaScript: bližší pohled na WRS na TechSEO Boost 2019.

Googlebot crawling systems
jak Googlebot prochází a vykresluje web

Googlebot je velmi složitý systém a dokonce i tento diagram výše je zjednodušení. Prohledávač Googlebot však musí nejprve načíst, stáhnout a zkontrolovat webovou stránku bez ohledu na Vykreslování.

je důležité se ujistit, že můžeme zkontrolovat HTML na straně serveru, stavové kódy http a zdroje bez JavaScriptu v našem simulátoru Googlebot.

příkazový řádek

použijte příkazovou nabídku (CTRL + Shift + P) a zadejte „zakázat JavaScript“ pro rychlé vypnutí JavaScriptu.

manuál

Chcete-li zakázat JavaScript v prohlížeči Chrome, přejděte na DevTools a klikněte na ozubené kolo nastavení.

poté zaškrtněte políčko „Zakázat JavaScript“.

Nyní, když používáte simulátor Googlebot, budete kontrolovat pouze počáteční HTML na straně serveru. To pomůže lépe pochopit, zda existují problémy s odkazem, obsahem nebo stavovým kódem HTTP, které způsobují problémy s prohledávačem.

síťový Panel

konečně je čas nakonfigurovat síťový panel. Právě v této oblasti v DevTools budete trávit spoustu času jako Googlebot.

karta sítě Google chrome

panel sítě slouží k zajištění načítání a stahování zdrojů. Na tomto panelu můžete zkontrolovat metadata, záhlaví http, obsah atd. každé jednotlivé adresy URL stažené při žádosti o stránku.

nicméně; než budeme moci zkontrolovat zdroje (HTML, CSS, IMG) stažené ze serveru, jako je Googlebot, musíme aktualizovat záhlaví a zobrazit nejdůležitější informace v panelu.

přejděte na síťový panel v DevTools (nyní samostatné okno). V tabulce v panelu klikněte pravým tlačítkem myši na záhlaví sloupců a vyberte níže uvedené nadpisy, které chcete přidat jako sloupce v panelu sítě (odstraňte všechny ostatní, které nejsou uvedeny).

 aktualizace záhlaví sítě

také jsem poskytl stručné vysvětlení každého nadpisu a proč by měly být přidány.

stav

stavový kód https adresy URL stahované ze serveru. Googlebot změní své chování procházení v závislosti na typu stavového kódu http-jedné z nejkritičtějších informací, které je třeba pochopit při auditu adres URL.

schéma

zobrazuje nezabezpečené https: / / nebo zabezpečené https:// schéma stahovaného zdroje. Googlebot preferuje procházení a indexování URL HTTPS, takže je důležité dobře porozumět schématu používanému prostředky na stránce.

doména

zobrazuje doménu, kde byly zdroje staženy. Je důležité pochopit, zda se důležitý obsah spoléhá na externí CDN, API nebo subdoménu, protože Googlebot může mít potíže s načtením obsahu.

vzdálená adresa

Google Chrome uvádí IP adresu hostitele, kde jsou zdroje stahovány. Protože rozpočet procházení webu je založen na IP adrese hostitele a nikoli na doméně, je důležité také vzít v úvahu IP adresu každé načtené adresy URL.

zadejte

Typ MIME požadovaného zdroje. Je důležité se ujistit, že důležité adresy URL jsou označeny správným typem MIME, protože různé typy Googlebot se zajímají o různé typy obsahu (HTML, CSS, IMG).

Velikost

kombinovaná velikost hlaviček odpovědí plus tělo odpovědi, jak je dodáno serverem. Je důležité zlepšit rychlost webu webu, protože to může uživatelům i Googlebotu pomoci rychleji přistupovat k vašemu webu.

čas

celková doba trvání od začátku požadavku až po přijetí konečného bajtu v odpovědi. Odpověď vašeho serveru může ovlivnit limit rychlosti procházení Googlebotu. Pokud se server zpomalí, webový prohledávač bude procházet váš web méně.

Priorita

nejlepší odhad prohlížeče, který prostředky načíst jako první. Takto procházení Googlebot neupřednostňuje URL pro procházení, ale může být užitečné zjistit, které zdroje jsou prohlížečem upřednostňovány (pomocí vlastní heuristiky).

Poslední změna

hlavička HTTP S Poslední úpravou odpovědi obsahuje datum a čas, kdy server origin věří, že zdroj byl naposledy změněn. Tuto odpověď může Googlebot použít v kombinaci s dalšími signály, aby pomohl upřednostnit procházení na webu.

US IP adresa

jakmile aktualizujete záhlaví síťových panelů v Chrome DevTools, je váš simulátor Googlebot téměř připraven.

pokud jej chcete okamžitě použít, musíte přepnout na adresu IP v USA.

Googlebot se plazí ze Spojených států amerických. Z tohoto důvodu bych při používání simulátoru Googlebot vždy doporučil změnit vaši IP adresu do USA.

je to nejlepší způsob, jak pochopit, jak se vaše webové stránky chová při návštěvě Googlebot. Pokud například web blokuje návštěvníky s americkými IP adresami nebo přesměruje návštěvníky na základě jejich polohy, může to způsobit problémy s procházením a indexováním webových stránek Google.

I, Googlebot Chrome

jakmile je vaše IP adresa přepnuta, jste připraveni jít a mít svůj vlastní simulátor Googlebot.

googlebot simulator

Chcete-li otestovat, zda to funguje, přejděte na angular.io nebo eventbrite.com. Tyto webové stránky vyžadují JavaScript načíst obsah a odkazy – s vypnutým JavaScriptem tyto stránky nebudou načíst obsah správně v rozhraní.

Často kladené otázky

funguje simulátor pouze pro jednu kartu?

Ano. Nastavení Google DevTool slouží pouze pro kartu, kterou jste právě otevřeli. Otevření nové karty způsobí resetování nastavení JavaScriptu a User-agent.

další nastavení založená na prohlížeči Chrome (cookies, servisní pracovníci) budou stále nakonfigurována.

pomáhá to ladit problémy se SEO JavaScriptem?

ano tato technika může být použita k ladění problémů SEO JavaScriptu na webových stránkách při porovnávání view-source s vykresleným HTML. I když mohou existovat lepší rozšíření a nástroje, jak to udělat v měřítku.

musím aktualizovat nastavení pokaždé?

jakmile je karta zavřená, budete muset aktualizovat následující nastavení:

  • zakažte JavaScript
  • Aktualizujte Token User-agent

všechna ostatní nastavení budou prohlížečem uložena.

Proč musím používat Chrome Canary?

doporučuji použít pouze to, abyste zabránili tomu, abyste si pokazili prohlížeč Chrome a museli trávit čas tam a zpět mezi nastaveními.

pokud používáte Firefox nebo Safari, stačí stáhnout normální prohlížeč Google Chrome.

už jsem to postavil v bezhlavém chromu nebo prostřednictvím jiné automatizace?

Za prvé, výborně! Pokud jste jako já a nemáte (v současné době) čas / kapacitu naučit se nové kódovací jazyky, pak je tato metoda bez kódu skvělá pro začátek.

Napsat komentář

Vaše e-mailová adresa nebude zveřejněna.