cum se simulează Googlebot folosind Chrome

la DeepCrawl am ajutat la depanarea a mii de probleme tehnice SEO în fiecare an pe unele dintre cele mai mari site-uri web ale întreprinderilor din lume.

am creat un simulator Googlebot în Chrome pentru a reproduce și depana rapid probleme tehnice complexe SEO. Am numit-o tehnica Chromebot.

în acest ghid, vă voi explica cum să vă creați propriul simulator Googlebot în Google Chrome pentru a depana probleme tehnice complexe SEO.

care este tehnica Chromebot?

tehnica Chromebot este o soluție simplă non-cod care permite unui om să configureze setările chrome, astfel încât acestea să acționeze ca Crawler Googlebot (nu randare). Poate ajuta specialiștii SEO să identifice probleme unice de crawling și indexare pe un site web.

de ce să folosiți această tehnică?

am folosit această tehnică foarte mult la DeepCrawl atunci când depanăm nenumărate probleme de crawling și indexare a clienților.

este o tehnică non-cod destul de simplă, dar eficientă, pentru a ajuta SEO-urile tehnice să gândească mai mult ca un crawler pentru motoarele de căutare și mai puțin ca un om.

multe site-uri web pot face lucruri amuzante atunci când utilizatorii Googlebot solicită pagini.

de unde știi setările crawlerului Googlebot?

toate setările se bazează pe timpul petrecut pe chat cu inginerii, studiind documentația din jurul Googlebot și actualizând documentația serviciului De redare a paginii DeepCrawl.

am enumerat documentele originale pe care am bazat setările:

  • remediați problemele JavaScript legate de căutare
  • înțelegeți redarea în Căutarea Google
  • JavaScript și SEO: Diferența dintre Crawling și indexare

de ce aveți nevoie pentru această tehnică?

tot ce ai nevoie este Google Chrome Canary și o rețea privată virtuală (VPN).

de ce să simulați Googlebot în Google Chrome?

există patru beneficii de bază pentru utilizarea acestei tehnici pe care o voi explica pe scurt.

depanare în Google Chrome

am depanat sute de site-uri web în timpul meu la DeepCrawl. Instrumentele de crawling web ale terților sunt uimitoare, dar am constatat întotdeauna că au limite.

când încerc să interpretez rezultatele din aceste instrumente, apelez întotdeauna la Chrome pentru a ajuta la înțelegerea și depanarea problemelor complexe.

Google Chrome este în continuare instrumentul meu preferat non-SEO pentru a depana problemele și, atunci când este configurat, poate chiar simula Googlebot pentru a valida ce instrumente de crawling ridică.

Googlebot folosește Chromium

Gary a clarificat că Googlebot folosește propria soluție personalizată pentru preluarea și descărcarea conținutului de pe web. Care este apoi trecut pe sistemele de indexare.

nu există dovezi care să sugereze că crawlerul Googlebot folosește Chromium sau Chrome, cu toate acestea, Joshua Giardino de la IPullRank face un argument excelent despre faptul că Google folosește Chromium pentru a crea un crawler web bazat pe browser.

Google Chrome se bazează, de asemenea, pe proiectul Chromium open-source, precum și pe multe alte browsere.

are sens apoi să utilizați un browser Chromium pentru a simula crawling-ul web Googlebot pentru a înțelege mai bine site-ul dvs. web.

statistici SEO unice

utilizarea Google Chrome pentru a interpreta rapid paginile web precum Googlebot vă poate ajuta să înțelegeți mai bine exact de ce există probleme de accesare cu crawlere sau indexare în câteva minute.

în loc să petrec timp așteptând ca un crawler web să termine rularea, pot folosi această tehnică pentru a depana rapid potențialul de crawling și indexare.

apoi folosesc datele cu crawlere pentru a vedea amploarea unei probleme.

Googlebot nu este uman

web-ul devine din ce în ce mai complex și mai dinamic.

este important să ne amintim că atunci când depanare crawling și indexarea probleme sunteți un om și Googlebot este o mașină. Multe site-uri moderne tratează acești doi utilizatori în mod diferit.

Google Chrome, care a fost conceput pentru a ajuta oamenii să navigheze pe web, poate ajuta acum un om să vizualizeze un site ca un bot.

cum de a seta Googlebot simulator

dreapta, destul de ce. Permiteți-mi să vă explic cum să vă creați propriul simulator Googlebot.

descărcați Google Chrome

vă recomand să descărcați Chrome Canary și să nu utilizați propriul browser Google Chrome (sau dacă ați trecut la Firefox, utilizați Google Chrome).

principalul motiv pentru aceasta este că veți schimba setările browserului, ceea ce poate fi o durere dacă uitați să le resetați sau să aveți un milion de file deschise. Salvați-vă ceva timp și utilizați doar Canary ca simulator dedicat Googlebot.

descărcați sau utilizați un VPN

dacă vă aflați în afara Statelor Unite, asigurați-vă că aveți acces la o rețea privată virtuală (VPN), astfel încât să puteți schimba adresa IP în SUA.

acest lucru se datorează faptului că, în mod implicit, Googlebot se târăște din SUA și, pentru a simula cu adevărat comportamentul de accesare cu crawlere, trebuie să vă prefaceți că accesați un site din SUA.

Setări Chrome

după ce le-ați descărcat și configurat, este timpul să configurați setările Chrome.

am oferit o explicație a motivului pentru care trebuie să configurați fiecare setare, dar ideea originală de a utiliza Chromebot mi-a venit când am rescris Ghidul serviciului De redare a paginii.

Web Dev Tools

UI-ul Web Developer Tools este o parte importantă a vizualizării site-ului dvs. web, cum ar fi Googlebot. Pentru a vă asigura că puteți naviga în jurul consolei, va trebui să mutați instrumentele Web Dev într-o fereastră separată.

amintiți-vă că fereastra DevTools este legată de fila în care ați deschis-o. Dacă închideți acea filă în Google Chrome, fereastra Setări și DevTools se va închide, de asemenea.

este foarte simplu de a face acest lucru, tot ce trebuie să faceți este:

  1. faceți clic dreapta pe o pagină web și faceți clic pe inspectați elementul (sau CTRL+SHIFT+I)
  2. navigați în partea dreaptă, faceți clic pe cele 3 puncte verticale și selectați opțiunea dockside din stânga.

consola Web Dev Tool se află acum într-o fereastră separată.

User-agent token

un șir user-agent – sau o linie de text – este o modalitate prin care aplicațiile se pot identifica pe servere sau rețele. Pentru a simula Googlebot, trebuie să actualizăm agentul utilizator al browserului pentru a anunța un site web că suntem crawlerul web Google.

meniul de comandă

utilizați meniul de comandă (CTRL + Shift + P) și tastați „Afișați condițiile rețelei” pentru a deschide fila condiție rețea în DevTools și actualizați agentul utilizator.

Manual

pentru aceasta, navigați la fereastra separată Web Dev Tools și apăsați butonul Esc. Aceasta va deschide consola.

Faceți clic pe cele trei butoane mici din stânga filei consolei.

în lista de opțiuni, faceți clic pe condițiile rețelei. Aceasta va deschide fila Condiții de rețea de lângă fila consolă.

în fila Condiții de rețea derulați în jos și debifați opțiunea ‘User-agent select automatic’.

Google Chrome vă va permite acum să schimbați șirul utilizator-agent al browserului dvs. în Googlebot sau Googlebot Mobile.

de obicei, l-am setat la Googlebot Mobile cu indexarea mobilă în mod implicit. Deși aș recomanda verificarea în Google Search Console pentru a vedea care Googlebot accesează cu crawlere site-ul dvs. cel mai des.

Googlebot mobile în fila Rețea

Googlebot user-agent va folosi versiunea Dev beta Chrome, nu versiunea stabilă, în mod automat. Aceasta nu este de obicei o problemă pentru 99% din Site-urile web, dar dacă aveți nevoie, puteți introduce ua personalizat din Chrome stabil.

acum ați schimbat agentul utilizator, închideți consola (apăsați din nou ESC).

activați accesarea cu crawlere fără stat

Googlebot accesează cu crawlere paginile web fără stat în încărcările paginilor.

documentația dezvoltatorului de căutare Google afirmă că aceasta înseamnă că fiecare pagină nouă accesată cu crawlere folosește un browser nou și nu folosește memoria cache, cookie-urile sau locația pentru a descoperi și accesa cu crawlere paginile web.

simulatorul nostru Googlebot trebuie, de asemenea, să reproducă faptul că este apatrid (cât poate) pe fiecare pagină nouă încărcată. Pentru a face acest lucru, va trebui să dezactivați memoria cache, cookie-urile și locația din Chrome.

dezactivați memoria cache

meniul de comandă

utilizați meniul de comandă (CTRL + Shift + P) și tastați „dezactivați memoria Cache” pentru a dezactiva memoria cache atunci când DevTools este deschis.

Manual

pentru a dezactiva memoria cache du-te la panoul de rețea în DevTools și verificați ‘Disable cache’.

dezactivați cookie-urile

meniul de comandă

utilizați meniul de comandă (CTRL + Shift + P) și tastați „dezactivați memoria Cache” pentru a dezactiva memoria cache atunci când DevTools este deschis.

Manual

în Chrome navigați la chrome://settings/cookies. În setările cookie-urilor alegeți opțiunea „Blocați cookie-urile terță parte”.

dezactivarea locației

în Chrome navigați la chrome://Setări/Conținut/locație în browser. Comutați „întrebați înainte de a accesa (recomandat)” la „blocat”.

dezactivați lucrătorii de Service

Googlebot dezactivează interfețele bazându-se pe specificațiile lucrătorului de Service. Acest lucru înseamnă că ocolește Lucrătorul de servicii care ar putea cache de date și preia URL-uri de pe server.

pentru a face acest lucru, navigați la panoul de aplicații din DevTools, accesați service Workers și verificați opțiunea ‘Bypass the network’.

odată dezactivat, browserul va fi obligat să solicite întotdeauna o resursă din rețea și să nu utilizeze un lucrător de Service.

dezactivați JavaScript

crawlerul Googlebot nu execută Niciun JavaScript la accesarea cu crawlere.

Googlebot & JavaScript: o privire mai atentă la WRS-TechSEO Boost 2019

subsistemele de accesare cu crawlere și redare sunt explicate în continuare în Ghidul înțelegeți elementele de bază JavaScript SEO și Googlebot & JavaScript: o privire mai atentă la WRS la TechSEO Boost 2019.

googlebot crawling systems
cum Googlebot accesează cu crawlere și face web

Googlebot este un sistem foarte complex și chiar această diagramă de mai sus este o simplificare excesivă. Cu toate acestea; crawlerul Googlebot trebuie mai întâi să preia, să descarce și să inspecteze o pagină web indiferent de redare.

este important să ne asigurăm că putem inspecta HTML-ul de pe server, codurile de stare http și resursele fără JavaScript în simulatorul nostru Googlebot.

linia de comandă

utilizați meniul de comandă (CTRL + Shift + P) și tastați „dezactivați JavaScript” pentru a dezactiva rapid JavaScript.

Manual

pentru a dezactiva JavaScript în Chrome, navigați la DevTools și faceți clic pe cog Setări.

apoi bifați caseta ‘dezactivați JavaScript’.

acum, când utilizați simulatorul Googlebot, veți inspecta doar HTML-ul inițial din partea serverului. Acest lucru vă va ajuta să înțelegeți mai bine dacă există probleme de legătură, conținut sau cod de stare HTTP care cauzează problemele crawlerului.

Panou de rețea

în cele din urmă, este timpul să configurați panoul de rețea. În acest domeniu, în DevTools, veți petrece mult timp ca Googlebot.

fila Rețea Google chrome

panoul de rețea este utilizat pentru a vă asigura că resursele sunt preluate și descărcate. În acest panou puteți inspecta metadatele, anteturile http, conținutul etc. ale fiecărei adrese URL individuale descărcate atunci când solicitați o pagină.

cu toate acestea; înainte de a putea inspecta resursele (HTML, CSS, IMG) descărcate de pe server, cum ar fi Googlebot, trebuie să actualizăm anteturile pentru a afișa cele mai importante informații din panou.

accesați panoul de rețea din DevTools (acum o fereastră separată). Pe tabelul din panou faceți clic dreapta pe anteturile coloanelor și selectați titlurile enumerate mai jos pentru a fi adăugate ca coloane în panoul de rețea (eliminați celelalte care nu sunt listate).

actualizarea anteturilor rețelei

am oferit, de asemenea, o scurtă explicație a fiecărui titlu și de ce ar trebui adăugate.

stare

codul de stare https al adresei URL descărcate de pe server. Googlebot își va modifica comportamentul de accesare cu crawlere în funcție de tipul de cod de stare http – una dintre cele mai critice informații de înțeles atunci când auditează adresele URL.

schema

afișează https nesigur:// sau https securizat:// schema resursei descărcate. Googlebot preferă să acceseze cu crawlere și să indexeze adresele URL HTTPS, deci este important să înțelegeți bine schema utilizată de resurse pe o pagină.

domeniu

afișează domeniul în care au fost descărcate resursele. Este important să înțelegeți dacă conținutul important se bazează pe un CDN, API sau subdomeniu extern, deoarece Googlebot ar putea avea probleme la preluarea conținutului.

adresă la distanță

Google Chrome listează adresa IP a gazdei unde sunt descărcate resursele. Deoarece bugetul de accesare cu crawlere al unui site web se bazează pe adresa IP a gazdei și nu pe domeniu, este important să țineți cont și de adresa IP a fiecărei adrese URL preluate.

tastați

tipul MIME al resursei solicitate. Este important să vă asigurați că adresele URL importante sunt etichetate cu tipul MIME corect, deoarece diferite tipuri de Googlebot sunt interesate de diferite tipuri de conținut (HTML, CSS, IMG).

Dimensiune

dimensiunea combinată a anteturilor de răspuns plus corpul de răspuns, așa cum este livrat de server. Este important să îmbunătățiți viteza site-ului unui site web, deoarece acest lucru vă poate ajuta atât utilizatorii, cât și Googlebot să vă acceseze site-ul mai repede.

timp

durata totală, de la începutul cererii până la primirea octetului final în răspuns. Răspunsul serverului dvs. poate afecta limita ratei de accesare cu crawlere a Googlebot. Dacă serverul încetinește, atunci crawlerul web va accesa cu crawlere site-ul dvs. mai puțin.

prioritate

cea mai bună estimare a browserului din care Resurse să se încarce mai întâi. Acesta nu este modul în care Googlebot accesează cu crawlere adresele URL prioritizează accesarea cu crawlere, dar poate fi util să vedem ce resurse sunt prioritizate de browser (folosind propriile euristici).

Ultima modificare

antetul HTTP de răspuns Ultima modificare conține data și ora la care serverul de origine consideră că resursa a fost modificată ultima dată. Acest răspuns poate fi utilizat de Googlebot, în combinație cu alte semnale, pentru a ajuta la prioritizarea accesării cu crawlere pe un site.

US IP Address

după ce ați actualizat anteturile panoului de rețea în Chrome DevTools, simulatorul Googlebot este aproape gata.

dacă doriți să o utilizați imediat, trebuie să treceți la o adresă IP din SUA.

Googlebot se târăște din Statele Unite ale Americii. Din acest motiv, aș recomanda întotdeauna schimbarea adresei IP în SUA atunci când utilizați simulatorul Googlebot.

este cel mai bun mod de a înțelege cum se comportă site-ul dvs. web atunci când este vizitat de Googlebot. De exemplu, dacă un site blochează vizitatorii cu adrese IP din SUA sau redirecționează vizitatorii în funcție de locația lor, Acest lucru ar putea cauza probleme cu accesarea cu crawlere și indexarea unui site web de către Google.

I, Googlebot Chrome

odată ce adresa IP este comutată, sunteți gata să mergeți și să aveți propriul simulator Googlebot.

googlebot simulator

dacă doriți să testați pentru a vedea dacă funcționează, du-te la angular.io sau eventbrite.com. Aceste site – uri necesită JavaScript pentru a încărca conținut și link-uri-cu JavaScript dezactivat, aceste site-uri nu vor încărca conținutul corect în interfață.

Întrebări frecvente

funcționează Simulatorul pentru o singură filă?

Da. Setările Google DevTool sunt doar pentru fila pe care ați deschis-o în prezent. Deschiderea unei noi file va determina resetarea setărilor Dezactivare JavaScript și User-agent.

alte setări bazate pe Chrome (Cookie-uri, lucrători de servicii) vor fi în continuare configurate.

ajută acest lucru la depanarea problemelor JavaScript SEO?

da această tehnică poate fi utilizată pentru a depana probleme JavaScript SEO pe un site web atunci când se compară view-source cu HTML randat. Deși ar putea exista extensii și instrumente mai bune pentru a face acest lucru la scară.

trebuie să actualizez setările de fiecare dată?

odată ce fila este închisă, va trebui să actualizați următoarele setări:

  • dezactivați JavaScript
  • actualizați tokenul User-agent

toate celelalte setări vor fi salvate de browser.

de ce trebuie să folosesc Chrome Canary?

vă sugerez să utilizați acest lucru doar pentru a vă împiedica să vă încurcați browserul Chrome și să petreceți timp mergând înainte și înapoi între setări.

dacă utilizați Firefox sau Safari, descărcați Google Chrome normal.

am construit deja acest lucru în chrome fără cap sau prin alte automatizări?

în primul rând, bine făcut! Dacă sunteți ca mine și nu (în prezent) au timp/capacitatea de a învăța noi limbi de codificare, atunci această metodă non-cod este mare pentru a începe.

Lasă un răspuns

Adresa ta de email nu va fi publicată.