jak symulować Googlebota za pomocą Chrome

w DeepCrawl pomagałem debugować tysiące technicznych problemów SEO każdego roku na największych witrynach firmowych na świecie.

stworzyłem symulator Googlebota w Chrome, aby szybko replikować i debugować złożone problemy techniczne SEO. Nazwałem to techniką Chromebota.

w tym przewodniku wyjaśnię, jak stworzyć własny symulator Googlebota w Google Chrome, aby debugować złożone techniczne problemy z SEO.

czym jest technika Chromebota?

Technika Chromebota jest prostym rozwiązaniem bez kodu, które pozwala człowiekowi skonfigurować ustawienia chrome, aby działały jak Googlebot crawler (nie renderowanie). Może pomóc specjalistom SEO zidentyfikować unikalne problemy indeksowania i indeksowania na stronie internetowej.

dlaczego warto korzystać z tej techniki?

używałem tej techniki często w DeepCrawl podczas debugowania niezliczonych problemów z indeksowaniem i indeksowaniem klientów.

jest to dość prosta, ale skuteczna technika bez kodu, aby pomóc SEO technicznym myśleć bardziej jak robot wyszukiwarek, a mniej jak człowiek.

wiele stron internetowych może robić zabawne rzeczy, gdy użytkownicy Googlebota żądają stron.

skąd znasz ustawienia Googlebota?

wszystkie ustawienia są oparte na czasie spędzonym na czacie z inżynierami, studiowaniu dokumentacji wokół Googlebota i aktualizowaniu dokumentacji usługi renderowania stron DeepCrawl.

wymieniłem oryginalne dokumenty, na których oparłem ustawienia:

  • Napraw problemy związane z wyszukiwaniem JavaScript
  • zrozum renderowanie w wyszukiwarce Google
  • JavaScript i SEO: Różnica między indeksowaniem a indeksowaniem

czego potrzebujesz do tej techniki?

wszystko czego potrzebujesz to Google Chrome i wirtualna sieć prywatna (VPN).

po co symulować Googlebota w Google Chrome?

istnieją cztery podstawowe zalety korzystania z tej techniki, które krótko wyjaśnię.

debugowanie w Google Chrome

debugowałem setki stron internetowych w moim czasie w DeepCrawl. Narzędzia do indeksowania stron trzecich są niesamowite, ale zawsze odkryłem, że mają ograniczenia.

próbując zinterpretować wyniki z tych narzędzi zawsze zwracam się do Chrome, aby pomóc zrozumieć i debugować złożone problemy.

Google Chrome jest nadal moim ulubionym narzędziem nie-SEO do debugowania problemów, a po skonfigurowaniu może nawet symulować Googlebota, aby sprawdzić, jakie narzędzia do indeksowania wykrywają.

Googlebot używa Chromium

Gary wyjaśnił, że Googlebot używa własnego niestandardowego rozwiązania do pobierania i pobierania treści z Internetu. Który jest następnie przekazywany do systemów indeksujących.

nie ma dowodów sugerujących, że Googlebot crawler używa Chromium lub Chrome, jednak Joshua Giardino z IPullRank świetnie argumentuje o tym, że Google używa Chromium do stworzenia robota internetowego opartego na przeglądarce.

Google Chrome jest również oparty na otwartym projekcie Chromium, a także wielu innych przeglądarkach.

sensowne jest użycie przeglądarki Chromium do symulacji indeksowania Googlebota, aby lepiej zrozumieć Twoją witrynę.

unikalne analizy SEO

Korzystanie z Google Chrome do szybkiej interpretacji stron internetowych, takich jak Googlebot, może pomóc lepiej zrozumieć, dlaczego występują problemy z indeksowaniem lub indeksowaniem w ciągu kilku minut.

zamiast spędzać czas na czekaniu, aż Robot sieciowy zakończy działanie, mogę użyć tej techniki, aby szybko debugować potencjalne indeksowanie i indeksowanie.

następnie używam danych indeksowania, aby zobaczyć zakres problemu.

Googlebot nie jest człowiekiem

sieć staje się coraz bardziej złożona i dynamiczna.

ważne jest, aby pamiętać, że podczas debugowania problemów z indeksowaniem i indeksowaniem jesteś człowiekiem, a Googlebot jest maszyną. Wiele nowoczesnych witryn traktuje tych dwóch użytkowników inaczej.

Google Chrome, który został zaprojektowany, aby pomóc ludziom w nawigacji w sieci, może teraz pomóc człowiekowi w przeglądaniu witryny jak bot.

jak skonfigurować symulator Googlebota

racja, wystarczy tego dlaczego. Pozwól mi wyjaśnić, jak stworzyć własny symulator Googlebota.

pobierz Google Chrome

polecam pobrać Chrome Canary i nie używać własnej przeglądarki Google Chrome (lub jeśli przełączyłeś się na Firefox to Użyj Google Chrome).

głównym powodem tego jest to, że zmienisz ustawienia przeglądarki, które mogą być bolesne, jeśli zapomnisz je zresetować lub masz milion otwartych kart. Zaoszczędź sobie trochę czasu i po prostu użyj Canary jako dedykowanego symulatora Googlebota.

Pobierz lub użyj VPN

jeśli jesteś poza Stanami Zjednoczonymi, upewnij się, że masz dostęp do wirtualnej sieci prywatnej (VPN), dzięki czemu możesz zmienić swój adres IP na USA.

dzieje się tak dlatego, że domyślnie Googlebot indeksuje się z USA, a aby naprawdę symulować zachowanie indeksowania, musisz udawać, że uzyskujesz dostęp do witryny z USA.

ustawienia Chrome

po ich pobraniu i skonfigurowaniu nadszedł czas na skonfigurowanie ustawień Chrome.

podałem wyjaśnienie, dlaczego musisz skonfigurować każde ustawienie, ale oryginalny pomysł korzystania z Chromebota przyszedł do mnie, gdy przepisałem przewodnik po usłudze renderowania strony.

Web Dev Tools

interfejs narzędzi dla programistów internetowych jest ważną częścią przeglądania witryny, taką jak Googlebot. Aby upewnić się, że możesz poruszać się po konsoli, musisz przenieść Web Dev Tools do osobnego okna.

pamiętaj, że Twoje okno DevTools jest połączone z kartą, w której je otworzyłeś. Jeśli zamkniesz tę kartę w Google Chrome, Okno Ustawienia i DevTools również się zamknie.

jest to bardzo proste, wszystko, co musisz zrobić, to:

  1. kliknij prawym przyciskiem myszy stronę internetową i kliknij Sprawdź element (lub CTRL+SHIFT+I)
  2. przejdź do prawej strony, kliknij 3 pionowe kropki i wybierz opcję z lewej strony dockside.

konsola Web Dev Tool znajduje się teraz w osobnym oknie.

token agenta użytkownika

ciąg znaków agenta użytkownika-lub linia tekstu-jest sposobem na identyfikację aplikacji na serwerach lub w sieciach. Aby symulować Googlebota, musimy zaktualizować agenta użytkownika przeglądarki, aby Strona internetowa wiedziała, że jesteśmy robotem gąsienicowym Google.

menu poleceń

użyj Menu poleceń (CTRL + Shift + P) i wpisz „Pokaż warunki sieciowe”, aby otworzyć kartę warunki sieciowe w DevTools i zaktualizować agenta użytkownika.

Instrukcja obsługi

aby to zrobić, przejdź do oddzielnego okna Web Dev Tools i naciśnij przycisk Esc. Spowoduje to otwarcie konsoli.

kliknij trzy małe przyciski po lewej stronie karty konsoli.

na liście opcji kliknij warunki sieciowe. Spowoduje to otwarcie karty warunki sieciowe obok karty konsola.

na karcie warunki sieciowe przewiń w dół i odznacz opcję „User-agent select automatically”.

Google Chrome pozwoli teraz zmienić ciąg agenta użytkownika przeglądarki na Googlebot lub Googlebot Mobile.

Zwykle ustawiam go na Googlebot Mobile z indeksowaniem mobilnym domyślnie. Chociaż polecam sprawdzenie w Google Search Console, aby zobaczyć, który Googlebot indeksuje Twoją stronę Najczęściej.

Googlebot mobile w zakładce Sieć

Agent użytkownika Googlebota automatycznie użyje wersji dev beta Chrome, a nie stabilnej. Zazwyczaj nie jest to problem dla 99% stron internetowych, ale jeśli potrzebujesz, możesz wprowadzić niestandardowe UA ze stabilnego Chrome.

po zmianie agenta użytkownika zamknij konsolę (ponownie naciśnij ESC).

Włącz bezstanowe indeksowanie

Googlebot indeksuje strony internetowe bezstanowe po ładowaniu strony.

dokumentacja Google Search developer stwierdza, że oznacza to, że każda nowa strona indeksowana używa nowej przeglądarki i nie używa pamięci podręcznej, plików cookie ani lokalizacji do wykrywania i indeksowania stron internetowych.

nasz symulator Googlebota również musi replikować bycie bezpaństwowym (jak tylko może) na każdej załadowanej stronie. Aby to zrobić, musisz wyłączyć pamięć podręczną, pliki cookie i lokalizację w Chrome.

Wyłącz pamięć podręczną

menu poleceń

użyj Menu poleceń (CTRL + Shift + P) i wpisz „Wyłącz pamięć podręczną”, aby wyłączyć pamięć podręczną, gdy narzędzie DevTools jest otwarte.

Manual

aby wyłączyć pamięć podręczną przejdź do Panelu sieci w DevTools i sprawdź 'Wyłącz pamięć podręczną’.

Wyłącz pliki cookie

menu poleceń

użyj Menu poleceń (CTRL + Shift + P ) i wpisz „Wyłącz pamięć podręczną”, aby wyłączyć pamięć podręczną, gdy DevTools jest otwarty.

Instrukcja obsługi

w Chrome przejdź do chrome://settings/cookies. W ustawieniach plików cookies wybierz opcję „blokowania plików cookies podmiotów trzecich”.

wyłączanie lokalizacji

w Chrome przejdź do chrome://Ustawienia/zawartość/lokalizacja w przeglądarce. Przełącz ” zapytaj przed uzyskaniem dostępu (zalecane) „na”zablokowane”.

Wyłącz service Workers

Googlebot wyłącza interfejsy oparte na specyfikacji Service Worker. Oznacza to, że omija Service Workera, który może buforować dane i pobiera adresy URL z serwera.

aby to zrobić przejdź do panelu aplikacji w DevTools, przejdź do service Workers i zaznacz opcję „Omiń sieć”.

po wyłączeniu przeglądarka będzie zmuszona zawsze żądać zasobu z sieci i nie korzystać z Service Workera.

Wyłącz JavaScript

Robot gąsienicowy Googlebota nie wykonuje żadnego JavaScript podczas indeksowania.

Googlebot & JavaScript: bliższe spojrzenie na WRS-TechSEO Boost 2019

podsystemy indeksowania i renderowania są dalej wyjaśnione w zrozum podstawy JavaScript SEO guide i Googlebot & JavaScript: bliższe spojrzenie na WRS na TechSEO Boost 2019.

googlebot crawling systems
jak Googlebot indeksuje i renderuje sieć

Googlebot jest bardzo złożonym systemem i nawet powyższy diagram jest zbyt uproszczeniem. Jednak; Robot Googlebot musi najpierw pobrać, pobrać i sprawdzić stronę internetową niezależnie od renderowania.

ważne jest, aby upewnić się, że możemy sprawdzać HTML po stronie serwera, kody statusu http i zasoby bez JavaScript w naszym symulatorze Googlebota.

linia poleceń

użyj Menu poleceń (CTRL + Shift + P) i wpisz „Wyłącz JavaScript”, aby szybko wyłączyć JavaScript.

Manual

aby wyłączyć JavaScript w Chrome, przejdź do DevTools i kliknij tryb ustawień.

następnie zaznacz pole „Wyłącz JavaScript”.

teraz, gdy używasz symulatora Googlebota, będziesz sprawdzał tylko początkowy kod HTML po stronie serwera. Pomoże to lepiej zrozumieć, czy występują problemy z łączem, zawartością lub kodem stanu HTTP powodujące problemy z robotem gąsienicowym.

Panel sieciowy

wreszcie nadszedł czas na skonfigurowanie panelu sieciowego. To właśnie w tym obszarze w DevTools będziesz spędzał dużo czasu jako Googlebot.

karta sieci Google chrome

panel sieci Służy do pobierania i pobierania zasobów. To w tym panelu można sprawdzić metadane, nagłówki http, zawartość itp. każdego pojedynczego adresu URL pobranego podczas żądania strony.

jednak zanim będziemy mogli sprawdzić zasoby (HTML, CSS, IMG) pobrane z serwera jak Googlebot musimy zaktualizować nagłówki, aby wyświetlić najważniejsze informacje w panelu.

przejdź do Panelu sieci w DevTools (teraz osobne okno). W tabeli w panelu kliknij prawym przyciskiem myszy nagłówki kolumn i wybierz nagłówki wymienione poniżej, które mają zostać dodane jako kolumny w panelu sieć (usuń wszystkie inne nie wymienione).

aktualizacja nagłówków sieciowych

podałem również krótkie wyjaśnienie każdego nagłówka i dlaczego należy je dodać.

Status

kod statusu https adresu URL pobieranego z serwera. Googlebot zmieni swoje zachowanie indeksowania w zależności od typu kodu statusu http – jedna z najbardziej krytycznych informacji do zrozumienia podczas inspekcji adresów URL.

schemat

wyświetla niezabezpieczony https:// lub Bezpieczny https:// schemat pobieranego zasobu. Googlebot woli indeksować i indeksować adresy URL HTTPS, więc ważne jest, aby dobrze zrozumieć schemat używany przez zasoby na stronie.

domena

wyświetla domenę, z której pobrano zasoby. Ważne jest, aby zrozumieć, czy ważna zawartość opiera się na zewnętrznym CDN, API lub subdomenie, ponieważ Googlebot może mieć problemy z pobraniem zawartości.

adres zdalny

Google Chrome wyświetla adres IP hosta, z którego pobierane są zasoby. Ponieważ budżet indeksowania strony internetowej opiera się na adresie IP hosta, a nie na domenie, ważne jest, aby wziąć pod uwagę adres IP każdego pobranego adresu URL.

Typ

typ MIME żądanego zasobu. Ważne jest, aby upewnić się, że ważne adresy URL są oznaczone prawidłowym typem MIME, ponieważ różne typy Googlebota są zainteresowane różnymi typami treści (HTML, CSS, IMG).

Rozmiar

łączny rozmiar nagłówków odpowiedzi plus treść odpowiedzi, dostarczana przez serwer. Ważne jest, aby poprawić szybkość witryny, ponieważ może to pomóc zarówno użytkownikom, jak i Googlebotowi szybciej uzyskać dostęp do witryny.

czas

całkowity czas trwania, Od początku żądania do otrzymania ostatniego bajtu w odpowiedzi. Odpowiedź serwera może wpłynąć na limit indeksowania Googlebota. Jeśli serwer spowalnia, Robot sieciowy będzie mniej indeksować Twoją witrynę.

priorytet

najlepiej odgadnąć przeglądarkę, której zasoby należy załadować jako pierwsze. Nie jest to sposób, w jaki Googlebot indeksuje priorytety adresów URL do indeksowania, ale może być przydatne, aby zobaczyć, które zasoby są priorytetowe przez przeglądarkę (przy użyciu własnej heurystyki).

Last Modified

nagłówek HTTP Ostatnio zmodyfikowanej odpowiedzi zawiera datę i godzinę, w której serwer origin uważa, że zasób został ostatnio zmodyfikowany. Ta odpowiedź może być używana przez Googlebota, w połączeniu z innymi sygnałami, aby pomóc w priorytetyzacji indeksowania w witrynie.

Amerykański adres IP

po zaktualizowaniu nagłówków paneli sieciowych w Chrome DevTools symulator Googlebota jest prawie gotowy.

jeśli chcesz go od razu użyć, musisz przełączyć się na Amerykański adres IP.

Googlebot Z tego powodu zawsze zalecałbym zmianę adresu IP NA USA podczas korzystania z symulatora Googlebota.

to najlepszy sposób, aby zrozumieć, jak zachowuje się Twoja strona internetowa, gdy jest odwiedzana przez Googlebota. Na przykład, jeśli witryna blokuje odwiedzających za pomocą amerykańskich adresów IP lub przekierowuje odwiedzających na podstawie ich lokalizacji, może to spowodować problemy z indeksowaniem i indeksowaniem witryny przez Google.

i, Googlebot Chrome

po zmianie adresu IP jesteś gotowy do pracy i masz własny symulator Googlebota.

 symulator Googlebota

jeśli chcesz przetestować, aby sprawdzić, czy działa, przejdź do angular.io lub eventbrite.com. Te strony internetowe wymagają JavaScript do ładowania treści i linków – po wyłączeniu JavaScript strony te nie będą poprawnie ładować treści w interfejsie.

Często zadawane pytania

czy symulator działa tylko na jednej karcie?

tak. Ustawienia Google DevTool są przeznaczone tylko dla aktualnie otwartej karty. Otwarcie nowej karty spowoduje zresetowanie ustawień Wyłącz JavaScript i User-agent.

inne ustawienia Chrome (Pliki cookie, pracownicy serwisu) będą nadal konfigurowane.

czy to pomaga w debugowaniu problemów z JavaScript SEO?

tak ta technika może być używana do debugowania problemów SEO JavaScript na stronie internetowej podczas porównywania view-source do renderowanego HTML. Chociaż mogą być lepsze rozszerzenia i narzędzia do tego w skali.

Czy muszę aktualizować Ustawienia za każdym razem?

po zamknięciu karty musisz zaktualizować następujące ustawienia:

  • wyłącz obsługę JavaScript
  • Aktualizuj token User-agent

wszystkie inne ustawienia zostaną zapisane przez przeglądarkę.

Dlaczego muszę używać Chrome Canary?

sugeruję tylko użycie tego, aby powstrzymać cię od zepsucia przeglądarki Chrome i konieczności spędzania czasu na przechodzeniu między ustawieniami.

jeśli używasz Firefoksa lub Safari, po prostu pobierz normalny Google Chrome.

ja już to wbudowałem w Headless chrome czy przez jakąś inną automatykę?

po pierwsze, dobra robota! Jeśli jesteś podobny do mnie i nie masz (obecnie) czasu / zdolności do nauki nowych języków kodowania, ta metoda bez kodu jest świetna, aby zacząć.

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany.