w DeepCrawl pomagałem debugować tysiące technicznych problemów SEO każdego roku na największych witrynach firmowych na świecie.
stworzyłem symulator Googlebota w Chrome, aby szybko replikować i debugować złożone problemy techniczne SEO. Nazwałem to techniką Chromebota.
w tym przewodniku wyjaśnię, jak stworzyć własny symulator Googlebota w Google Chrome, aby debugować złożone techniczne problemy z SEO.
czym jest technika Chromebota?
Technika Chromebota jest prostym rozwiązaniem bez kodu, które pozwala człowiekowi skonfigurować ustawienia chrome, aby działały jak Googlebot crawler (nie renderowanie). Może pomóc specjalistom SEO zidentyfikować unikalne problemy indeksowania i indeksowania na stronie internetowej.
dlaczego warto korzystać z tej techniki?
używałem tej techniki często w DeepCrawl podczas debugowania niezliczonych problemów z indeksowaniem i indeksowaniem klientów.
jest to dość prosta, ale skuteczna technika bez kodu, aby pomóc SEO technicznym myśleć bardziej jak robot wyszukiwarek, a mniej jak człowiek.
wiele stron internetowych może robić zabawne rzeczy, gdy użytkownicy Googlebota żądają stron.
skąd znasz ustawienia Googlebota?
wszystkie ustawienia są oparte na czasie spędzonym na czacie z inżynierami, studiowaniu dokumentacji wokół Googlebota i aktualizowaniu dokumentacji usługi renderowania stron DeepCrawl.
wymieniłem oryginalne dokumenty, na których oparłem ustawienia:
- Napraw problemy związane z wyszukiwaniem JavaScript
- zrozum renderowanie w wyszukiwarce Google
- JavaScript i SEO: Różnica między indeksowaniem a indeksowaniem
czego potrzebujesz do tej techniki?
wszystko czego potrzebujesz to Google Chrome i wirtualna sieć prywatna (VPN).
po co symulować Googlebota w Google Chrome?
istnieją cztery podstawowe zalety korzystania z tej techniki, które krótko wyjaśnię.
debugowanie w Google Chrome
debugowałem setki stron internetowych w moim czasie w DeepCrawl. Narzędzia do indeksowania stron trzecich są niesamowite, ale zawsze odkryłem, że mają ograniczenia.
próbując zinterpretować wyniki z tych narzędzi zawsze zwracam się do Chrome, aby pomóc zrozumieć i debugować złożone problemy.
Google Chrome jest nadal moim ulubionym narzędziem nie-SEO do debugowania problemów, a po skonfigurowaniu może nawet symulować Googlebota, aby sprawdzić, jakie narzędzia do indeksowania wykrywają.
Googlebot używa Chromium
Gary wyjaśnił, że Googlebot używa własnego niestandardowego rozwiązania do pobierania i pobierania treści z Internetu. Który jest następnie przekazywany do systemów indeksujących.
nie ma dowodów sugerujących, że Googlebot crawler używa Chromium lub Chrome, jednak Joshua Giardino z IPullRank świetnie argumentuje o tym, że Google używa Chromium do stworzenia robota internetowego opartego na przeglądarce.
Google Chrome jest również oparty na otwartym projekcie Chromium, a także wielu innych przeglądarkach.
sensowne jest użycie przeglądarki Chromium do symulacji indeksowania Googlebota, aby lepiej zrozumieć Twoją witrynę.
unikalne analizy SEO
Korzystanie z Google Chrome do szybkiej interpretacji stron internetowych, takich jak Googlebot, może pomóc lepiej zrozumieć, dlaczego występują problemy z indeksowaniem lub indeksowaniem w ciągu kilku minut.
zamiast spędzać czas na czekaniu, aż Robot sieciowy zakończy działanie, mogę użyć tej techniki, aby szybko debugować potencjalne indeksowanie i indeksowanie.
następnie używam danych indeksowania, aby zobaczyć zakres problemu.
Googlebot nie jest człowiekiem
sieć staje się coraz bardziej złożona i dynamiczna.
ważne jest, aby pamiętać, że podczas debugowania problemów z indeksowaniem i indeksowaniem jesteś człowiekiem, a Googlebot jest maszyną. Wiele nowoczesnych witryn traktuje tych dwóch użytkowników inaczej.
Google Chrome, który został zaprojektowany, aby pomóc ludziom w nawigacji w sieci, może teraz pomóc człowiekowi w przeglądaniu witryny jak bot.
jak skonfigurować symulator Googlebota
racja, wystarczy tego dlaczego. Pozwól mi wyjaśnić, jak stworzyć własny symulator Googlebota.
pobierz Google Chrome
polecam pobrać Chrome Canary i nie używać własnej przeglądarki Google Chrome (lub jeśli przełączyłeś się na Firefox to Użyj Google Chrome).
głównym powodem tego jest to, że zmienisz ustawienia przeglądarki, które mogą być bolesne, jeśli zapomnisz je zresetować lub masz milion otwartych kart. Zaoszczędź sobie trochę czasu i po prostu użyj Canary jako dedykowanego symulatora Googlebota.
Pobierz lub użyj VPN
jeśli jesteś poza Stanami Zjednoczonymi, upewnij się, że masz dostęp do wirtualnej sieci prywatnej (VPN), dzięki czemu możesz zmienić swój adres IP na USA.
dzieje się tak dlatego, że domyślnie Googlebot indeksuje się z USA, a aby naprawdę symulować zachowanie indeksowania, musisz udawać, że uzyskujesz dostęp do witryny z USA.
ustawienia Chrome
po ich pobraniu i skonfigurowaniu nadszedł czas na skonfigurowanie ustawień Chrome.
podałem wyjaśnienie, dlaczego musisz skonfigurować każde ustawienie, ale oryginalny pomysł korzystania z Chromebota przyszedł do mnie, gdy przepisałem przewodnik po usłudze renderowania strony.
Web Dev Tools
interfejs narzędzi dla programistów internetowych jest ważną częścią przeglądania witryny, taką jak Googlebot. Aby upewnić się, że możesz poruszać się po konsoli, musisz przenieść Web Dev Tools do osobnego okna.
pamiętaj, że Twoje okno DevTools jest połączone z kartą, w której je otworzyłeś. Jeśli zamkniesz tę kartę w Google Chrome, Okno Ustawienia i DevTools również się zamknie.
jest to bardzo proste, wszystko, co musisz zrobić, to:
- kliknij prawym przyciskiem myszy stronę internetową i kliknij Sprawdź element (lub CTRL+SHIFT+I)
- przejdź do prawej strony, kliknij 3 pionowe kropki i wybierz opcję z lewej strony dockside.
konsola Web Dev Tool znajduje się teraz w osobnym oknie.
token agenta użytkownika
ciąg znaków agenta użytkownika-lub linia tekstu-jest sposobem na identyfikację aplikacji na serwerach lub w sieciach. Aby symulować Googlebota, musimy zaktualizować agenta użytkownika przeglądarki, aby Strona internetowa wiedziała, że jesteśmy robotem gąsienicowym Google.
menu poleceń
użyj Menu poleceń (CTRL + Shift + P) i wpisz „Pokaż warunki sieciowe”, aby otworzyć kartę warunki sieciowe w DevTools i zaktualizować agenta użytkownika.
Instrukcja obsługi
aby to zrobić, przejdź do oddzielnego okna Web Dev Tools i naciśnij przycisk Esc. Spowoduje to otwarcie konsoli.
kliknij trzy małe przyciski po lewej stronie karty konsoli.
na liście opcji kliknij warunki sieciowe. Spowoduje to otwarcie karty warunki sieciowe obok karty konsola.
na karcie warunki sieciowe przewiń w dół i odznacz opcję „User-agent select automatically”.
Google Chrome pozwoli teraz zmienić ciąg agenta użytkownika przeglądarki na Googlebot lub Googlebot Mobile.
Zwykle ustawiam go na Googlebot Mobile z indeksowaniem mobilnym domyślnie. Chociaż polecam sprawdzenie w Google Search Console, aby zobaczyć, który Googlebot indeksuje Twoją stronę Najczęściej.
Agent użytkownika Googlebota automatycznie użyje wersji dev beta Chrome, a nie stabilnej. Zazwyczaj nie jest to problem dla 99% stron internetowych, ale jeśli potrzebujesz, możesz wprowadzić niestandardowe UA ze stabilnego Chrome.
po zmianie agenta użytkownika zamknij konsolę (ponownie naciśnij ESC).
Włącz bezstanowe indeksowanie
Googlebot indeksuje strony internetowe bezstanowe po ładowaniu strony.
dokumentacja Google Search developer stwierdza, że oznacza to, że każda nowa strona indeksowana używa nowej przeglądarki i nie używa pamięci podręcznej, plików cookie ani lokalizacji do wykrywania i indeksowania stron internetowych.
nasz symulator Googlebota również musi replikować bycie bezpaństwowym (jak tylko może) na każdej załadowanej stronie. Aby to zrobić, musisz wyłączyć pamięć podręczną, pliki cookie i lokalizację w Chrome.
Wyłącz pamięć podręczną
menu poleceń
użyj Menu poleceń (CTRL + Shift + P) i wpisz „Wyłącz pamięć podręczną”, aby wyłączyć pamięć podręczną, gdy narzędzie DevTools jest otwarte.
Manual
aby wyłączyć pamięć podręczną przejdź do Panelu sieci w DevTools i sprawdź 'Wyłącz pamięć podręczną’.
Wyłącz pliki cookie
menu poleceń
użyj Menu poleceń (CTRL + Shift + P ) i wpisz „Wyłącz pamięć podręczną”, aby wyłączyć pamięć podręczną, gdy DevTools jest otwarty.
Instrukcja obsługi
w Chrome przejdź do chrome://settings/cookies. W ustawieniach plików cookies wybierz opcję „blokowania plików cookies podmiotów trzecich”.
wyłączanie lokalizacji
w Chrome przejdź do chrome://Ustawienia/zawartość/lokalizacja w przeglądarce. Przełącz ” zapytaj przed uzyskaniem dostępu (zalecane) „na”zablokowane”.
Wyłącz service Workers
Googlebot wyłącza interfejsy oparte na specyfikacji Service Worker. Oznacza to, że omija Service Workera, który może buforować dane i pobiera adresy URL z serwera.
aby to zrobić przejdź do panelu aplikacji w DevTools, przejdź do service Workers i zaznacz opcję „Omiń sieć”.
po wyłączeniu przeglądarka będzie zmuszona zawsze żądać zasobu z sieci i nie korzystać z Service Workera.
Wyłącz JavaScript
Robot gąsienicowy Googlebota nie wykonuje żadnego JavaScript podczas indeksowania.
podsystemy indeksowania i renderowania są dalej wyjaśnione w zrozum podstawy JavaScript SEO guide i Googlebot & JavaScript: bliższe spojrzenie na WRS na TechSEO Boost 2019.
Googlebot jest bardzo złożonym systemem i nawet powyższy diagram jest zbyt uproszczeniem. Jednak; Robot Googlebot musi najpierw pobrać, pobrać i sprawdzić stronę internetową niezależnie od renderowania.
ważne jest, aby upewnić się, że możemy sprawdzać HTML po stronie serwera, kody statusu http i zasoby bez JavaScript w naszym symulatorze Googlebota.
linia poleceń
użyj Menu poleceń (CTRL + Shift + P) i wpisz „Wyłącz JavaScript”, aby szybko wyłączyć JavaScript.
Manual
aby wyłączyć JavaScript w Chrome, przejdź do DevTools i kliknij tryb ustawień.
następnie zaznacz pole „Wyłącz JavaScript”.
teraz, gdy używasz symulatora Googlebota, będziesz sprawdzał tylko początkowy kod HTML po stronie serwera. Pomoże to lepiej zrozumieć, czy występują problemy z łączem, zawartością lub kodem stanu HTTP powodujące problemy z robotem gąsienicowym.
Panel sieciowy
wreszcie nadszedł czas na skonfigurowanie panelu sieciowego. To właśnie w tym obszarze w DevTools będziesz spędzał dużo czasu jako Googlebot.
panel sieci Służy do pobierania i pobierania zasobów. To w tym panelu można sprawdzić metadane, nagłówki http, zawartość itp. każdego pojedynczego adresu URL pobranego podczas żądania strony.
jednak zanim będziemy mogli sprawdzić zasoby (HTML, CSS, IMG) pobrane z serwera jak Googlebot musimy zaktualizować nagłówki, aby wyświetlić najważniejsze informacje w panelu.
przejdź do Panelu sieci w DevTools (teraz osobne okno). W tabeli w panelu kliknij prawym przyciskiem myszy nagłówki kolumn i wybierz nagłówki wymienione poniżej, które mają zostać dodane jako kolumny w panelu sieć (usuń wszystkie inne nie wymienione).
podałem również krótkie wyjaśnienie każdego nagłówka i dlaczego należy je dodać.
Status
kod statusu https adresu URL pobieranego z serwera. Googlebot zmieni swoje zachowanie indeksowania w zależności od typu kodu statusu http – jedna z najbardziej krytycznych informacji do zrozumienia podczas inspekcji adresów URL.
schemat
wyświetla niezabezpieczony https:// lub Bezpieczny https:// schemat pobieranego zasobu. Googlebot woli indeksować i indeksować adresy URL HTTPS, więc ważne jest, aby dobrze zrozumieć schemat używany przez zasoby na stronie.
domena
wyświetla domenę, z której pobrano zasoby. Ważne jest, aby zrozumieć, czy ważna zawartość opiera się na zewnętrznym CDN, API lub subdomenie, ponieważ Googlebot może mieć problemy z pobraniem zawartości.
adres zdalny
Google Chrome wyświetla adres IP hosta, z którego pobierane są zasoby. Ponieważ budżet indeksowania strony internetowej opiera się na adresie IP hosta, a nie na domenie, ważne jest, aby wziąć pod uwagę adres IP każdego pobranego adresu URL.
Typ
typ MIME żądanego zasobu. Ważne jest, aby upewnić się, że ważne adresy URL są oznaczone prawidłowym typem MIME, ponieważ różne typy Googlebota są zainteresowane różnymi typami treści (HTML, CSS, IMG).
Rozmiar
łączny rozmiar nagłówków odpowiedzi plus treść odpowiedzi, dostarczana przez serwer. Ważne jest, aby poprawić szybkość witryny, ponieważ może to pomóc zarówno użytkownikom, jak i Googlebotowi szybciej uzyskać dostęp do witryny.
czas
całkowity czas trwania, Od początku żądania do otrzymania ostatniego bajtu w odpowiedzi. Odpowiedź serwera może wpłynąć na limit indeksowania Googlebota. Jeśli serwer spowalnia, Robot sieciowy będzie mniej indeksować Twoją witrynę.
priorytet
najlepiej odgadnąć przeglądarkę, której zasoby należy załadować jako pierwsze. Nie jest to sposób, w jaki Googlebot indeksuje priorytety adresów URL do indeksowania, ale może być przydatne, aby zobaczyć, które zasoby są priorytetowe przez przeglądarkę (przy użyciu własnej heurystyki).
Last Modified
nagłówek HTTP Ostatnio zmodyfikowanej odpowiedzi zawiera datę i godzinę, w której serwer origin uważa, że zasób został ostatnio zmodyfikowany. Ta odpowiedź może być używana przez Googlebota, w połączeniu z innymi sygnałami, aby pomóc w priorytetyzacji indeksowania w witrynie.
Amerykański adres IP
po zaktualizowaniu nagłówków paneli sieciowych w Chrome DevTools symulator Googlebota jest prawie gotowy.
jeśli chcesz go od razu użyć, musisz przełączyć się na Amerykański adres IP.
Googlebot Z tego powodu zawsze zalecałbym zmianę adresu IP NA USA podczas korzystania z symulatora Googlebota.
to najlepszy sposób, aby zrozumieć, jak zachowuje się Twoja strona internetowa, gdy jest odwiedzana przez Googlebota. Na przykład, jeśli witryna blokuje odwiedzających za pomocą amerykańskich adresów IP lub przekierowuje odwiedzających na podstawie ich lokalizacji, może to spowodować problemy z indeksowaniem i indeksowaniem witryny przez Google.
i, Googlebot Chrome
po zmianie adresu IP jesteś gotowy do pracy i masz własny symulator Googlebota.
jeśli chcesz przetestować, aby sprawdzić, czy działa, przejdź do angular.io lub eventbrite.com. Te strony internetowe wymagają JavaScript do ładowania treści i linków – po wyłączeniu JavaScript strony te nie będą poprawnie ładować treści w interfejsie.
Często zadawane pytania
czy symulator działa tylko na jednej karcie?
tak. Ustawienia Google DevTool są przeznaczone tylko dla aktualnie otwartej karty. Otwarcie nowej karty spowoduje zresetowanie ustawień Wyłącz JavaScript i User-agent.
inne ustawienia Chrome (Pliki cookie, pracownicy serwisu) będą nadal konfigurowane.
czy to pomaga w debugowaniu problemów z JavaScript SEO?
tak ta technika może być używana do debugowania problemów SEO JavaScript na stronie internetowej podczas porównywania view-source do renderowanego HTML. Chociaż mogą być lepsze rozszerzenia i narzędzia do tego w skali.
Czy muszę aktualizować Ustawienia za każdym razem?
po zamknięciu karty musisz zaktualizować następujące ustawienia:
- wyłącz obsługę JavaScript
- Aktualizuj token User-agent
wszystkie inne ustawienia zostaną zapisane przez przeglądarkę.
Dlaczego muszę używać Chrome Canary?
sugeruję tylko użycie tego, aby powstrzymać cię od zepsucia przeglądarki Chrome i konieczności spędzania czasu na przechodzeniu między ustawieniami.
jeśli używasz Firefoksa lub Safari, po prostu pobierz normalny Google Chrome.
ja już to wbudowałem w Headless chrome czy przez jakąś inną automatykę?
po pierwsze, dobra robota! Jeśli jesteś podobny do mnie i nie masz (obecnie) czasu / zdolności do nauki nowych języków kodowania, ta metoda bez kodu jest świetna, aby zacząć.