Optymalizacja budżetu indeksowania

Z tego przewodnika dowiesz się, jak zoptymalizować indeksowanie przez Google bardzo dużych i często aktualizowanych witryn.

Jeśli w Twojej witrynie nie ma wielu stron, które zmieniają się szybko, albo uważasz, że Twoje strony są indeksowane tego samego dnia, w którym są publikowane, nie musisz czytać tego przewodnika. W przypadku wyszukiwarki Google wystarczy, że będziesz regularnie aktualizować mapę witryny i sprawdzać stan w indeksie.

Komu przyda się ten przewodnik

Zalecenia zawarte w tym przewodniku to ogólnie sprawdzone metody, ale jest to przewodnik zaawansowany stworzony głównie z myślą o tych typach witryn:

dużych witrynach (ponad milion unikalnych stron) z treścią, która zmienia się z umiarkowaną częstotliwością (raz w tygodniu);
średnich lub większych witrynach (ponad 10 tys. unikalnych stron), których treść zmienia się bardzo szybko (codziennie).
witrynach z dużą częścią ogólnej liczby adresów URL sklasyfikowaną przez Search Console jako Strona wykryta – obecnie nie zindeksowana;

Ogólnie o indeksowaniu

Internet to niemal nieograniczona przestrzeń, dlatego zbadanie i zindeksowanie wszystkich dostępnych adresów URL przekracza możliwości Google. W związku z tym ilość czasu, jaką roboty Google mogą poświęcić na skanowanie poszczególnych witryn (wskazanych jako nazwa hosta), jest ograniczona. Na przykład https://www.example.com/ i https://code.example.com/ to 2 różne nazwy hosta, więc mają oddzielne budżety indeksowania. Czas i zasoby, które Google poświęca na zeskanowanie określonej witryny, są zwykle nazywane budżetem indeksowania witryny. Zależy on od 2 głównych czynników: limitu wydajności indeksowania i zapotrzebowania na indeksowanie.

Limit wydajności indeksowania

Googlebot stara się indeksować witryny bez obciążania serwerów. W tym celu roboty Google obliczają limit wydajności indeksowania, czyli maksymalną liczbę jednoczesnych połączeń równoległych, których Google może użyć do zeskanowania witryny. Obliczają też opóźnienie między pobraniami. Dzięki tym obliczeniom indeksowanie obejmie wszystkie ważne treści bez nadmiernego obciążenia serwerów.

Zwiększenie lub zmniejszenie limitu wydajności indeksowania zależy od kilku czynników:

Stan indeksowania: jeśli przez jakiś czas witryna reaguje szybko, limit się zwiększa, czyli do skanowania można wykorzystać więcej połączeń. Jeśli czas reakcji witryny się wydłuży lub wystąpią błędy serwera, limit zostanie zmniejszony, a Google będzie indeksować mniej.
Limity indeksowania Google: liczba komputerów, którymi dysponuje Google, jest ogromna, ale nie jest nieskończona. Biorąc pod uwagę dostępne zasoby, nadal musimy podejmować określone decyzje.

Zapotrzebowanie na indeksowanie

Każdy robot indeksujący ma własne „zapotrzebowanie” na indeksowanie internetu. Na przykład AdsBot ma zwykle większe zapotrzebowanie, gdy witryna korzysta z dynamicznych miejsc docelowych reklam, Zakupy Google mają większe zapotrzebowanie na produkty, które masz w plikach danych sprzedawcy, a zapotrzebowanie Googlebota różni się w zależności od rozmiaru witryny, częstotliwości aktualizacji, jakości stron i trafności w porównaniu z innymi witrynami.

Czynniki, które odgrywają istotną rolę w określaniu zapotrzebowania na indeksowanie, to:

Domniemane zasoby: bez Twoich wskazówek Google będzie próbował zeskanować wszystkie adresy URL, które znajdzie w Twojej witrynie, lub większość z nich. Jeśli wiele z tych adresów URL to duplikaty lub adresy, które nie powinny być indeksowane z innego powodu (zostały usunięte, są nieistotne itd.), niepotrzebnie pochłania to czas, jaki Google przeznacza na skanowanie treści w Twojej witrynie. Jest to czynnik, nad którym masz największą kontrolę.
Popularność: adresy URL, które cieszą się większą popularnością w internecie, są indeksowane częściej, aby ich stan w naszym indeksie był aktualny.
Brak aktualizacji: nasze systemy starają się ponownie indeksować dokumenty wystarczająco często, aby wykryć wszelkie zmiany.

Poza tym zdarzenia dotyczące całej witryny (np. jej przeniesienie) mogą spowodować wzrost zapotrzebowania na indeksowanie w celu ponownego zindeksowania treści pod nowymi adresami URL.

Podsumowanie

Biorąc pod uwagę wydajność indeksowania i zapotrzebowanie na indeksowanie, Google określa budżet indeksowania witryny jako zestaw adresów URL, które Googlebot może i zamierza zeskanować. Nawet jeśli limit wydajności indeksowania nie zostanie osiągnięty, Googlebot będzie rzadziej indeksować Twoją witrynę, jeśli zapotrzebowanie na indeksowanie jest niskie.

Sprawdzone metody

Aby zmaksymalizować efektywność skanowania, postępuj zgodnie z tymi sprawdzonymi metodami:

Zarządzaj zasobami URL. Użyj odpowiednich narzędzi, aby poinformować Google, które strony ma skanować, a które pomijać. Jeśli Google poświęca zbyt dużo czasu na skanowanie adresów URL, których nie powinien, roboty Google mogą uznać, że szkoda czasu na skanowanie reszty witryny (i nie warto w tym celu zwiększać budżetu).
- Konsolidacja powielonych treści. Usuń powielone treści, by skupić się na indeksowaniu niepowtarzalnych treści, a nie unikalnych adresów URL.
- Blokuj indeksowanie adresów URL za pomocą pliku robots.txt. Niektóre strony mogą być ważne dla użytkowników, ale niekoniecznie powinny pojawiać się na platformach Google lub być ponownie przetwarzane przez systemy Google. Na przykład strony z nieskończonym przewijaniem, które powielają informacje na linkowanych stronach, lub różnie uporządkowane wersje tej samej strony. Jeśli nie możesz skonsolidować tych stron w sposób opisany w pierwszym punkcie, zablokuj te nieistotne (pod względem wyszukiwania) za pomocą pliku robots.txt. Blokowanie adresów URL za pomocą pliku robots.txt uniemożliwia Google ich skanowanie i znacznie zmniejsza szansę na to, że będą one przetwarzane przez inne systemy Google (np. zindeksowane przez wyszukiwarkę Google).
  Nie używaj tagu noindex, bo Google nadal będzie wysyłać żądanie dotyczące strony i, choć ją pominie, gdy zauważy tag lub nagłówek noindex meta w odpowiedzi HTTP, zmarnuje czas przeznaczony na indeksowanie. Nie używaj pliku robots.txt do tymczasowego przydzielania budżetu indeksowania na potrzeby innych stron. Wykorzystaj ten plik, aby zablokować strony lub zasoby, które według Ciebie w ogóle nie powinny być skanowane przez Google. Google nie przeznaczy tego zwolnionego budżetu indeksowania na inne strony, chyba że osiągnie już limit możliwości serwera witryny.
- Zwracaj kod stanu 404 lub 410 w przypadku stron trwale usuniętych. Google nie zapomina poznanego adresu URL, ale kod stanu 404 to wyraźny sygnał, aby nie skanować tego adresu URL ponownie. Zablokowane adresy URL pozostaną jednak w kolejce do skanowania znacznie dłużej i zostaną zeskanowane ponownie po usunięciu blokady.
- Wyeliminuj błędy soft 404. Strony z kodem błędu soft 404 nadal będziemy indeksować, co spowoduje niepotrzebne wykorzystanie budżetu. Poszukaj błędów soft 404 w raporcie Stan w indeksie.
- Aktualizuj mapy witryn. Google regularnie odczytuje mapę witryny, więc pamiętaj, aby uwzględnić w niej wszystkie treści, które Google ma indeksować. Jeśli Twoja witryna zawiera zaktualizowane treści, zalecamy dodanie tagu <lastmod>.
- Unikaj długich łańcuchów przekierowań, które mają negatywny wpływ na indeksowanie.
Zadbaj o sprawne wczytywanie stron. Jeśli wczytywanie i renderowanie stron odbywa się szybciej, Google może odczytać z witryny więcej treści.
Debugowanie problemów z budżetem indeksowania Sprawdzaj, czy podczas indeksowania nie występują problemy z dostępnością witryny, i poszukaj sposobów na zwiększenie skuteczności skanowania.

Jak zwiększyć budżet indeksowania?

Budżet indeksowania można zwiększyć na 2 sposoby:

Dodaj więcej zasobów serwera: jeśli witryna nie może być indeksowana z powodu ograniczonej pojemności serwera po Twojej stronie (np. w narzędziu do sprawdzania adresu URL pojawia się komunikat Przekroczono limit obciążenia hosta), dodaj więcej zasobów serwera, jeśli ma to sens w przypadku Twojej firmy.
Optymalizuj jakość treści pod kątem usługi Google, na którą kierujesz reklamy: Google określa zasoby indeksowania przydzielone do każdej witryny, biorąc pod uwagę elementy istotne dla konkretnej usługi Google. Na przykład w przypadku wyszukiwarki Google obejmuje to popularność, ogólną wartość dla użytkowników, niepowtarzalność treści i wydajność serwera.