Strona internetowa musi zostać zaindeksowana, aby znalazła się w wynikach wyszukiwania. Jak wygląda proces indeksacji? Roboty wyszukiwarki wchodząc na serwis, analizują jego zawartość, treści, składnię znaczników. Witryna zostaje skategoryzowana i ma szansę pojawić się w wyszukiwarce na określone zapytania użytkowników. Niestety, nie zawsze cały serwis zostanie zaindeksowany – nie wszystkie podstrony wyświetlą się w rankingu. Decyduje o tym tzw. crawl budget, którego działanie wyjaśnił ostatnio Gary Illyes.
Co to jest crawl budget?
Googleboty mają ograniczone możliwości indeksowania nowych serwisów oraz dokonywania reindeksacji witryn, które od dawna istnieją w sieci. Działanie robotów obciąża serwery Google oraz właścicieli domen. Dlatego wprowadzony został crawl budget. Jest to pewnego rodzaju limit stron, które mogą zostać zaindeksowane w danym serwisie.
Google wychodzi z założenia, że proces indeksowania nie powinien obciążać stron internetowych, by użytkownicy mogli z nich swobodnie korzystać. W zależności od tego, jak szybko wczytuje się dany serwis i jaka jest wydajność serwera, Googleboty otrzymują inną wartość parametru crawl rate limit, czyli szybkości pobierania danych ze strony. Krótki czas ładowania witryny to większe możliwości indeksowania dla robotów wyszukiwarki. Crawl rate limit można także ustawić ręcznie w Google Serach Console.
Z drugiej strony Googleboty nie podejmują także aktywności w danym serwisie, jeśli odnotowana jest mała aktywność. Częstość indeksowania (tzw. crawl demand) zwiększa się np. na tych podstronach, które charakteryzują się największą popularnością i generują największy ruch na stronie.
Parametry crawl rate limit oraz crawl demand określają crawl budget – liczbę adresów URL, które Googlebot chce i może zaindeksować w danej witrynie.
Czy można zwiększyć crawl budget?
Dbając o swój serwis i jego strukturę można wspomóc indeksowanie. Do czynników, które mogą obniżać crawl budget, należą:
- Adresy URL zawierające parametry sesji, powstałe po filtrowaniu produktów,
- Wewnętrzna duplikacja treści,
- Nieistniejące strony 404,
- Podstrony, które zostały zhakowane,
- Spam i niskiej jakości treści w serwisie.
Kto powinien obawiać się o niski crawl budget?
Gary Illyes uspokaja, że większość właścicieli domen nie musi martwić się o powolne indeksowanie strony. Małe i średnie serwisy nie obejmie limit liczby zaindeksowanych podstron. Problem z crawl budget może natomiast pojawić się w przypadku stron zawierających więcej niż kilka tysięcy adresów URL (!). Jeśli więc prowadzisz małą witrynę, powinna być ona bardzo sprawnie indeksowana przez cały czas.