Podstrony serwisu, które warto zablokować przed robotami Google

| czas czytania: 5 min | SEO
laptop pozycjonowanie

Zanim serwis pojawi się w wynikach wyszukiwania, zostaje zaindeksowany przez roboty wyszukiwarki. Witryny, które nie znajdują się w indeksie, nie pojawiają się nawet na ostatniej stronie rankingu. Czasami jednak, chociaż chcemy, aby użytkownicy znaleźli nas za pomocą Google, posiadamy w obrębie serwisu podstrony, które Googleboty nie powinny zaindeksować. Co wtedy zrobić? Wystarczy zablokować wybrane zasoby naszej strony przed robotami wyszukiwarki.

Jak zablokować stronę przed indeksacją?

Istnieją dwie metody na wskazanie robotom wyszukiwarki, żeby nie indeksowały wybranych podstron lub zasobów.

Tag meta name=”robots”

W sekcji <HEAD> wybranej podstrony należy wdrożyć tag meta name=”robots” za pomocą komendy:

<meta name=”robots” content=”noindex, nofollow”>

Roboty Google dostaną jasny sygnał, aby nie indeksować danej podstrony.

Plik robots.txt

Można posłużyć się plikiem robots.txt, blokując dostęp do serwisu dla wszystkich lub wybranych robotów indeksujących:

  • User-agent: wpisz nazwy robotów, które nie powinny indeksować strony; *oznacza wszystkie roboty
  • Disallow: wpisz katalogi serwisu lub podstrony, które chcesz wyłączyć z indeksacji

Przy tworzeniu pliku robots.txt trzeba uważać, aby nie zablokować całego serwisu przed robotami wyszukiwarki, po komendzie disallow wpisując /.

Dodatkowo oprócz powyższych sposobów stosuje się tag rel=”canonical” w celu wskazania robotom wyszukiwarki treści, która powinna znaleźć się w wynikach wyszukiwania. Przekierowanie kanoniczne wykorzystuje się na stronach, gdzie występuje filtrowanie lub sortowanie produktów, stronicowanie, kopie treści.

9 typów podstron, które nie powinny znaleźć się w indeksie wyszukiwarki

Kierując się naszym długoletnim doświadczeniem w optymalizacji serwisów internetowych, przygotowaliśmy listę 9 typów podstron, których nie warto indeksować.

Regulamin, polityka prywatności, polityka cookies

Wszelkiego rodzaju dokumenty spełniające obowiązki przedsiębiorcy związane z przepisami prawa najczęściej zawierają zapisy podobne do treści publikowanej przez inne serwisy internetowe. To grozi kopiami treści, więc tego typu zasoby lepiej zablokować przed indeksowaniem przez roboty wyszukiwarki.

Logowanie, rejestracja, odzyskiwanie hasła itp.

Formularze służące do logowania i rejestracji nie powinny znaleźć się w wynikach wyszukiwania, ponieważ ich obecność w wyszukiwarce nie przyniesie żadnej wartości dla użytkownika. Upewnij się, że przyciski na stronie prowadzące do tych funkcjonalności znajdują się w widocznych miejscach, by internauta nie miał problemu z ich znalezieniem.

Koszyk, zamówienie, ulubione produkty, zwroty produktów

To podstrony, które powinny być widoczne tylko dla użytkowników składających zamówienie. Nie warto, aby treść podstron trafiła do rankingu wyszukiwarki.

Wyniki wyszukiwania z wewnętrznej wyszukiwarki

Wewnętrzna wyszukiwarka pozwala użytkownikowi zdecydowanie szybkiej dotrzeć do treści lub produktów, które go interesują. Jednak przygotowana w oparciu o wpisane hasło lista wyników tworzy wewnętrzną duplikację treści (np. opisy produktów lub fragmenty artykułów pobierane są z odpowiednich podstron), co wpływa niekorzystnie na ocenę serwisu przez wyszukiwarkę Google. Tego typu podstrony źle wyglądają w wynikach wyszukiwania.

Treści z kopiami strony lub podstrony bez contentu

Jeśli w Twoim serwisie znajdują się podstrony z kopiami treści, których nie możesz usunąć lub przeredagować (np. ze względów prawnych), korzystając z komendy meta name=”robots” lub pliku robots.txt, zablokuj je przed indeksacją. Jeśli tego nie zrobisz, prawdopodobnie ucierpi pozycja strony w wynikach wyszukiwania. Nie warto także zapraszać użytkowników na puste podstrony, więc tego typu zasoby również najlepiej wyideksować.

Dedykowane podstrony dla grafik

Część systemów CMS lub wtyczek służących do tworzenia galerii obrazów tworzy odrębne podstrony dla każdej grafiki. W rezultacie wyszukiwarka widzi pustą stronę, na której być może znajdą się słowa z atrybutu „alt” (opisu obrazka). Takie zasoby musimy również zablokować przed wyszukiwarką.

Nieprawidłowo zoptymalizowane tagi, archiwa dat generowane automatycznie przez CMS

Tagowanie artykułów może wzmacniać linkowanie wewnętrzne i ułatwiać użytkownikowi znalezienie tekstów o interesującej go tematyce, ale nieodpowiednio wdrożone będzie szkodziło optymalizacji, powodując kopie treści. Podobnie dzieje się w przypadku archiwum dat lub archiwum kategorii, które są generowane automatycznie przez niektóre systemy CMS, np. WordPress. Wszystkie tego typu podstrony należy wyindeksować, aby nie utrudniały w osiąganiu wysokich pozycji w wyszukiwarce.

Stronicowanie nieprawidłowo zoptymalizowane pod SEO

Paginacja, czyli podzielenie treści na kolejne podstrony serwisu (najczęściej stosowana w przypadku listy produktów, artykułów, długich tekstów blogowych) ma wiele plusów, m.in. pozwala na szybsze wczytywanie się strony. Jednak aby działała poprawnie i nie szkodziła SEO, należy wdrożyć znaczniki rel=”prev” i rel=”next” lub przekierowania kanoniczne. Czasami wdrożenie takiego rozwiązania nie jest możliwe i wtedy konieczne staje się wyindeksowanie stronicowanych podstron.

Filtrowanie, sortowanie, zmiana widoku listy

Jeśli na podstronach, na których zmienia się jedynie układ treści, nie ma możliwości ustawienia tagu canonical, koniecznie trzeba je zablokować przed indeksacją. W tym przypadku polecamy użycie meta name=”robots” ustawionych w sekcji <HEAD >.

Przy blokowaniu wybranych podstron uważaj, aby nie zablokować całego serwisu!

Systemy CMS i wtyczki pozwalają z poziomu panelu administracyjnego zablokować stronę przed robotami wyszukiwarki za pomocą jednego kliknięcia. Zanim to zrobisz, uważnie przeczytaj, co ustawiasz – może się zdarzyć, że pole, które chcesz zaznaczyć, wyindeksuje cały serwis z wyników wyszukiwania. Wtedy cała witryna zostanie usunięta z indeksu Google, a Ty nie będziesz miał szansy dotarcia do użytkowników w wyszukiwarce.