Sprawdzone metody tworzenia struktury adresów URL dla Google

Google obsługuje adresy URL zdefiniowane w normie RFC 3986. Znaki określone przez standard jako zarezerwowane muszą być zakodowane za pomocą procentów. Niezastrzeżone znaki ASCII mogą być w formie niezakodowanej. Dodatkowo znaki spoza zakresu ASCII powinny być zakodowane w formacie UTF-8.

W miarę możliwości używaj w adresach URL czytelnych słów zamiast długich numerów identyfikacyjnych.

Zalecane – proste, opisowe słowa w adresie URL:

https://en.wikipedia.org/wiki/Aviation

Zalecane – zlokalizowane słowa w adresie URL (jeśli występują).

https://www.example.com/lebensmittel/pfefferminz

Zalecane – w razie potrzeby użyj kodowania UTF-8. Poniższy przykład pokazuje użycie kodowania UTF-8 w przypadku arabskich znaków w adresie URL:

https://www.example.com/%D9%86%D8%B9%D9%86%D8%A7%D8%B9/%D8%A8%D9%82%D8%A7%D9%84%D8%A9

W tym przykładzie użyto w adresie URL kodowania UTF-8 dla chińskich znaków:

https://example.com/%E6%9D%82%E8%B4%A7/%E8%96%84%E8%8D%B7

W poniższym przykładzie użyto kodowania UTF-8 dla umlautu w adresie URL:

https://www.example.com/gem%C3%BCse

W tym przykładzie użyto kodowania UTF-8 dla emotikonów w adresie URL:

https://example.com/%F0%9F%A6%99%E2%9C%A8

Niezalecane: użycie w adresie URL znaków innych niż ASCII:

https://www.example.com/نعناع
https://www.example.com/杂货/薄荷
https://www.example.com/gemüse
https://www.example.com/🦙✨

Niezalecane – nieczytelne, długie numery identyfikacyjne w adresie URL:

https://www.example.com/index.php?id_sezione=360&sid=3a5ebc944f41daa6f849f730f1

Jeśli Twoja witryna działa w wielu regionach, zastanów się nad strukturą adresów URL, która ułatwi kierowanie geograficzne witryny. Więcej przykładów użycia struktury adresów URL znajdziesz w artykule o używaniu adresów URL przeznaczonych dla określonych lokalizacji.

Zalecane – domena krajowa:

https://example.de

Zalecane – podkatalog dla kraju z domeną gTLD:

https://example.com/de/

Rozważ użycie łączników do rozdzielenia poszczególnych słów w adresach URL. Ułatwia to użytkownikom i wyszukiwarkom znajdowanie pojęć w adresie URL. Zalecamy stosowanie w adresach URL łączników (-) zamiast podkreśleń (_).

Zalecane – łączniki (-):

https://www.example.com/summer-clothing/filter?color-profile=dark-grey

Niezalecane – podkreślenia (_):

https://www.example.com/summer_clothing/filter?color_profile=dark_grey

Niezalecane – połączone słowa kluczowe w adresie URL:

https://www.example.com/greendress

Typowe problemy z adresami URL

Zbyt złożone adresy URL – a szczególnie takie, które zawierają kilka parametrów – mogą sprawiać problemy robotom ze względu na dużą liczbę adresów URL odsyłających do takich samych lub podobnych treści witryny. W związku z tym Googlebot może nadmiernie zmniejszać przepustowość lub mieć problemy z indeksowaniem całej zawartości witryny.

Zbyt duża liczba adresów URL może być wynikiem różnych sytuacji. Oto niektóre z nich:

  • Addytywne filtrowanie zbioru elementów. Wiele witryn wyświetla ten sam zbiór elementów lub wyników wyszukiwania na kilka różnych sposobów, pozwalając użytkownikowi filtrować wyświetlane elementy w zależności od wybranych kryteriów (na przykład: pokaż mi hotele na plaży). Jeśli witryna dopuszcza addytywne łączenie filtrów (przykład: hotele na plaży z centrum fitness), liczba adresów URL (widoków danych) w witrynie rośnie lawinowo. Tworzenie dużej liczby nieznacznie zmodyfikowanych list hoteli jest niepotrzebne, bo Googlebotowi wystarczy niewielka liczba list, na podstawie których będzie w stanie dotrzeć do strony każdego hotelu. Na przykład:
    • Zwracanie listy wszystkich tanich hoteli:
      https://www.example.com/hotel-search-results.jsp?Ne=292&N=461
    • Zwracanie listy wszystkich tanich hoteli na plaży:
      https://www.example.com/hotel-search-results.jsp?Ne=292&N=461+4294967240
    • Zwracanie listy wszystkich tanich hoteli na plaży z centrum fitness:
      https://www.example.com/hotel-search-results.jsp?Ne=292&N=461+4294967240+4294967270
  • Dynamiczne generowanie dokumentów. Może to prowadzić do nieznacznych zmian w zależności od liczników, sygnatur czasowych lub reklam.
  • Problematyczne parametry w adresach URL. Identyfikatory sesji mogą na przykład prowadzić do tworzenia ogromnej liczby duplikatów stron i zwiększenia liczby adresów URL.
  • Parametry sortowania. Witryny niektórych dużych sklepów internetowych pozwalają sortować te same towary na wiele sposobów, co prowadzi do powstania bardzo dużej liczby adresów URL. Na przykład:
    https://www.example.com/results?search_type=search_videos&search_query=tpb&search_sort=relevance&search_category=25
  • Nieistotne parametry w adresach URL, określające na przykład, z jakiej witryny pochodzi dany użytkownik. Na przykład:
    https://www.example.com/search/noheaders?click=6EE2BF1AF6A3D705D5561B7C3564D9C2&clickPage=OPD+Product+Page&cat=79
    https://www.example.com/discuss/showthread.php?referrerid=249406&threadid=535913
    https://www.example.com/products/products.asp?N=200063&Ne=500955&ref=foo%2Cbar&Cn=Accessories.
  • Problemy związane z kalendarzami. Kalendarz generowany dynamicznie może zawierać linki do przyszłych i wcześniejszych dat bez żadnych ograniczeń. Na przykład:
    https://www.example.com/calendar.php?d=13&m=8&y=2011
  • Niedziałające linki względne. Niedziałające linki względne mogą powodować tworzenie nieskończenie dużej przestrzeni. Przyczyną tego problemu są często powtarzające się fragmenty ścieżek. Na przykład:
    https://www.example.com/index.shtml/discuss/category/school/061121/html/interview/category/health/070223/html/category/business/070302/html/category/community/070413/html/FAQ.htm

Rozwiązywanie problemów z adresami URL

Aby uniknąć potencjalnych problemów ze strukturą adresów URL, zalecamy podjęcie tych działań:

  • Utwórz prostą strukturę adresów URL. Warto rozważyć uporządkowanie treści w taki sposób, aby adresy URL były logicznie skonstruowane i czytelne dla użytkowników.
  • Rozważ użycie pliku robots.txt, aby zablokować dostęp Googlebota do problematycznych adresów URL. Zazwyczaj blokuje się dynamiczne adresy URL, takie jak adresy generujące wyniki wyszukiwania oraz adresy tworzące nieskończenie dużą przestrzeń do indeksowania (np. kalendarze). Użycie w pliku robots.txt wyrażeń regularnych pozwala łatwo zablokować dużą liczbę adresów URL.
  • Gdy tylko jest to możliwe, unikaj stosowania identyfikatorów sesji w adresach URL. Możesz je zastąpić plikami cookie.
  • Jeśli serwer WWW nie rozróżnia wielkich i małych liter w adresie URL, zastosuj w całym tekście litery tej samej wielkości. Ułatwi to Google ustalenie, czy adresy URL wskazują tę samą stronę.
  • Zawsze, gdy jest to możliwe, skracaj adresy URL, usuwając niepotrzebne parametry.
  • Jeśli witryna ma kalendarz bez daty końcowej, dodaj do linków tworzących kolejne strony kalendarza atrybut nofollow.
  • Sprawdź, czy w witrynie nie ma niedziałających linków względnych.