Uproszczenie struktury adresów URL

Struktura adresów URL witryny powinna być jak najprostsza. Warto rozważyć uporządkowanie treści w taki sposób, aby adresy URL były logicznie skonstruowane i czytelne dla użytkowników. Jeśli to możliwe, używaj zrozumiałych słów zamiast długich numerów identyfikacyjnych. Jeśli szukasz na przykład informacji o lotnictwie, URL w postaci pokazanej poniżej z pewnością pomoże Ci zdecydować, czy warto kliknąć link:

http://en.wikipedia.org/wiki/Aviation

Ten adres URL jest znacznie mniej atrakcyjny dla użytkowników:

http://www.example.com/index.php?id_sezione=360&sid=3a5ebc944f41daa6f849f730f1

Zastanów się nad stosowaniem w adresach URL znaków interpunkcyjnych. Adres http://www.example.com/green-dress.html jest dla nas znacznie bardziej przydatny niż http://www.example.com/greendress.html. Zalecamy stosowanie w adresach URL łączników (-) zamiast podkreśleń (_).

Zbyt złożone adresy URL – a szczególnie takie, które zawierają kilka parametrów – mogą sprawiać problemy robotom ze względu na dużą liczbę adresów URL odsyłających do takich samych lub podobnych treści witryny. W związku z tym Googlebot może nadmiernie zmniejszać przepustowość lub mieć problemy z indeksowaniem całej zawartości witryny.

Najczęstsze przyczyny tego problemu

Zbyt duża liczba adresów URL może być wynikiem różnych sytuacji. Oto niektóre z nich:

  • Addytywne filtrowanie zbioru elementów. Wiele witryn wyświetla ten sam zbiór elementów lub wyników wyszukiwania na kilka różnych sposobów, pozwalając użytkownikowi filtrować wyświetlane elementy w zależności od wybranych kryteriów (na przykład: pokaż mi hotele na plaży). Jeśli witryna dopuszcza addytywne łączenie filtrów (przykład: hotele na plaży z centrum fitness), liczba adresów URL (widoków danych) w witrynie rośnie lawinowo. Tworzenie dużej liczby nieznacznie zmodyfikowanych list hoteli jest niepotrzebne, bo Googlebotowi wystarczy niewielka liczba list, na podstawie których będzie w stanie dotrzeć do strony każdego hotelu. Na przykład:
    • Zwracanie listy wszystkich tanich hoteli:
      http://www.example.com/hotel-search-results.jsp?Ne=292&N=461
    • Zwracanie listy wszystkich tanich hoteli na plaży:
      http://www.example.com/hotel-search-results.jsp?Ne=292&N=461+4294967240
    • Zwracanie listy wszystkich tanich hoteli na plaży z centrum fitness:
      http://www.example.com/hotel-search-results.jsp?Ne=292&N=461+4294967240+4294967270
  • Dynamiczne generowanie dokumentów. Może to prowadzić do nieznacznych zmian w zależności od liczników, sygnatur czasowych lub reklam.
  • Problematyczne parametry w adresach URL. Identyfikatory sesji mogą na przykład prowadzić do tworzenia ogromnej liczby duplikatów stron i zwiększenia liczby adresów URL.
  • Parametry sortowania. Witryny niektórych dużych sklepów internetowych pozwalają sortować te same towary na wiele sposobów, co prowadzi do powstania bardzo dużej liczby adresów URL. Na przykład:
    http://www.example.com/results?search_type=search_videos&search_query=tpb&search_sort=relevance&search_category=25
  • Nieistotne parametry w adresach URL, określające na przykład, z jakiej witryny pochodzi dany użytkownik. Na przykład:
    http://www.example.com/search/noheaders?click=6EE2BF1AF6A3D705D5561B7C3564D9C2&clickPage=OPD+Product+Page&cat=79
    http://www.example.com/discuss/showthread.php?referrerid=249406&threadid=535913
    http://www.example.com/products/products.asp?N=200063&Ne=500955&ref=foo%2Cbar&Cn=Accessories.
  • Problemy związane z kalendarzami. Kalendarz generowany dynamicznie może zawierać linki do przyszłych i wcześniejszych dat bez żadnych ograniczeń. Na przykład:
    http://www.example.com/calendar.php?d=13&m=8&y=2011
    http://www.example.com/calendar/cgi?2008&month=jan
  • Niedziałające linki względne. Niedziałające linki względne mogą powodować tworzenie nieskończenie dużej przestrzeni. Przyczyną tego problemu są często powtarzające się fragmenty ścieżek. Na przykład:
    http://www.example.com/index.shtml/discuss/category/school/061121/html/interview/category/health/070223/html/category/business/070302/html/category/community/070413/html/FAQ.htm

Rozwiązanie problemu

Aby uniknąć potencjalnych problemów ze strukturą adresów URL, zalecamy podjęcie tych działań:

  • Rozważ użycie pliku robots.txt, aby zablokować dostęp Googlebota do problematycznych adresów URL. Zazwyczaj blokuje się dynamiczne adresy URL, takie jak adresy generujące wyniki wyszukiwania oraz adresy tworzące nieskończenie dużą przestrzeń do indeksowania (np. kalendarze). Użycie w pliku robots.txt wyrażeń regularnych pozwala łatwo zablokować dużą liczbę adresów URL.
  • Gdy tylko jest to możliwe, unikaj stosowania identyfikatorów sesji w adresach URL. Możesz je zastąpić plikami cookie. Więcej informacji na ten temat znajdziesz we wskazówkach dla webmasterów.
  • Zawsze, gdy jest to możliwe, skracaj adresy URL, usuwając niepotrzebne parametry.
  • Jeśli witryna ma kalendarz bez daty końcowej, dodaj do linków tworzących kolejne strony kalendarza atrybut nofollow.
  • Sprawdź, czy w witrynie nie ma niedziałających linków względnych.