Konsolidacja duplikatów adresów URL

Jeśli masz 1 stronę, którą można otworzyć przy użyciu wielu adresów URL, lub wiele stron o podobnej treści (na przykład stronę w wersji na komputery i urządzenia mobilne), dla robota Google będą to zduplikowane wersje tej samej strony. Nasz robot wybierze 1 adres URL jako wersję kanoniczną i go zindeksuje. Wszystkie pozostałe adresy URL będą traktowane jako duplikaty, które są rzadziej indeksowane.

Jeśli wyraźnie nie określisz, który adres URL jest kanoniczny, Google wybierze adres za Ciebie albo uzna oba adresy za równorzędne, co może prowadzić do niepożądanych efektów, które opisujemy w sekcji Dlaczego warto wybrać kanoniczny adres URL?.

Jak Googlebot indeksuje i wybiera kanoniczny URL

Gdy Googlebot indeksuje witrynę, próbuje określić główny rodzaj treści na każdej stronie. Jeśli znajdzie w witrynie wiele stron i uzna, że są takie same, wybiera tę, która wyda mu się najpełniejsza i najbardziej przydatna – i ją oznacza jako kanoniczną. Strona kanoniczna będzie odtąd indeksowana najczęściej, a jej duplikaty z mniejszą częstotliwością, aby ograniczyć obciążenie witryny indeksowaniem.

Google wybiera strony kanoniczne na podstawie wielu czynników (lub sygnałów), takich jak to, czy strona jest wyświetlana przez HTTP lub HTTPS. Takim sygnałem może też być na przykład jakość strony, obecność adresu URL w mapie witryny czy etykieta rel=canonical. Korzystając z tych metod, możesz wskazać Google swoje preferencje, chociaż Google może wybrać jako kanoniczną inną stronę (z wielu powodów).

Różne wersje językowe pojedynczej strony są uważane za duplikaty tylko wtedy, gdy główna treść jest w tym samym języku (to znaczy, jeśli przetłumaczone są tylko nagłówek, stopka i inne mniej istotne fragmenty tekstu, ale główna treść pozostaje taka sama, to strony są uważane za duplikaty).

Google wykorzystuje strony kanoniczne jako główne źródło oceny treści i jakości. W wynikach wyszukiwania najczęściej wyświetlane są strony kanoniczne, chyba że w danej sytuacji bardziej odpowiedni dla użytkownika jest któryś z duplikatów. Na przykład jeśli użytkownik korzysta z komórki, w wynikach wyszukiwania najprawdopodobniej pojawi się strona mobilna – nawet gdy jako kanoniczna została wskazana strona na komputery.

Praktyczne powody używania podobnych lub zduplikowanych stron

Istnieją praktyczne powody, dla których witryna może mieć różne adresy URL prowadzące do 1 strony albo do powtórzonych bądź bardzo podobnych stron. Oto najczęstsze z nich:

  • Aby obsługiwać wiele typów urządzeń:
    https://example.com/news/koala-rampage
    https://m.example.com/news/koala-rampage
    https://amp.example.com/news/koala-rampage
  • Aby stosować dynamiczne adresy URL na potrzeby parametrów wyszukiwania lub identyfikatorów sesji:
    https://www.example.com/products?category=dresses&color=green
    https://example.com/dresses/cocktail?gclid=ABCD
    https://www.example.com/dresses/green/greendress.html
  • Jeśli system bloga automatycznie zapisuje różne adresy URL, gdy umieścisz tego samego posta w różnych sekcjach:
    https://blog.example.com/dresses/green-dresses-are-awesome/
    https://blog.example.com/green-things/green-dresses-are-awesome/
  • Jeśli serwer jest tak skonfigurowany, aby wyświetlać te same treści na stronach www i innych niż www albo http i https:
    http://example.com/green-dresses
    https://example.com/green-dresses
    http://www.example.com/green-dresses
    
  • Jeśli treści umieszczone na blogu w celu redystrybucji w innych witrynach są w nich powielane częściowo lub w całości:
    https://news.example.com/green-dresses-for-every-day-155672.html (post po redystrybucji) https://blog.example.com/dresses/green-dresses-are-awesome/3245/ (oryginalny post).

Dlaczego warto wybrać kanoniczny adres URL?

Istnieje wiele powodów, dla których spośród zbioru stron powtórzonych i podobnych warto wyraźnie wybrać stronę kanoniczną:

  • Aby określić adres URL, który ma być widoczny w wynikach wyszukiwania. Możesz skonfigurować witrynę tak, aby użytkownicy trafiali na stronę produktu, którym jest zielona sukienka, znajdującą się pod adresem https://www.example.com/dresses/green/greendress.html, a nie https://example.com/dresses/cocktail?gclid=ABCD.
  • Aby skonsolidować sygnały linków do podobnych lub zduplikowanych stron. Możliwość konsolidowania informacji o poszczególnych adresach URL (np. linków, które do nich prowadzą) w jednym preferowanym adresie URL upraszcza działanie wyszukiwarek. Oznacza to, że linki z innych witryn do strony http://example.com/dresses/cocktail?gclid=ABCD zostaną skonsolidowane z linkami do strony https://www.example.com/dresses/green/greendress.html.
  • Aby uprościć śledzenie danych w przypadku pojedynczego produktu lub tematu. W przypadku dużej liczby różnych adresów URL trudniej jest uzyskać skonsolidowane dane dla poszczególnych fragmentów treści.
  • Aby zarządzać materiałami redystrybuowanymi. Jeśli redystrybuujesz treści do publikacji w innych domenach, warto zadbać o to, aby w wynikach wyszukiwania pojawiał się preferowany URL.
  • Aby nie tracić czasu na indeksowanie duplikatów stron. Googlebot powinien skupić się na jak najdokładniejszym monitorowaniu treści w Twojej witrynie, lepiej więc, żeby indeksował nowe lub zaktualizowane strony, a nie różne ich wersje na komputery i komórki.

Sprawdzanie, którą stronę Google uznaje za kanoniczną

Użyj narzędzia do sprawdzania adresów URL, aby sprawdzić, które strony Google uznaje za kanoniczne.

Określanie strony kanonicznej

Aby określić kanoniczny adres URL duplikatów adresów URL lub podobnych stron, wybierz jedną z poniższych metod. Pamiętaj, aby przestrzegać ogólnych wytycznych.

Metoda i opis
Tag rel=canonical <link>

Dodaj wskazujący stronę kanoniczną tag <link> w kodzie wszystkich zduplikowanych stron.

Zalety:
  • Pozwala zmapować nieskończoną liczbę zduplikowanych stron.

Wady:

  • Może zwiększyć rozmiar strony.
  • Mapowanie może stać się zbyt skomplikowane w większych witrynach lub tam, gdzie adresy URL często się zmieniają.
  • Działa tylko w przypadku stron HTML i nie działa w przypadku plików, np. PDF. Możesz wtedy użyć nagłówka HTTP rel=canonical.
Nagłówek HTTP rel=canonical

Umieść nagłówek rel=canonical w odpowiedzi dla Googlebota.

Zalety:

  • Nie zwiększa rozmiaru strony.
  • Pozwala zmapować nieskończoną liczbę zduplikowanych stron.

Wady:

  • Mapowanie może stać się zbyt skomplikowane w większych witrynach lub tam, gdzie adresy URL często się zmieniają.
Mapa witryny

Określ strony kanoniczne w mapie witryny.

Zalety:

  • Łatwa do stosowania i utrzymywania, zwłaszcza w przypadku dużych witryn.

Wady:

  • Googlebot nadal musi określić duplikaty powiązane ze stronami kanonicznymi zadeklarowanymi w mapie witryny.
  • Mniej wyraźny sygnał dla Googlebota niż technika mapowania rel=canonical.
Przekierowanie 301 Użyj przekierowań 301, aby poinformować Googlebota, że adres URL przekierowania jest lepszą wersją niż adres analizowany. Używaj tej metody tylko wtedy, gdy wycofujesz duplikat strony.
Wersja AMP Jeśli 1 z wersji strony jest stroną AMP, postępuj zgodnie ze wskazówkami dotyczącymi standardu AMP, aby wskazać stronę kanoniczną i jej wersję AMP.

Ogólne wskazówki

Niezależnie od tego, którą metodę wskazywania strony kanonicznej wybierzesz, przestrzegaj tych wytycznych:

  • Do wyboru strony kanonicznej nie używaj pliku robots.txt.
  • Nie wybieraj strony kanonicznej przy użyciu narzędzia do usuwania adresów URL – usunie ono wszystkie wersje adresu URL z wyszukiwania.
  • Nie określaj różnych adresów URL jako kanonicznych dla tej samej strony – nie korzystaj w tym celu ani z tej samej metody wyboru strony kanonicznej, ani z różnych metod (np. nie określaj jednego adresu URL w mapie witryny, a innego dla tej samej strony przy użyciu atrybutu rel="canonical").
  • Nie używaj tagu noindex do blokowania wyboru strony kanonicznej. Ten tag służy do wykluczania strony z indeksu, a nie do zarządzania wyborem strony kanonicznej.
  • Określ stronę kanoniczną, jeśli używasz tagów z atrybutem hreflang. Wskaż stronę kanoniczną w tym samym języku lub w najbliższym języku zastępczym, jeśli nie istnieje ona w danym języku.

  • Określ kanoniczny adres URL jako docelowy, gdy linkujesz wewnątrz strony (nie używaj duplikatów). Spójne wskazywanie tego samego adresu URL, który uważasz za kanoniczny, pomaga Google odczytać Twoje preferencje.

Pierwszeństwo protokołu HTTPS przed HTTP w URL-ach kanonicznych

Jako kanoniczne Google woli określać strony HTTPS, a nie równoważne strony HTTP, poza sytuacjami, w których – jak w poniższych przykładach – występują problemy lub sygnały wzajemnie się wykluczające:

  • Strona HTTPS ma nieprawidłowy certyfikat SSL.
  • Strona HTTPS zawiera niezabezpieczone zależności (inne niż obrazy).
  • Strona HTTPS przekierowuje użytkowników do strony HTTP lub przez taką stronę.
  • Strona HTTPS zawiera link rel="canonical" do strony HTTP.

Chociaż nasze systemy domyślnie wybierają strony HTTPS zamiast stron HTTP, możesz zdecydować, by robiły tak zawsze. W tym celu wykonaj 1 z tych czynności:

  • Dodaj przekierowania ze strony HTTP do strony HTTPS.
  • Dodaj link rel="canonical" ze strony HTTP do strony HTTPS.
  • Zaimplementuj HSTS.

Aby zapobiec nieprawidłowemu interpretowaniu przez Google strony HTTP jako kanonicznej, unikaj tych praktyk:

  • Użycie nieprawidłowych certyfikatów TLS/SSL i przekierowań HTTPS do HTTP, ponieważ powodują one, że Google zdecydowanie preferuje HTTP. Wykorzystanie mechanizmu HSTS nie umożliwia obejścia określonego w ten sposób wysokiego priorytetu strony.
  • Dodanie strony w wersji HTTP zamiast HTTPS do mapy witryny lub wpisów hreflang.
  • Użycie własnego certyfikatu SSL/TLS do złego wariantu hosta, np. adresu example.com wyświetlającego certyfikat adresu www.example.com. Certyfikat musi pasować do pełnego adresu URL witryny lub być certyfikatem typu Wildcard, którego można używać w odniesieniu do wielu subdomen domeny.

Tylko dla zaawansowanych użytkowników: wskazywanie, że Googlebot ma ignorować parametry dynamiczne

Aby poinformować Googlebota o wszelkich parametrach, które ma ignorować podczas indeksowania, skorzystaj z obsługi parametrów. Ignorowanie niektórych parametrów może pomóc wyeliminować powielone treści w indeksie Google i ułatwić pobieranie witryny do zindeksowania. Jeśli na przykład określisz, że parametr sessionid ma być ignorowany, Googlebot będzie traktować 2 poniższe adresy jako duplikaty:

  • https://www.example.com/dresses/green.php?sessionid=273749
  • https://www.example.com/dresses/green.php

Aby wskazać, że dana strona jest duplikatem innej strony, możesz użyć tagu <link> w sekcji head strony HTML.

Załóżmy, że chcesz określić adres https://example.com/dresses/green-dresses jako kanoniczny URL, nawet wtedy, gdy do tej samej treści prowadzą także inne adresy URL. Aby go oznaczyć jako kanoniczny, wykonaj te czynności:

  1. Oznacz wszystkie duplikaty stron elementem link rel="canonical".

    Dodaj element <link> z atrybutem rel="canonical" do sekcji <head> duplikatów stron, aby wskazać stronę kanoniczną, np.:

    <link rel="canonical" href="https://example.com/dresses/green-dresses" />
  2. Jeśli strona kanoniczna ma wersję na komórki, dodaj do niej link rel="alternate" prowadzący do jej wersji mobilnej:
    <link rel="alternate" media="only screen and (max-width: 640px)"  href="http://m.example.com/dresses/green-dresses">
  3. Dodaj dowolny parametr hreflang lub inne przekierowania odpowiednie dla strony.

Używanie nagłówka HTTP rel="canonical"

Jeśli możesz skonfigurować serwer, możesz użyć nagłówków HTTP rel="canonical" (zamiast tagów HTML) do wskazania kanonicznego adresu URL dokumentu obsługiwanego przez wyszukiwarkę, w tym dokumentów w formacie innym niż HTML.

Jeśli na przykład udostępniasz plik PDF przy użyciu wielu adresów URL, możesz zwrócić nagłówek HTTP rel="canonical", aby poinformować Googlebota, jaki jest adres kanoniczny tego pliku:

Link: <http://www.example.com/downloads/white-paper.pdf>; rel="canonical"

Obecnie Google obsługuje tę metodę tylko w odniesieniu do wyników wyszukiwania w internecie.

Używanie mapy witryny

Wybierz kanoniczne adresy URL wszystkich stron i prześlij je w mapie witryny. Wszystkie strony wymienione w mapie witryny są proponowane jako kanoniczne. Na podstawie podobieństwa ich zawartości Googlebot decyduje, które z nich ewentualnie są duplikatami.

Nie gwarantujemy, że uznamy adresy URL z mapy witryny za kanoniczne, ale jest to prosty sposób na definiowanie adresów kanonicznych w przypadku dużych witryn. Poza tym mapy witryn pozwalają informować Google o tym, które strony są według Ciebie najważniejsze w witrynie.

Nie uwzględniaj w mapie witryny stron niekanonicznych. Jeśli używasz mapy witryny, określ w niej tylko kanoniczne adresy URL.

Używanie przekierowań 301 w przypadku wycofanych adresów URL

Skorzystaj z tej metody, jeśli chcesz się pozbyć istniejących duplikatów stron, ale nie możesz pozwolić sobie na to, aby pojawiły się problemy związane z wycofaniem starych adresów.

Powiedzmy, że na Twoją stronę można wejść przy użyciu tych adresów:

  • https://example.com/home
  • https://home.example.com
  • https://www.example.com

Wybierz 1 z tych adresów jako kanoniczny adres URL i użyj przekierowań 301, aby przekierować na niego ruch z pozostałych adresów. Przekierowanie 301 po stronie serwera to najlepszy sposób, aby mieć pewność, że zarówno użytkownicy, jak i wyszukiwarki trafią na właściwą stronę. Kod stanu 301 oznacza, że strona została na stałe przeniesiona do innej lokalizacji.

Jeśli korzystasz z usługi hostingowej, zapoznaj się z jej dokumentacją, aby dowiedzieć się, jak skonfigurować przekierowania 301.

Rozwiązywanie problemów

Jeśli kanoniczny URL znajduje się w usłudze, która nie należy do Ciebie, nie będziesz widzieć ruchu związanego z duplikatem strony. Oto kilka typowych przyczyn, dla których kanoniczny URL może znajdować się w osobnej usłudze:

  • Nieprawidłowo oznaczone wersje językowe: jeśli masz wiele witryn, które zawierają bardzo podobne treści przetłumaczone na potrzeby różnych użytkowników z całego świata, postępuj zgodnie z naszymi wytycznymi dotyczącymi zlokalizowanych witryn.
  • Nieprawidłowe tagi stron kanonicznych: w niektórych systemach zarządzania treścią (CMS) lub wtyczkach CMS techniki konwertowania kanonicznego mogą być niepoprawnie stosowane do wskazywania adresów URL w witrynach zewnętrznych. Sprawdź, czy taka sytuacja ma miejsce na Twoich stronach. Jeśli witryna ma nieoczekiwany kanoniczny URL – być może w wyniku niewłaściwego użycia atrybutu rel="canonical" lub przekierowania 301 – rozwiąż ten problem bezpośrednio.
  • Niepoprawnie skonfigurowane serwery: niektóre błędy w konfiguracji hostingu mogą powodować nieoczekiwany wybór adresu URL z innej domeny, np.:
    • Serwer może być tak skonfigurowany, aby w odpowiedzi na żądanie dotyczące adresu URL w witrynie a.com zwracać treści z witryny b.com.
    • Dwa niezależne serwery internetowe mogą zwracać identyczne strony pozornego błędu 404, których Google nie rozpozna jako strony błędu.
  • Przekierowanie do złośliwego oprogramowania lub spamu: niektóre ataki na witryny polegają na wprowadzeniu kodu zwracającego przekierowanie HTTP 301 albo wstawieniu do nagłówka HTTP lub sekcji <head> w kodzie HTML elementu link z atrybutem rel="canonical", który zwykle wskazuje URL ze złośliwym oprogramowaniem lub spamem w innej domenie. Wówczas nasze algorytmy mogą wybrać fałszywy, zewnętrzny URL zamiast właściwego adresu w zaatakowanej witrynie.
  • Witryna naśladująca („copycat”): w rzadkich sytuacjach nasz algorytm może wybrać URL witryny zewnętrznej, w której bez Twojego pozwolenia umieszczono należącą do Ciebie treść. Jeśli stwierdzisz, że Twoje materiały są powielane w innej witrynie z naruszeniem praw autorskich, skontaktuj się z jej właścicielem i zażądaj ich usunięcia. Możesz też poprosić Google o usunięcie strony, która narusza Twoje prawa, z naszych wyników wyszukiwania. W tym celu prześlij prośbę na mocy ustawy Digital Millennium Copyright Act.