Việc chuẩn hoá URL của các trang trùng lặp và việc sử dụng thẻ chính tắc

Nếu bạn có một trang cho phép truy cập qua nhiều URL hoặc nhiều trang có nội dung tương tự nhau (ví dụ: một trang có cả phiên bản dành cho thiết bị di động và phiên bản dành cho máy tính), thì Google sẽ xem những trang như vậy là phiên bản trùng lặp của cùng một trang. Google sẽ chọn một URL làm phiên bản chính tắc và thu thập dữ liệu của URL đó, đồng thời coi những URL còn lại là URL trùng lặp và không thường xuyên thu thập dữ liệu của những URL đó.

Nếu bạn không nêu rõ cho Google biết đâu là URL chính tắc, thì Google sẽ tự chọn URL chính tắc cho bạn hoặc có thể coi những trang này có tầm quan trọng như nhau. Điều này có thể dẫn đến những hành vi không mong muốn như nêu dưới đây, trong phần Lý do nên chọn một URL chính tắc.

Tài liệu này giải thích cách thức hoạt động của quá trình chuẩn hoá URL trong Google Tìm kiếm, liệu bạn có cần chỉ định URL chính tắc hay không và cách cho Google biết lựa chọn ưu tiên của bạn.

URL chính tắc là gì?

URL chính tắc là URL của trang mà Google đánh giá là tiêu biểu nhất trong số những trang trùng lặp trên trang web của bạn. Ví dụ: Nếu bạn dùng nhiều URL cho cùng một trang (example.com?dress=1234example.com/dresses/1234), thì Google sẽ chọn một trong số đó làm URL chính tắc.

Những trang này không nhất thiết phải giống hệt nhau. Trang chỉ có thay đổi nhỏ về cách sắp xếp hay lọc danh sách sẽ không được coi là trang độc nhất (ví dụ: sắp xếp thứ tự theo giá bán hoặc lọc theo màu của sản phẩm). URL chính tắc có thể không cùng miền với một URL trùng lặp nào đó.

Cách Google lập chỉ mục và chọn URL chính tắc

Khi lập chỉ mục một trang web, Google luôn cố gắng xác định nội dung chính trên mỗi trang. Nếu tìm thấy nhiều trang có vẻ giống nhau trên cùng một trang web, Google sẽ chọn trang mà Google cho là hoàn chỉnh và hữu ích nhất rồi đánh dấu trang đó là trang chính tắc. Trang chính tắc sẽ được thu thập dữ liệu thường xuyên nhất. Các trang trùng lặp sẽ ít được thu thập dữ liệu hơn để giảm tải cho quá trình thu thập dữ liệu trên trang web của bạn.

Google chọn trang chính tắc dựa trên một số yếu tố (hay tín hiệu), chẳng hạn như việc trang được phân phối qua HTTP hay HTTPS, chất lượng của trang, URL có trong sơ đồ trang web hay không và trang có nhãn rel=canonical hay không. Bạn có thể dùng những kỹ thuật này để cho Google biết trang chính tắc mà bạn muốn chọn, nhưng Google có thể chọn một trang khác làm trang chính tắc vì nhiều lý do.

Nếu một trang có nhiều phiên bản ngôn ngữ, thì các phiên bản được coi là trùng lặp chỉ khi nội dung chính vẫn sử dụng cùng một ngôn ngữ (nghĩa là nếu chỉ có phần đầu trang, chân trang và những văn bản không quan trọng khác được dịch ra còn phần nội dung chính vẫn giữ nguyên, thì những trang đó được coi là trùng lặp).

Google dùng trang chính tắc làm cơ sở chính để đánh giá nội dung và chất lượng. Kết quả trên Google Tìm kiếm thường trỏ đến trang chính tắc, trừ trường hợp rõ ràng có một trang trùng lặp phù hợp hơn cho người dùng. Ví dụ: Kết quả tìm kiếm có thể sẽ trỏ đến trang cho thiết bị di động nếu người dùng đang sử dụng thiết bị di động, ngay cả khi trang trên máy tính được đánh dấu là trang chính tắc.

Lý do khiến bạn có các trang tương tự hoặc trùng lặp

Có nhiều lý do xác đáng cho việc trang web của bạn có thể có nhiều URL trỏ đến cùng một trang hoặc có các trang trùng lặp/rất giống nhau tại nhiều URL. Sau đây là những lý do phổ biến nhất:

  • Để hỗ trợ nhiều loại thiết bị:
    https://example.com/news/koala-rampage
    https://m.example.com/news/koala-rampage
    https://amp.example.com/news/koala-rampage
  • Để kích hoạt URL động cho các tính năng như mã phiên hoặc sắp xếp/lọc theo thông số:
    https://www.example.com/products?category=dresses&color=green
    https://example.com/dresses/cocktail?gclid=ABCD
    https://www.example.com/dresses/green/greendress.html
  • Trong trường hợp thống blog của bạn tự động lưu nhiều URL khi bạn đưa một bài đăng vào nhiều mục.
    https://blog.example.com/dresses/green-dresses-are-awesome/
    https://blog.example.com/green-things/green-dresses-are-awesome/
  • Máy chủ của bạn được định cấu hình để phân phối cùng một nội dung cho cả biến thể cổng giao thức http/https có và không có www:
    https://example.com/green-dresses
    https://example.com/green-dresses
    https://www.example.com/green-dresses
    https://example.com:80/green-dresses
    https://example.com:443/green-dresses
  • Miền của các trang web khác sao chép một phần hoặc toàn bộ nội dung bạn cung cấp trên blog để phân phối đến những trang web đó:
    https://news.example.com/green-dresses-for-every-day-155672.html (bài đăng được phân phối) https://blog.example.com/dresses/green-dresses-are-awesome/3245/ (bài đăng gốc)

Lý do nên chọn một URL chính tắc

Bạn nên chỉ định rõ ràng một trang chính tắc trong số các trang trùng lặp hoặc giống nhau vì một số lý do.

  • Để chỉ định URL mà bạn muốn mọi người nhìn thấy trong phần kết quả tìm kiếm. Bạn muốn mọi người truy cập vào trang sản phẩm bán váy màu xanh lục thông qua https://www.example.com/dresses/green/greendress.html thay vì https://example.com/dresses/cocktail?gclid=ABCD.
  • Để hợp nhất tín hiệu liên kết của các trang tương tự hoặc trùng lặp. Cách này giúp các công cụ tìm kiếm hợp nhất thông tin thu thập được qua các URL đơn lẻ (chẳng hạn như các đường liên kết đến những URL đó) thành một URL ưu tiên và duy nhất. Có nghĩa là đường liên kết từ các trang web khác đến https://example.com/dresses/cocktail?gclid=ABCD sẽ hợp nhất với đường liên kết đến https://www.example.com/dresses/green/greendress.html.
  • Để đơn giản hoá việc theo dõi chỉ số cho một sản phẩm/chủ đề. Khi bạn có nhiều URL, việc hợp nhất các chỉ số cho một nội dung cụ thể trở nên khó khăn hơn.
  • Để quản lý nội dung tổng hợp. Nếu tổng hợp và phân phối nội dung để xuất bản trên các miền khác, thì bạn nên đảm bảo URL mình đã chọn xuất hiện trong kết quả tìm kiếm.
  • Để tránh tốn thời gian thu thập dữ liệu trên các trang trùng lặp. Bạn muốn Googlebot thu thập dữ liệu hiệu quả nhất trên trang web của mình, vậy thì Googlebot nên dành thời gian thu thập dữ liệu các trang mới (hoặc vừa cập nhật) trên trang web thay vì thu thập dữ liệu cả phiên bản dành cho máy tính và dành cho thiết bị di động của cùng một trang.

Tìm hiểu xem Google chọn trang nào làm trang chính tắc

Hãy dùng Công cụ kiểm tra URL để tìm hiểu xem Google chọn trang nào làm trang chính tắc. Ngay cả khi bạn đã chỉ định rõ trang chính tắc, có thể Google vẫn chọn một trang khác làm trang chính tắc vì nhiều lý do, chẳng hạn như do hiệu suất hoặc nội dung.

Chỉ định một trang chính tắc

Để chỉ định một URL chính tắc cho các URL trùng lặp hoặc các trang tương tự nhau, hãy chọn một phương pháp trong danh sách sau. Bạn nên dùng một trong những phương pháp sau, nhưng không có phương pháp nào là bắt buộc. Nếu bạn không chỉ định URL chính tắc, chúng tôi sẽ tự xác định phiên bản hoặc URL phù hợp nhất. Ngoài ra, hãy tuân thủ các nguyên tắc chung.

Phương pháp và nội dung mô tả
Thẻ rel=canonical <link>

Thêm một thẻ <link> vào mã lập trình của mọi trang trùng lặp để trỏ đến trang chính tắc.

Ưu điểm:
  • Có thể liên kết vô số trang trùng lặp.

Nhược điểm:

  • Có thể làm tăng kích thước trang.
  • Đối với các trang web lớn hoặc thường xuyên thay đổi URL, việc duy trì hệ thống liên kết có thể sẽ phức tạp.
  • Chỉ áp dụng cho các trang HTML chứ không áp dụng cho tệp (chẳng hạn như PDF). Trong những trường hợp như vậy, bạn có thể dùng tiêu đề HTTP rel=canonical.
Tiêu đề HTTP rel=canonical

Gửi một tiêu đề rel=canonical trong phản hồi trang của bạn.

Ưu điểm:

  • Không làm tăng kích thước trang.
  • Có thể liên kết vô số trang trùng lặp.

Nhược điểm:

  • Đối với các trang web lớn hoặc thường xuyên thay đổi URL, việc duy trì hệ thống liên kết có thể sẽ phức tạp.
Sơ đồ trang web

Chỉ định trang chính tắc của bạn trong sơ đồ trang web.

Ưu điểm:

  • Dễ dàng thực hiện và duy trì, đặc biệt là trên các trang web lớn.

Nhược điểm:

  • Google vẫn phải xác định các phiên bản trùng lặp của mọi trang chính tắc mà bạn khai báo trong sơ đồ trang web.
  • Tín hiệu gửi tới Google sẽ không hữu ích bằng kỹ thuật ánh xạ rel=canonical.
Lệnh chuyển hướng 301 Dùng lệnh chuyển hướng 301 để cho Googlebot biết rằng URL được chuyển hướng là phiên bản tốt hơn so với một URL nào đó. Chỉ sử dụng tính năng này khi ngừng sử dụng một trang trùng lặp.
Phiên bản AMP Nếu bạn có một phiên bản là trang AMP, hãy làm theo nguyên tắc dành cho AMP để chỉ định trang chính tắc và phiên bản AMP.

Nguyên tắc chung

Đối với mọi phương pháp chỉ định phiên bản chính tắc, hãy tuân thủ theo những nguyên tắc chung sau.

  • Không dùng tệp robots.txt để chỉ định phiên bản chính tắc.
  • Không dùng công cụ xoá URL để chỉ định trang chính tắc: công cụ này ẩn mọi phiên bản của một URL khỏi kết quả tìm kiếm.
  • Không chỉ định nhiều URL làm URL chính tắc cho cùng một trang bằng cách dùng một hay nhiều kỹ thuật chuẩn hoá (ví dụ: không chỉ định một URL trong một sơ đồ trang web nhưng lại dùng rel="canonical" để chỉ định một URL khác cho cùng trang đó).
  • Không dùng noindex để ngăn việc lựa chọn trang chính tắc. Quy tắc này dùng để loại trừ trang khỏi chỉ mục chứ không phải để quản lý việc lựa chọn trang chính tắc.
  • Hãy chỉ định trang chính tắc bằng thẻ hreflang Hãy chỉ định trang chính tắc bằng cùng một ngôn ngữ hoặc ngôn ngữ thay thế phù hợp nhất trong trường hợp không có trang chính tắc cho ngôn ngữ đó.

  • Liên kết đến URL chính tắc thay vì đến URL trùng lặp khi thực hiện liên kết trong phạm vi trang web của bạn. Việc duy trì liên kết với URL mà bạn chọn là URL chính tắc sẽ giúp Google biết được lựa chọn ưu tiên của bạn.

Ưu tiên chọn HTTPS thay vì HTTP để làm URL chính tắc

Khi chọn trang chính tắc, Google ưu tiên trang HTTPS hơn trang HTTP, trừ trường hợp có vấn đề hoặc tín hiệu xung đột, ví dụ:

  • Trang HTTPS có một chứng chỉ SSL không hợp lệ.
  • Trang HTTPS chứa yếu tố phụ thuộc không an toàn (ngoài hình ảnh).
  • Trang HTTPS chuyển hướng người dùng đến hoặc qua một trang HTTP.
  • Trang HTTPS có một link rel="canonical" trỏ đến trang HTTP.

Theo mặc định, hệ thống của chúng tôi ưu tiên trang HTTPS hơn trang HTTP. Tuy nhiên, bạn có thể đảm bảo chúng tôi sẽ chọn trang HTTPS bằng cách thực hiện một trong những thao tác sau:

  • Thêm lệnh chuyển hướng từ trang HTTP đến trang HTTPS.
  • Thêm link rel="canonical" từ trang HTTP sang trang HTTPS.
  • Triển khai HSTS.

Để ngăn Google đặt nhầm trang HTTP làm trang chính tắc, hãy tránh những phương pháp sau đây:

  • Tránh các chứng chỉ TLS/SSL không hợp lệ và tránh chuyển hướng HTTPS đến HTTP vì những việc này khiến Google ưu tiên HTTP hơn. Việc triển khai HSTS cũng không thể ngăn sự ưu tiên này.
  • Đưa trang HTTP vào sơ đồ trang web hoặc mục hreflang của bạn thay vì dùng phiên bản HTTPS.
  • Triển khai chứng chỉ SSL/TLS cho biến thể máy chủ không chính xác, ví dụ: example.com phân phối chứng chỉ cho www.example.com. Chứng chỉ phải khớp với URL hoàn chỉnh cho trang web của bạn hoặc phải là chứng chỉ ký tự đại diện có thể dùng được cho nhiều miền con trên cùng một miền.

Thẻ liên kết rel=”canonical” (thẻ chính tắc) là một thẻ được sử dụng trong phần đầu của HTML để cho biết rằng một trang trùng với một trang khác. Để chỉ định một trang là phiên bản trùng lặp của một trang khác, bạn có thể dùng thẻ <link> tại phần head trong mã HTML.

Giả sử bạn muốn chọn https://example.com/dresses/green-dresses làm URL chính tắc, dù có nhiều URL có thể truy cập vào cùng nội dung. Hãy chỉ định URL này làm URL chính tắc qua những bước sau:

  1. Đánh dấu tất cả các trang trùng lặp bằng một thẻ liên kết rel="canonical".

    Thêm phần tử <link> có thuộc tính rel="canonical" vào phần <head> của các trang trùng lặp để trỏ đến trang chính tắc. Ví dụ:

    <link rel="canonical" href="https://example.com/dresses/green-dresses" />
  2. Nếu trang chính tắc có biến thể dành cho thiết bị di động, hãy thêm một link rel="alternate" vào biến thể đó để trỏ đến phiên bản trang dành cho thiết bị di động:
    <link rel="alternate" media="only screen and (max-width: 640px)"  href="https://m.example.com/dresses/green-dresses">
  3. Thêm hreflang bất kỳ hoặc lệnh chuyển hướng khác phù hợp cho trang.

Sử dụng đường dẫn tuyệt đối thay vì đường dẫn tương đối bằng thẻ link rel="canonical".

Ví dụ về cách làm đúng: https://www.example.com/dresses/green/greendress.html

Ví dụ về cách làm không đúng: /dresses/green/greendress.html

Nếu bạn sử dụng JavaScript để thêm thẻ liên kết rel="canonical", hãy nhớ chèn thẻ liên kết chính tắc cho phù hợp.

Dùng tiêu đề HTTP rel="canonical"

Nếu có thể định cấu hình máy chủ thì bạn có thể dùng tiêu đề HTTP rel="canonical" (thay vì thẻ HTML) để chỉ định URL chính tắc cho một tài liệu mà Tìm kiếm hỗ trợ, bao gồm cả những tài liệu không phải HTML như tệp PDF.

Hiện Google chỉ hỗ trợ phương thức này cho các kết quả tìm kiếm trang web.

Nếu cung cấp một tệp PDF thông qua nhiều URL, bạn có thể trả về tiêu đề HTTP rel="canonical" để cho Googlebot biết đâu là URL chính tắc của tệp PDF đó:

Link: <https://www.example.com/downloads/white-paper.pdf>; rel="canonical"

Đề xuất cho tiêu đề HTTP rel="canonical" cũng giống với đề xuất cho thẻ rel="canonical" link. Theo RFC2616, chỉ sử dụng dấu ngoặc kép trong tiêu đề HTTP rel="canonical".

Dùng sơ đồ trang web

Chọn một URL chính tắc cho mỗi trang của bạn rồi gửi những URL đó trong một sơ đồ trang web. Mọi trang có trong sơ đồ trang web đều được đề xuất là trang chính tắc. Google sẽ quyết định trang nào (nếu có) là trang trùng lặp, dựa trên mức độ giống nhau của nội dung.

Chúng tôi không đảm bảo sẽ xem các URL trong sơ đồ trang web là URL chính tắc, nhưng đây là một cách đơn giản để xác định các trang chính tắc cho một trang web lớn. Sơ đồ trang web cũng là một cách hữu ích để cho Google biết đâu là các trang mà bạn coi trọng nhất trên trang web của mình.

Đừng đưa các trang không phải là trang chính tắc vào sơ đồ trang web. Nếu bạn đang dùng sơ đồ trang web, đừng chỉ định những URL không phải URL chính tắc trong sơ đồ đó.

Dùng lệnh chuyển hướng 301 cho các URL đã ngừng hoạt động

Hãy dùng phương pháp này khi bạn muốn loại bỏ các trang trùng lặp hiện có, nhưng cần đảm bảo rằng quá trình di chuyển diễn ra suôn sẻ trước khi bạn ngừng sử dụng các URL cũ.

Giả sử người dùng có thể truy cập trang của bạn qua nhiều URL:

  • https://example.com/home
  • https://home.example.com
  • https://www.example.com

Hãy chọn một trong những URL đó làm URL chính tắc và dùng lệnh chuyển hướng 301 để chuyển lưu lượng truy cập từ những URL khác đến URL mà bạn ưu tiên. Lệnh chuyển hướng 301 phía máy chủ là cách tốt nhất để đảm bảo người dùng và công cụ tìm kiếm được chuyển hướng đến đúng trang. Mã trạng thái 301 có nghĩa là một trang đã được di chuyển vĩnh viễn tới vị trí mới.

Nếu bạn đang dùng dịch vụ lưu trữ trang web, hãy tìm tài liệu hướng dẫn của dịch vụ đó về cách thiết lập lệnh chuyển hướng 301.

Khắc phục sự cố

Nếu một URL chính tắc nằm trong tài sản mà bạn không sở hữu, bạn sẽ không thể thấy lưu lượng truy cập cho trang trùng lặp của bạn. Sau đây là một số lý do phổ biến khiến một trang chính tắc có thể nằm trong một tài sản riêng biệt:

  • Các phiên bản theo ngôn ngữ được đánh dấu không chính xác: Nếu bạn có nhiều trang web phân phát cùng một nội dung đã bản địa hoá cho người dùng trên khắp thế giới, hãy đảm bảo bạn tuân thủ nguyên tắc của chúng tôi đối với các trang web đã bản địa hoá.
  • Không đúng thẻ chính tắc: Một số hệ thống quản lý nội dung (CMS) hoặc trình bổ trợ của CMS có thể dùng sai kỹ thuật chính tắc hoá để trỏ đến URL của trang web bên ngoài. Hãy kiểm tra nội dung của bạn để xem đây có phải là nguyên nhân không. Nếu trang web của bạn chỉ định một URL chính tắc ngoài mong muốn của bạn, thì đây có thể là do bạn dùng rel="canonical" chưa đúng cách hoặc do lệnh chuyển hướng 301. Hãy trực tiếp khắc phục vấn đề đó.
  • Máy chủ bị định cấu hình sai: Một số lỗi về cách định cấu hình máy chủ có thể dẫn đến việc lựa chọn nhầm URL trên miền khác. Ví dụ:
    • Nếu bị định cấu hình không chính xác, máy chủ có thể trả về nội dung trên a.com khi phản hồi một yêu cầu cho URL trên b.com
    • Hai máy chủ web không liên quan đến nhau có thể trả về các trang soft 404 giống hệt nhau mà Google không xác định được là trang lỗi.
  • Bị tấn công bằng mã độc: Một số cuộc tấn công vào các trang web có thể chèn các mã trả về lệnh chuyển hướng 301 hoặc chèn thẻ liên kết rel="canonical" cho nhiều miền vào HTML <head> hay tiêu đề HTTP, thường là trỏ đến một URL lưu trữ nội dung rác/độc hại. Trong những trường hợp như vậy, thuật toán của chúng tôi có thể chọn URL vi phạm/độc hại thay vì chọn URL trên trang web bị tấn công.
  • Trang web sao chép trái phép: Trong một số trường hợp hiếm gặp, thuật toán của chúng tôi có thể chọn URL của một trang web bên ngoài đang lưu trữ trái phép nội dung của bạn. Nếu bạn tin rằng một trang web khác đang sao chép nội dung của bạn trái với luật bản quyền, bạn có thể liên hệ với nhà cung cấp dịch vụ lưu trữ của trang web đó để yêu cầu xoá nội dung. Ngoài ra, bạn có thể yêu cầu Google xoá trang vi phạm khỏi phần kết quả tìm kiếm bằng cách gửi một yêu cầu theo Đạo luật bản quyền kỹ thuật số thiên niên kỷ.