Sử dụng bộ sưu tập để sắp xếp ngăn nắp các trang
Lưu và phân loại nội dung dựa trên lựa chọn ưu tiên của bạn.
Quy trình chuẩn hoá là gì
Chuẩn hoá là quy trình chọn URL tiêu biểu (chính tắc) của một nội dung. Do đó, URL chính tắc là URL của một trang mà Google chọn là trang tiêu biểu nhất trong số các trang trùng lặp. Quy trình này thường được gọi là quy trình loại bỏ trùng lặp, giúp Google chỉ cho thấy một phiên bản của nội dung trùng lặp trong kết quả tìm kiếm.
Có nhiều lý do khiến một trang web có thể có nội dung trùng lặp:
Biến thể theo khu vực: Ví dụ: người dùng có thể truy cập một nội dung dành cho Hoa Kỳ và Vương quốc Anh qua các URL khác nhau, nhưng về cơ bản đây là cùng một nội dung, viết bằng cùng một ngôn ngữ
Biến thể theo thiết bị: Ví dụ: một trang có cả phiên bản dành cho thiết bị di động và phiên bản dành cho máy tính
Biến thể theo giao thức: Ví dụ: phiên bản HTTP và HTTPS của một trang web
Hàm trang web: Ví dụ: kết quả của việc thực thi các hàm sắp xếp và lọc của trang danh mục
Biến thể ngoài ý muốn: Ví dụ: phiên bản minh hoạ của trang web vô tình bị các trình thu thập dữ liệu truy cập
Việc một trang web có một số nội dung trùng lặp là điều bình thường và không vi phạm chính sách của Google về nội dung rác. Tuy nhiên, việc để cùng một nội dung truy cập được qua nhiều URL có thể gây ra trải nghiệm không tốt cho người dùng (ví dụ: mọi người có thể thắc mắc đâu là trang phù hợp và có sự khác biệt giữa hai URL hay không), đồng thời có thể khiến bạn khó theo dõi hiệu suất của nội dung của mình trong kết quả tìm kiếm.
Cách Google lập chỉ mục và chọn URL chính tắc
Khi lập chỉ mục một trang, Google sẽ xác định nội dung chính (hoặc trọng tâm) của từng trang một. Nếu tìm thấy nhiều trang có vẻ giống hệt nhau, hoặc nội dung chính của các trang đó rất giống nhau, Google sẽ dựa trên các yếu tố (hoặc tín hiệu) mà quy trình lập chỉ mục đã thu thập để chọn ra trang đầy đủ và hữu ích nhất cho người dùng Google Tìm kiếm (theo tiêu chí đánh giá khách quan), rồi đánh dấu trang đó là trang chính tắc. Trang chính tắc sẽ được Google thu thập dữ liệu thường xuyên nhất. Các trang trùng lặp sẽ ít được thu thập dữ liệu hơn để giảm tải cho quy trình thu thập dữ liệu trên các trang web.
Có một số yếu tố đóng vai trò nhất định trong quy trình chuẩn hoá: liệu trang được phân phát qua HTTP hay HTTPS, các lệnh chuyển hướng, sự hiện diện của URL trong sơ đồ trang web, cũng như chú thích rel="canonical"link. Bạn có thể dùng những kỹ thuật này để cho Google biết trang chính tắc mà bạn muốn ưu tiên chọn, nhưng Google có thể chọn một trang khác làm trang chính tắc vì nhiều lý do. Như vậy nghĩa là việc cho biết trang được ưu tiên làm trang chính tắc là một gợi ý, chứ không phải một quy tắc, đối với Google.
Nếu một trang có nhiều phiên bản ngôn ngữ, thì các phiên bản đó chỉ được xem là trùng lặp khi vẫn sử dụng cùng một ngôn ngữ với nội dung chính (nghĩa là nếu chỉ có phần tiêu đề, chân trang và những văn bản không quan trọng khác được dịch ra còn phần nội dung chính vẫn giữ nguyên, thì những trang đó được xem là trùng lặp). Để tìm hiểu thêm về cách thiết lập trang web đã bản địa hoá, hãy xem tài liệu của chúng tôi về cách quản lý các trang web đa ngôn ngữ và đa khu vực.
Google chủ yếu dựa vào trang chính tắc để đánh giá nội dung và chất lượng. Kết quả trên Google Tìm kiếm thường trỏ đến trang chính tắc, trừ trường hợp rõ ràng có một trang trùng lặp phù hợp hơn cho người dùng Tìm kiếm. Ví dụ: Nếu người dùng đang sử dụng thiết bị di động, thì kết quả tìm kiếm có thể sẽ trỏ đến trang dành cho thiết bị di động, ngay cả khi Google đã đánh dấu trang dành cho máy tính là trang chính tắc.
[[["Dễ hiểu","easyToUnderstand","thumb-up"],["Giúp tôi giải quyết được vấn đề","solvedMyProblem","thumb-up"],["Khác","otherUp","thumb-up"]],[["Thiếu thông tin tôi cần","missingTheInformationINeed","thumb-down"],["Quá phức tạp/quá nhiều bước","tooComplicatedTooManySteps","thumb-down"],["Đã lỗi thời","outOfDate","thumb-down"],["Vấn đề về bản dịch","translationIssue","thumb-down"],["Vấn đề về mẫu/mã","samplesCodeIssue","thumb-down"],["Khác","otherDown","thumb-down"]],["Cập nhật lần gần đây nhất: 2025-08-04 UTC."],[[["\u003cp\u003eCanonicalization is the process of choosing the best URL from a set of duplicate pages on a website.\u003c/p\u003e\n"],["\u003cp\u003eGoogle uses signals like HTTPS, sitemaps, and redirects to determine the canonical URL, aiming to show users the most relevant and complete version of a page.\u003c/p\u003e\n"],["\u003cp\u003eWhile website owners can suggest a preferred canonical URL, Google's algorithms may ultimately select a different URL based on various factors.\u003c/p\u003e\n"],["\u003cp\u003eDuplicate content arising from regional or device variations is common and not inherently problematic, but managing it can improve user experience and search performance.\u003c/p\u003e\n"],["\u003cp\u003eGoogle primarily uses the canonical version for content evaluation and search results, but may prioritize other versions (e.g., mobile) based on user context.\u003c/p\u003e\n"]]],["Canonicalization is the process of selecting a representative URL for duplicate content. Google chooses the most complete and useful page as the canonical URL, indexing it more regularly. Duplicate pages may arise from region, device, protocol variants, site functions, or accidents. Factors like HTTP/HTTPS, redirects, sitemaps, and `rel=\"canonical\"` annotations influence Google's choice, though it can differ from site preferences. The canonical page is the primary source for content evaluation unless a duplicate better serves a user's specific context.\n"],null,["# What is URL Canonicalization | Google Search Central\n\nWhat is canonicalization\n========================\n\n\nCanonicalization is the process of selecting the representative\n--**canonical**-- URL of a piece of content. Consequently, a canonical\nURL is the URL of a page that Google chose as the most representative from a set of duplicate\npages. Often called deduplication, this process helps Google show only one version of the\notherwise duplicate content in its search results.\n\nThere are many reasons why a site may have duplicate content:\n\n- **Region variants**: for example, a piece of content for the USA and the UK, accessible from different URLs, but essentially the same content in the same language\n- **Device variants**: for example, a page with both a mobile and a desktop version\n- **Protocol variants**: for example, the HTTP and HTTPS versions of a site\n- **Site functions**: for example, the results of sorting and filtering functions of a category page\n- **Accidental variants**: for example, the demo version of the site is accidentally left accessible to crawlers\n\n\nSome duplicate content on a site is normal and it's not a violation of\n[Google's spam policies](/search/docs/essentials/spam-policies). However, having the\nsame content accessible through many different URLs can be a bad user experience (for example,\npeople might wonder which is the right page, and whether there's a difference between the two) and\nit may make it harder for you to track how your *content* performs in search results.\n\n### How Google indexes and chooses the canonical URL\n\n\nWhen [Google indexes a page](/search/docs/fundamentals/how-search-works), it\ndetermines the primary content (or *centerpiece* ) of each page. If Google finds\nmultiple pages that seem to be the same or the primary content very similar, it chooses the\npage that, based on the factors (or *signals*) the indexing process collected, is\nobjectively the most complete and useful for search users, and marks it as canonical. The\ncanonical page will be crawled most regularly; duplicates are crawled less frequently in\norder to reduce the crawling load on sites.\n\n\nThere are a handful of factors that play a role in canonicalization: whether the page\nis served over HTTP or HTTPS, redirects, presence of the URL in a sitemap, and\n`rel=\"canonical\"` `link` annotations. You can\n[indicate your preference to Google](/search/docs/crawling-indexing/consolidate-duplicate-urls#define-canonical)\nusing these techniques, but Google may choose a different page as canonical than you do,\nfor various reasons. That is, indicating a canonical preference is a hint, not a rule.\n\n\nDifferent language versions of a single page are considered duplicates only if the primary\ncontent is in the same language (that is, if only the header, footer, and other non-critical\ntext is translated, but the body remains the same, then the pages are considered to be\nduplicates). To learn more about setting up localized sites, see our documentation about\n[managing multi-lingual and multi-regional sites](/search/docs/specialty/international/localized-versions).\n\n\nGoogle uses the canonical page as the main source to evaluate content and quality. A Google\nSearch result usually points to the canonical page, unless one of the duplicates is explicitly\nbetter suited for a search user. For example, the search result will probably point to the\nmobile page if the user is on a mobile device, even if the desktop page is the canonical.\n\n\nRead more about\n[how to indicate your preference for the canonical URL, and whether you need to](/search/docs/crawling-indexing/consolidate-duplicate-urls)."]]