Tạo và gửi sơ đồ trang web

Trang này mô tả cách dựng sơ đồ trang web và cung cấp cho Google. Nếu bạn mới làm quen với sơ đồ trang web, trước tiên hãy đọc nội dung giới thiệu của chúng tôi.

Google hỗ trợ các định dạng sơ đồ trang web được xác định trong giao thức sơ đồ trang web. Mỗi định dạng đều có những lợi ích và thiếu sót riêng; hãy chọn loại phù hợp nhất cho trang web và cách thiết lập của bạn (Google không có lựa chọn ưu tiên). Bảng dưới đây so sánh các định dạng sơ đồ trang web:

So sánh sơ đồ trang web
Sơ đồ trang web XML

Sơ đồ trang web XML là định dạng linh hoạt nhất trong số các định dạng sơ đồ trang web. Định dạng này có thể mở rộng và được dùng để cung cấp thêm dữ liệu về hình ảnh, video, và nội dung tin tức, cũng như các phiên bản được bản địa hoá của trang.

Ưu điểm:
  • Linh hoạt và dễ dàng mở rộng.
  • Định dạng này giúp cung cấp nhiều thông tin nhất về các URL của bạn.
  • Hầu hết hệ thống quản lý nội dung (CMS) đều tự động tạo sơ đồ trang web, hoặc người dùng hệ thống quản lý nội dung có thể tìm thấy nhiều trình bổ trợ về sơ đồ trang web.
Nhược điểm:
  • Có thể sẽ phải xử lý khá cồng kềnh.
  • Đối với các trang web lớn hoặc thường xuyên thay đổi URL, việc duy trì hệ thống ánh xạ có thể sẽ phức tạp.
RSS, mRSS và Atom 1.0

Sơ đồ trang web RSS, mRSS và Atom 1.0 có cấu trúc tương tự như cấu trúc của sơ đồ trang web XML, nhưng thường dễ cung cấp nhất vì CMS tự động tạo ra chúng.

Ưu điểm:
  • Hầu hết CMS đều tự động tạo nguồn cấp dữ liệu RSS và Atom.
  • Có thể dùng để cung cấp cho Google thông tin về các video của bạn.
Nhược điểm:
Sơ đồ trang web dạng văn bản

Đơn giản nhất trong các định dạng sơ đồ trang web; định dạng này chỉ có thể liệt kê các URL cho các trang HTML và các trang có thể lập chỉ mục khác.

Ưu điểm:

  • Thực hiện và duy trì đơn giản, đặc biệt là trên các trang web lớn.

Nhược điểm:

  • Chỉ giới hạn ở các trang HTML và nội dung văn bản có thể lập chỉ mục khác.

Các phương pháp hay nhất đối với sơ đồ trang web

Các phương pháp hay nhất đối với sơ đồ trang web được xác định theo giao thức sơ đồ trang web. Các phương pháp hay nhưng thường ít được chú ý nhất chủ yếu có liên quan đến giới hạn về kích thước, vị trí sơ đồ trang web và URL có trong sơ đồ trang web.

Giới hạn về kích thước sơ đồ trang web: Tất cả định dạng đều giới hạn mỗi sơ đồ trang web ở mức 50 MB (không nén) hoặc 50.000 URL. Nếu có tệp lớn hơn hoặc nhiều URL hơn, bạn phải chia sơ đồ trang web thành nhiều sơ đồ trang web nhỏ hơn. Bạn có thể chọn tạo một tệp chỉ mục sơ đồ trang web rồi gửi tệp chỉ mục đó cho Google. Bạn có thể gửi nhiều sơ đồ trang web và nhiều tệp chỉ mục sơ đồ trang web cho Google. Phương pháp này sẽ hữu ích nếu bạn muốn theo dõi hiệu suất tìm kiếm của từng sơ đồ trang web trong Search Console.

Vị trí và phương thức mã hoá tệp sơ đồ trang web: Tệp sơ đồ trang web phải được mã hoá bằng phương thức UTF-8. Bạn có thể lưu trữ sơ đồ trang web ở bất cứ đâu trên trang web của mình. Nhưng trừ phi bạn gửi sơ đồ trang web qua Search Console, thì một sơ đồ trang web chỉ tác động đến các thư mục con thuộc cùng thư mục mẹ. Sơ đồ trang web đăng tại thư mục gốc có thể tác động đến mọi tệp trên trang web. Vì vậy, thư mục gốc của trang web chính là nơi bạn nên đăng sơ đồ trang web.

Thuộc tính của URL được tham chiếu: Hãy sử dụng URL tuyệt đối, đủ điều kiện trong sơ đồ trang web. Google sẽ cố gắng thu thập dữ liệu các URL của bạn đúng như cách bạn liệt kê. Ví dụ: Nếu trang web của bạn ở https://www.example.com/, đừng nêu ra một URL có dạng như /mypage.html (URL tương đối) mà hãy sử dụng URL hoàn chỉnh và tuyệt đối: https://www.example.com/mypage.html.

Đưa vào sơ đồ trang web những URL mà bạn muốn thấy trong kết quả tìm kiếm của Google. Thường thì Google cho thấy URL chính tắc trong kết quả tìm kiếm và bạn có thể tác động đến những URL này nhờ sơ đồ trang web. Nếu một trang có các URL riêng cho phiên bản dành cho thiết bị di động và phiên bản dành cho máy tính, thì sơ đồ trang web chỉ nên trỏ đến một phiên bản. Tuy nhiên, nếu bạn muốn trỏ đến cả hai URL, hãy chú thích các URL đó để chỉ rõ phiên bản dành cho máy tính và phiên bản dành cho thiết bị di động.

Tham khảo giao thức sơ đồ trang web để xem danh sách đầy đủ các phương pháp hay nhất.

Sơ đồ trang web XML

Định dạng sơ đồ trang web XML là định dạng linh hoạt nhất trong các định dạng được hỗ trợ. Khi sử dụng đuôi tệp mà Google hỗ trợ cho sơ đồ trang web, bạn cũng có thể cung cấp thêm thông tin về nội dung dạng hình ảnh, videotin tức cũng như phiên bản đã bản địa hoá trên các trang của mình.

Sau đây là một sơ đồ trang web XML rất cơ bản, chứa thông tin về vị trí của một URL duy nhất:

<?xml version="1.0" encoding="UTF-8"?>
<urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
  <url>
    <loc>https://www.example.com/foo.html</loc>
    <lastmod>2022-06-04</lastmod>
  </url>
</urlset>

Bạn có thể tham khảo các ví dụ phức tạp hơn và tài liệu đầy đủ tại sitemaps.org.

Lưu ý bổ sung về sơ đồ trang web XML

  • Cũng như với mọi tệp XML, tất cả giá trị của thẻ đều phải là thực thể có ký tự thoát.
  • Google sẽ bỏ qua các giá trị <priority><changefreq>.
  • Google sử dụng giá trị <lastmod> nếu giá trị đó chính xác một cách nhất quán và có thể xác minh (ví dụ: bằng cách so với bản sửa đổi mới nhất của trang).

RSS, mRSS và Atom 1.0

Nếu hệ thống quản lý nội dung của bạn tạo một nguồn cấp dữ liệu RSS hoặc Atom, bạn có thể gửi URL của nguồn cấp dữ liệu đó dưới dạng một sơ đồ trang web. Hầu hết hệ thống quản lý nội dung đều tạo nguồn cấp dữ liệu cho bạn, nhưng hãy lưu ý rằng nguồn cấp dữ liệu này chỉ cung cấp thông tin về các URL gần đây.

Lưu ý bổ sung về RSS, mRSS và Atom 1.0

Sơ đồ trang web dạng văn bản

Nếu chỉ muốn cung cấp URL của trang web, bạn có thể tạo một tệp văn bản đơn giản chứa một URL trên mỗi dòng và gửi tệp đó cho Google. Ví dụ: nếu trang web của bạn có hai trang, bạn có thể thêm các trang đó vào sơ đồ trang web như sau:

https://www.example.com/file1.html
https://www.example.com/file2.html

Lưu ý bổ sung cho sơ đồ trang web dạng tệp văn bản

  • Đừng đưa thông tin nào khác ngoài các URL vào tệp sơ đồ trang web.
  • Bạn có thể đặt tên tuỳ thích cho tệp văn bản đó, miễn là tệp đó có phần đuôi là .txt (ví dụ: sodotrangweb.txt).

Cách tạo sơ đồ trang web

Việc tạo sơ đồ trang web giúp bạn thông báo cho công cụ tìm kiếm biết những URL nào bạn muốn ưu tiên xuất hiện trong kết quả tìm kiếm. Đó là các URL chính tắc. Nếu bạn có nhiều URL cùng dẫn tới nội dung giống nhau, hãy chọn URL mà bạn ưu tiên và đưa URL đó vào sơ đồ trang web thay vì đưa tất cả những URL dẫn tới cùng một nội dung.

Khi bạn đã xác định được URL nên đưa vào sơ đồ trang web, hãy chọn một trong những cách sau đây để tạo sơ đồ trang web (tuỳ thuộc vào kích thước và cấu trúc trang web của bạn):

Để CMS tạo sơ đồ trang web giúp bạn

Nếu đang dùng một hệ thống quản lý nội dung (CMS) chẳng hạn như WordPress, Wix hoặc Blogger, thì có khả năng là CMS của bạn đã tạo sẵn sơ đồ trang web và cung cấp sơ đồ đó cho các công cụ tìm kiếm. Hãy thử tìm thông tin về cách CMS của bạn tạo sơ đồ trang web, hoặc cách tạo sơ đồ trang web nếu CMS của bạn không tự động tạo. Ví dụ: trong trường hợp của Wix, hãy tìm theo cụm từ "wix sitemap" ("sơ đồ trang web wix") hoặc tìm kiếm "Blogger RSS" cho Blogger.

Tạo sơ đồ trang web theo cách thủ công

Đối với những sơ đồ trang web không có quá nhiều URL, bạn có thể tạo sơ đồ trang web theo cách thủ công. Để thực hiện việc này, hãy mở một trình chỉnh sửa văn bản, chẳng hạn như Windows Notepad hoặc Nano (Linux, MacOS), rồi viết theo cú pháp mô tả trong phần Định dạng sơ đồ trang web. Bạn có thể tuỳ ý đặt tên cho tệp này miễn là các ký tự bạn dùng được phép xuất hiện trong URL.

Bạn cũng có thể tạo những sơ đồ trang web lớn hơn theo cách thủ công nhưng làm vậy sẽ rất mất công và phải duy trì lâu dài.

Tự động tạo sơ đồ trang web bằng các công cụ

Đối với những sơ đồ trang web có rất nhiều URL, bạn sẽ phải tạo sơ đồ trang web theo cách tự động. Có nhiều công cụ có thể tạo sơ đồ trang web. Tuy nhiên, cách tốt nhất là để phần mềm trang web của bạn tạo giúp bạn. Ví dụ: bạn có thể lấy danh sách URL từ cơ sở dữ liệu của trang web rồi xuất những URL đó đến thẳng máy chủ web hoặc xuất vào một tệp trên máy chủ web. Hãy trao đổi với nhà phát triển hoặc người quản lý máy chủ của bạn về giải pháp này. Nếu bạn cần hướng dẫn về mã lập trình, hãy tham khảo bộ sưu tập (đã cũ và không còn được duy trì) của chúng tôi về trình tạo sơ đồ trang web của bên thứ ba.

Bạn không cần lo lắng về thứ tự của các URL trong sơ đồ trang web vì Google không quan tâm đến điều đó. Hãy lưu ý các yêu cầu về kích thước đối với sơ đồ trang web. Nếu sơ đồ trang web có kích thước quá lớn, bạn phải chia thành các sơ đồ trang web nhỏ hơn. Tìm hiểu thêm về cách quản lý các sơ đồ trang web lớn.

Gửi sơ đồ trang web cho Google

Hãy lưu ý rằng việc gửi sơ đồ trang web chỉ là gợi ý: việc này không đảm bảo rằng Google sẽ tải sơ đồ trang web xuống hoặc sử dụng sơ đồ trang web để thu thập dữ liệu các URL trên trang web của bạn. Để cung cấp sơ đồ trang web của bạn cho Google, có một số cách như sau:

  • Gửi sơ đồ trang web trong Search Console bằng cách sử dụng báo cáo Sơ đồ trang web. Cách này sẽ cho bạn biết thời điểm Googlebot truy cập được sơ đồ trang web đó cũng như xem cả các lỗi có thể xảy ra trong quá trình xử lý.
  • Sử dụng Search Console API để gửi sơ đồ trang web theo phương thức lập trình.
  • Chèn dòng sau vào vị trí bất kỳ trong tệp robots.txt để chỉ định đường dẫn đến sơ đồ trang web. Chúng tôi sẽ tìm dòng này vào lần tiếp theo chúng tôi thu thập dữ liệu tệp robots.txt của bạn:
    Sitemap: https://example.com/my_sitemap.xml
  • Nếu sử dụng Atom hoặc RSS, bạn có thể dùng WebSub để thông báo nội dung thay đổi cho các công cụ tìm kiếm (bao gồm cả Google).

Cách gửi sơ đồ trang web cho nhiều trang web

Nếu có nhiều trang web, bạn có thể đơn giản hoá quá trình gửi bằng cách tạo một hoặc nhiều sơ đồ trang web chứa các URL cho mọi trang web đã xác minh và lưu những sơ đồ trang web đó tại một vị trí duy nhất. Bạn có thể chọn sử dụng:

  • Một sơ đồ trang web chứa URL của nhiều trang web, trong đó có những trang web thuộc các miền khác nhau. Ví dụ: sơ đồ trang web tại https://host1.example.com/sitemap.xml có thể chứa những URL sau.
    • https://host1.example.com
    • https://host2.example.com
    • https://host3.example.com
    • https://host1.example1.com
    • https://host1.example.ch
  • Nhiều sơ đồ trang web đơn lẻ (một sơ đồ cho mỗi trang web) nằm tại cùng một vị trí.
    • https://host1.example.com/host1-example-sitemap.xml
    • https://host1.example.com/host2-example-sitemap.xml
    • https://host1.example.com/host3-example-sitemap.xml
    • https://host1.example.com/host1-example1-sitemap.xml
    • https://host1.example.com/host1-example-ch-sitemap.xml

Để gửi sơ đồ trang web cho nhiều trang web được lưu trữ tại cùng một vị trí, bạn có thể dùng Search Console hoặc tệp robots.txt.

Gửi sơ đồ trang web cho nhiều trang web qua Search Console

  1. Đảm bảo rằng bạn đã xác minh quyền sở hữu đối với mọi trang web mà bạn sẽ thêm vào sơ đồ trang web.
  2. Tạo sơ đồ trang web (một hoặc nhiều tuỳ ý), trong đó có URL của mọi trang web mà bạn muốn đưa vào. Bạn có thể đưa những sơ đồ trang web này vào một tệp chỉ mục sơ đồ trang web nếu muốn, sau đó xử lý chỉ mục sơ đồ trang web đó.
  3. Sử dụng Google Search Console để gửi sơ đồ trang web hoặc tệp chỉ mục sơ đồ trang web.

Gửi sơ đồ trang web cho nhiều trang web qua tệp robots.txt

  1. Tạo một hoặc nhiều sơ đồ trang web cho từng trang web. Đối với từng tệp sơ đồ trang web, hãy đảm bảo bạn chỉ đưa vào tệp các URL của trang web tương ứng.
  2. Tải tất cả sơ đồ trang web lên một trang web mà bạn có quyền kiểm soát, ví dụ như https://sitemaps.example.com.
  3. Đối với từng trang web, hãy đảm bảo rằng tệp robots.txt tham chiếu đến sơ đồ trang web của trang web cụ thể đó. Ví dụ: nếu bạn tạo một sơ đồ trang web cho https://example.com/ và lưu trữ sơ đồ đó tại https://sitemaps.example.com/sitemap-example-com.xml, hãy tham chiếu đến sơ đồ trang web đó trong tệp robots.txt tại https://example.com/robots.txt.
    # robots.txt file of https://example.com/
    sitemap: https://sitemaps.example.com/sitemap-example-com.xml

Khắc phục sự cố liên quan đến sơ đồ trang web

Bạn có thể khắc phục vấn đề liên quan đến sơ đồ trang web qua Google Search Console. Hãy xem phần hướng dẫn khắc phục vấn đề liên quan đến sơ đồ trang web để được trợ giúp.