Tối ưu hoá hạn mức thu thập thông tin

Hướng dẫn này mô tả cách tối ưu hoá hoạt động thu thập thông tin của Google đối với các trang web rất lớn và được cập nhật thường xuyên.

Nếu trang web của bạn không có một số lượng lớn các trang thay đổi thường xuyên, hoặc có vẻ như Google thu thập thông tin các trang trong cùng ngày bạn xuất bản những trang đó, thì bạn không cần đọc hướng dẫn này. Riêng đối với Google Tìm kiếm, bạn chỉ cần thường xuyên cập nhật sơ đồ trang web và kiểm tra phạm vi lập chỉ mục là đủ.

Ai nên đọc hướng dẫn này?

Mặc dù các đề xuất trong hướng dẫn này thường là những phương pháp hay, nhưng đây là hướng dẫn nâng cao chủ yếu dành cho các loại trang web sau:

Trang web quy mô lớn (hơn 1 triệu trang riêng biệt) và có nội dung thay đổi khá thường xuyên (mỗi tuần một lần)
Trang web trung bình hoặc trên trung bình (hơn 10.000 trang riêng biệt) có nội dung thay đổi rất nhanh chóng (hằng ngày)
Các trang web có phần lớn tổng số URL được Search Console phân loại là Đã phát hiện – hiện chưa được lập chỉ mục

Lý thuyết chung về hoạt động thu thập thông tin

Môi trường web là một không gian gần như vô hạn, vì thế Google không thể khám phá và lập chỉ mục mọi URL đang tồn tại. Kết quả là trình thu thập thông tin của Google chỉ có thể dành một lượng thời gian có giới hạn để thu thập thông tin của một trang web, trong đó trang web được xác định bằng tên máy chủ. Ví dụ: https://www.example.com/ và https://code.example.com/ là hai tên máy chủ riêng biệt, do đó có hạn mức thu thập thông tin riêng. Lượng thời gian và tài nguyên mà Google dành cho hoạt động thu thập thông tin trên một trang web thường được gọi là hạn mức thu thập thông tin của trang web đó. Hạn mức này được xác định theo hai yếu tố chính: giới hạn công suất thu thập thông tin và nhu cầu thu thập thông tin.

Giới hạn công suất thu thập thông tin

Google cần thu thập thông tin trang web mà không gây quá tải cho máy chủ. Để tránh gây quá tải cho máy chủ, trình thu thập thông tin của Google sẽ tính toán giới hạn công suất thu thập thông tin. Giới hạn này là số lượng kết nối song song tối đa mà Google có thể sử dụng đồng thời để thu thập thông tin trên một trang web, cũng như thời gian chờ giữa các lần tìm nạp. Google tính toán giới hạn này để thu thập thông tin tất cả nội dung quan trọng mà không làm quá tải máy chủ.

Mức giới hạn công suất thu thập thông tin có thể tăng và giảm dựa trên một số yếu tố:

Tình trạng thu thập thông tin: Mức giới hạn sẽ tăng lên nếu trang web phản hồi nhanh trong một khoảng thời gian. Điều này đồng nghĩa với việc Google có thể sử dụng thêm nhiều kết nối để thu thập thông tin. Nếu trang web chậm lại hoặc phản hồi bằng các lỗi máy chủ, mức giới hạn sẽ giảm xuống và Google sẽ giảm tần suất thu thập thông tin.
Giới hạn mức thu thập thông tin của Google: Google có rất nhiều máy móc, nhưng không phải là vô hạn. Chúng tôi vẫn phải quyết định xem nên sử dụng tài nguyên vào mục đích gì.

Nhu cầu thu thập thông tin

Mỗi trình thu thập thông tin đều có "nhu cầu" riêng khi thu thập thông tin trên web. Ví dụ: AdsBot thường có nhu cầu cao hơn khi một trang web đang chạy các mục tiêu quảng cáo động, Google Mua sắm có nhu cầu cao hơn đối với các sản phẩm mà bạn có trong nguồn cấp dữ liệu người bán và nhu cầu của Googlebot thay đổi tuỳ theo kích thước, tần suất cập nhật, chất lượng trang và mức độ liên quan của một trang web so với các trang web khác.

Nhìn chung, có một số yếu tố đóng vai trò quan trọng trong việc xác định nhu cầu thu thập thông tin:

Số lượng URL do Google xác định Nếu không nhận được chỉ dẫn của bạn, Google sẽ tìm cách thu thập thông tin tất cả hoặc hầu hết các URL tìm được trên trang web. Nếu trong số các URL này có nhiều URL trùng lặp, hoặc bạn không muốn Google thu thập thông tin vì lý do nào đó (đã xoá, không quan trọng, v.v.), thì Google sẽ lãng phí nhiều thời gian vào việc thu thập thông tin trên trang web. Đây là yếu tố bạn có thể kiểm soát chủ động nhất.
Mức độ phổ biến: Các URL phổ biến hơn trên Internet thường được thu thập thông tin thường xuyên hơn để đảm bảo những URL này luôn được cập nhật trong các hệ thống của chúng tôi.
Mức độ lỗi thời: Hệ thống của chúng tôi thường xuyên thu thập lại dữ liệu trên các tài liệu để không bỏ sót thay đổi nào.

Ngoài ra, các sự kiện trên toàn trang web như hoạt động di chuyển trang web có thể làm tăng nhu cầu thu thập thông tin để xử lý lại nội dung trong các URL mới.

Tóm lại

Google sẽ cân nhắc công suất và nhu cầu thu thập thông tin, rồi xác định hạn mức thu thập thông tin của trang web dưới dạng tập hợp URL mà Google có thể thu thập và muốn thu thập. Ngay cả khi chưa đạt đến mức giới hạn công suất thu thập thông tin, Google vẫn sẽ giảm mức thu thập thông tin trang web nếu nhu cầu thu thập thông tin thấp.

Các phương pháp hay nhất

Để tối đa hoá hiệu quả thu thập thông tin, hãy làm theo các phương pháp hay nhất sau:

Quản lý các URL mà bạn đang có: Hãy sử dụng các công cụ thích hợp để cho Google biết trang nào cần hay không cần thu thập thông tin. Nếu Google mất quá nhiều thời gian để thu thập thông tin những URL không nên thu thập thông tin, thì trình thu thập thông tin của Google có thể quyết định không cần dành thời gian để thu thập thông tin những nội dung còn lại trên trang web của bạn (hoặc tăng hạn mức thu thập thông tin của bạn).
- Hợp nhất nội dung trùng lặp. Loại bỏ nội dung trùng lặp để tập trung vào việc thu thập thông tin nội dung riêng biệt thay vì các URL riêng biệt.
- Chặn thu thập thông tin URL bằng tệp robots.txt. Một số trang có thể quan trọng đối với người dùng, nhưng bạn không nhất thiết muốn những trang đó xuất hiện trên các nền tảng của Google hoặc được các hệ thống của Google xử lý lại. Ví dụ: các trang cuộn vô hạn có thông tin trùng lặp với các trang được liên kết hoặc các phiên bản của cùng một trang nhưng có cách sắp xếp khác nhau. Nếu bạn không thể hợp nhất nội dung theo mô tả trong mục đầu tiên của phần này, hãy chặn các trang không quan trọng này bằng tệp robots.txt. Việc chặn URL bằng tệp robots.txt sẽ ngăn Google thu thập thông tin trên các URL đó và làm giảm đáng kể khả năng các URL đó được các hệ thống khác của Google xử lý (chẳng hạn như được Google Tìm kiếm lập chỉ mục).
  Đừng sử dụng noindex, vì Google sẽ vẫn yêu cầu nhưng rồi lại loại bỏ trang khi phát hiện tiêu đề hoặc thẻ meta noindex trong phản hồi HTTP, làm lãng phí thời gian thu thập thông tin. Đừng dùng tệp robots.txt để tạm thời giải phóng hạn mức thu thập thông tin cho các trang khác. Hãy dùng tệp robots.txt để chặn những trang hoặc tài nguyên mà bạn không hề muốn Google thu thập thông tin. Google sẽ không sử dụng hạn mức thu thập thông tin mới này cho các trang khác, trừ trường hợp chúng tôi đã đạt đến mức giới hạn phân phát của trang web của bạn.
- Hãy trả về mã trạng thái 404 hoặc 410 đối với các trang đã xoá vĩnh viễn. Google sẽ không quên một URL đã biết, nhưng mã trạng thái 404 là một tín hiệu hữu ích để cho Google biết rằng không nên thu thập lại dữ liệu trên URL đó. Tuy nhiên, những URL bị chặn sẽ nằm trong hàng đợi thu thập thông tin lâu hơn và sẽ được thu thập thông tin trở lại khi không còn bị chặn nữa.
- Loại bỏ lỗi soft 404. Google sẽ tiếp tục thu thập thông tin trên các trang có lỗi soft 404 và làm lãng phí hạn mức của bạn. Hãy kiểm tra báo cáo Phạm vi lập chỉ mục để phát hiện các lỗi soft 404.
- Thường xuyên cập nhật sơ đồ trang web. Google thường xuyên đọc sơ đồ trang web của bạn. Vì vậy, hãy đưa tất cả nội dung bạn muốn Google thu thập thông tin vào sơ đồ đó. Nếu trang web của bạn có nội dung mới cập nhật, bạn nên dùng thẻ <lastmod>.
- Tránh các chuỗi chuyển hướng dài vì những chuỗi này gây ảnh hưởng tiêu cực đến hoạt động thu thập thông tin.
Cải thiện trang của bạn để tải dễ dàng hơn. Khi có thể tải và kết xuất trang của bạn nhanh hơn, Google có thể đọc được thêm nhiều nội dung trên trang web của bạn.
Gỡ lỗi các vấn đề về hạn mức thu thập thông tin. Hãy kiểm tra xem trang web của bạn có gặp vấn đề về khả năng truy cập trong quá trình thu thập thông tin hay không, đồng thời tìm cách tăng hiệu suất của quá trình thu thập thông tin đó.

Làm cách nào để tăng hạn mức thu thập thông tin?

Có hai cách để tăng hạn mức thu thập thông tin:

Thêm tài nguyên máy chủ: Nếu trang web của bạn không thu thập được thông tin do dung lượng máy chủ ở phía bạn (ví dụ: bạn nhận được thông báo Quá giới hạn tải máy chủ trong công cụ kiểm tra URL), hãy thêm tài nguyên máy chủ nếu điều đó có ý nghĩa đối với doanh nghiệp của bạn.
Tối ưu hoá chất lượng nội dung cho sản phẩm của Google mà bạn đang nhắm đến: Google xác định tài nguyên thu thập thông tin được phân bổ cho từng trang web bằng cách tính đến những yếu tố liên quan đến sản phẩm cụ thể của Google. Ví dụ: đối với Google Tìm kiếm, điều này bao gồm những yếu tố như mức độ phổ biến, giá trị tổng thể đối với người dùng, tính độc đáo của nội dung và khả năng phân phát.