Hướng dẫn quản lý hạn mức thu thập dữ liệu dành cho chủ sở hữu trang web lớn
Hướng dẫn này mô tả cách tối ưu hoá hoạt động thu thập dữ liệu của Google đối với các trang web rất lớn và được cập nhật thường xuyên.
Nếu trang web của bạn không có một số lượng lớn các trang thay đổi thường xuyên, hoặc có vẻ như Google thu thập dữ liệu các trang trong cùng ngày bạn xuất bản những trang đó, thì bạn không cần đọc hướng dẫn này mà chỉ cần thường xuyên cập nhật sơ đồ trang web và kiểm tra phạm vi lập chỉ mục là đủ.
Nếu bạn đã xuất bản nội dung được một thời gian nhưng Google chưa bao giờ lập chỉ mục nội dung đó, thì đây lại là một vấn đề khác. Trong trường hợp này, hãy dùng Công cụ kiểm tra URL để tìm hiểu lý do Google không lập chỉ mục trang của bạn.
Ai nên đọc hướng dẫn này?
Đây là hướng dẫn nâng cao và dành cho:
- Trang web quy mô lớn (hơn 1 triệu trang riêng biệt) và có nội dung thay đổi khá thường xuyên (mỗi tuần một lần)
- Trang web trung bình hoặc trên trung bình (hơn 10.000 trang riêng biệt) có nội dung thay đổi rất nhanh chóng (hằng ngày)
- Các trang web có phần lớn tổng số URL được Search Console phân loại là Đã phát hiện – hiện chưa được lập chỉ mục
Lý thuyết chung về hoạt động thu thập dữ liệu
Môi trường web là một không gian gần như vô hạn, vì thế Google không thể khám phá và lập chỉ mục mọi URL đang tồn tại. Kết quả là Googlebot chỉ có thể dành một lượng thời gian có giới hạn để thu thập dữ liệu của một trang web. Lượng thời gian và tài nguyên mà Google dành cho hoạt động thu thập dữ liệu trên một trang web thường được gọi là hạn mức thu thập dữ liệu của trang web đó. Xin lưu ý rằng không phải mọi dữ liệu mà Google thu thập trên trang web của bạn đều được lập chỉ mục. Trang nào cũng cần trải qua quá trình xem xét, tổng hợp và đánh giá để xác định xem có lập chỉ mục trang đó sau khi thu thập dữ liệu hay không.
Hạn mức thu thập dữ liệu được xác định theo hai yếu tố chính: giới hạn công suất thu thập dữ liệu và nhu cầu thu thập dữ liệu.
Giới hạn công suất thu thập dữ liệu
Googlebot cần thu thập dữ liệu trang web mà không gây quá tải cho máy chủ. Để tránh gây quá tải cho máy chủ, Googlebot sẽ tính toán giới hạn công suất thu thập dữ liệu. Giới hạn này là số lượng kết nối song song tối đa mà Googlebot có thể sử dụng đồng thời để thu thập dữ liệu trên một trang web, cũng như thời gian chờ giữa các lần tìm nạp. Googlebot tính toán giới hạn này để thu thập dữ liệu tất cả nội dung quan trọng mà không làm quá tải máy chủ.
Mức giới hạn công suất thu thập dữ liệu có thể tăng và giảm dựa trên một số yếu tố:
- Tình trạng thu thập dữ liệu: Mức giới hạn sẽ tăng lên nếu trang web phản hồi nhanh trong một khoảng thời gian. Điều này đồng nghĩa với việc Googlebot có thể sử dụng thêm nhiều kết nối để thu thập dữ liệu. Nếu trang web chậm lại hoặc phản hồi bằng các lỗi máy chủ, mức giới hạn sẽ giảm xuống và Googlebot sẽ giảm tần suất thu thập dữ liệu.
- Giới hạn mức thu thập dữ liệu của Google: Google có rất nhiều máy móc, nhưng không phải là vô hạn. Chúng tôi vẫn phải quyết định xem nên sử dụng tài nguyên vào mục đích gì.
Nhu cầu thu thập dữ liệu
Thường thì Google sẽ dành đủ lượng thời gian cần thiết để thu thập dữ liệu trên một trang web, tuỳ vào kích thước, tần suất cập nhật, chất lượng và mức độ liên quan của trang web đó so với các trang web khác.
Có một số yếu tố đóng vai trò quan trọng trong việc xác định nhu cầu thu thập dữ liệu:
- Số lượng URL do Google xác định Nếu không nhận được chỉ dẫn của bạn, Googlebot sẽ cố gắng thu thập dữ liệu tất cả hoặc hầu hết các URL tìm được trên trang web. Nếu trong số các URL này có nhiều URL trùng lặp, hoặc bạn không muốn Google thu thập dữ liệu vì lý do nào đó (đã xoá, không quan trọng, v.v.), thì Googlebot sẽ lãng phí nhiều thời gian vào việc thu thập dữ liệu trên trang web. Đây là yếu tố bạn có thể kiểm soát chủ động nhất.
- Mức độ phổ biến: Các URL phổ biến hơn trên Internet thường được thu thập dữ liệu thường xuyên hơn để đảm bảo những URL này luôn được cập nhật trong chỉ mục.
- Mức độ lỗi thời: Hệ thống của chúng tôi thường xuyên thu thập lại dữ liệu trên các tài liệu để không bỏ sót thay đổi nào.
Ngoài ra, các sự kiện trên toàn trang web như hoạt động di chuyển trang web có thể làm tăng nhu cầu thu thập dữ liệu để lập chỉ mục lại nội dung trong các URL mới.
Tóm lại
Google sẽ cân nhắc công suất và nhu cầu thu thập dữ liệu, rồi xác định hạn mức thu thập dữ liệu của trang web dưới dạng tập hợp URL mà Googlebot có thể thu thập và muốn thu thập. Ngay cả khi chưa đạt đến mức giới hạn công suất thu thập dữ liệu, Googlebot vẫn sẽ giảm mức thu thập dữ liệu trang web nếu nhu cầu thu thập dữ liệu thấp.
Các phương pháp hay nhất
Hãy làm theo các phương pháp hay nhất này để đạt được hiệu quả tối đa trong hoạt động thu thập dữ liệu:
- Quản lý các URL mà bạn đang có: Hãy sử dụng các công cụ thích hợp để cho Google biết trang nào cần hay không cần thu thập dữ liệu. Nếu đã mất quá nhiều thời gian để thu thập dữ liệu những URL không nên có trong chỉ mục, thì Googlebot có thể quyết định không cần dành thời gian để thu thập dữ liệu những nội dung còn lại trên trang web của bạn (hoặc tăng hạn mức thu thập dữ liệu của bạn).
- Hợp nhất nội dung trùng lặp. Hãy loại bỏ nội dung trùng lặp để hoạt động thu thập dữ liệu tập trung vào những nội dung riêng biệt thay vì nhiều URL riêng biệt.
- Chặn thu thập dữ liệu URL bằng tệp robots.txt. Một số trang có thể quan trọng đối với người dùng, nhưng bạn không nhất thiết muốn những trang đó xuất hiện trong kết quả trên Tìm kiếm. Ví dụ: các trang cuộn vô hạn có thông tin trùng lặp với các trang được liên kết hoặc các phiên bản của cùng một trang nhưng có cách sắp xếp khác nhau. Nếu bạn không thể hợp nhất nội dung theo mô tả trong mục đầu tiên của phần này, hãy chặn các trang không quan trọng (không cần xuất hiện trong kết quả tìm kiếm) này bằng tệp robots.txt. Việc chặn URL bằng tệp robots.txt sẽ làm giảm đáng kể khả năng các URL đó được lập chỉ mục.
-
Hãy trả về mã trạng thái
404
hoặc410
đối với các trang đã xoá vĩnh viễn. Google sẽ không quên một URL đã biết, nhưng mã trạng thái404
là một tín hiệu hữu ích để cho Google biết rằng không nên thu thập lại dữ liệu trên URL đó. Tuy nhiên, những URL bị chặn sẽ nằm trong hàng đợi thu thập dữ liệu lâu hơn và sẽ được thu thập dữ liệu trở lại khi không còn bị chặn nữa. - Loại bỏ lỗi
soft 404
. Google sẽ tiếp tục thu thập dữ liệu trên các trang có lỗisoft 404
và làm lãng phí hạn mức của bạn. Hãy kiểm tra báo cáo Phạm vi lập chỉ mục để phát hiện các lỗisoft 404
. - Thường xuyên cập nhật sơ đồ trang web. Google thường xuyên đọc sơ đồ trang web của bạn. Vì vậy, hãy đưa tất cả nội dung bạn muốn Google thu thập dữ liệu vào sơ đồ đó. Nếu trang web của bạn có nội dung mới cập nhật, bạn nên dùng thẻ
<lastmod>
. - Tránh các chuỗi chuyển hướng dài vì những chuỗi này gây ảnh hưởng tiêu cực đến hoạt động thu thập dữ liệu.
- Cải thiện trang của bạn để tải dễ dàng hơn. Khi có thể tải và kết xuất trang của bạn nhanh hơn, Google có thể đọc được thêm nhiều nội dung trên trang web của bạn.
- Theo dõi hoạt động thập dữ liệu trên trang web. Hãy theo dõi xem trang web của bạn có gặp vấn đề về khả năng truy cập trong quá trình thu thập dữ liệu hay không, đồng thời tìm cách tăng hiệu suất của quá trình thu thập dữ liệu đó.
Theo dõi hoạt động thu thập dữ liệu và lập chỉ mục trang web của bạn
Sau đây là những bước chính để theo dõi hoạt động thu thập dữ liệu trên trang web của bạn:
- Kiểm tra xem Googlebot có đang gặp vấn đề về khả năng truy cập trên trang web của bạn hay không.
- Kiểm tra xem có trang nào bạn muốn Google thu thập dữ liệu nhưng vẫn chưa được thu thập dữ liệu hay không.
- Kiểm tra xem có phần nào trong trang web cần được đẩy nhanh tốc độ thu thập dữ liệu hay không.
- Cải thiện hiệu quả thu thập dữ liệu đối với trang web của bạn.
- Xử lý tình trạng thu thập dữ liệu quá mức trên trang web của bạn.
Kiểm tra xem Googlebot có đang gặp vấn đề về khả năng truy cập trên trang web của bạn hay không
Việc cải thiện khả năng truy cập vào trang web không đảm bảo hạn mức thu thập dữ liệu của bạn sẽ tăng. Tốc độ thu thập dữ liệu hợp lý nhất được Google xác định dựa trên nhu cầu thu thập dữ liệu, như đã mô tả ở trên. Tuy nhiên, các sự cố về khả năng truy cập có thể khiến Google không thể thu thập dữ liệu trên trang web của bạn ở mức mà chúng tôi mong muốn.
Chẩn đoán:
Hãy dùng báo cáo Số liệu thống kê về hoạt động thu thập dữ liệu để xem lại quá trình Googlebot thu thập dữ liệu trên trang web của bạn. Báo cáo này cho biết thời điểm Google gặp sự cố về khả năng truy cập trang web. Nếu trang web của bạn báo lỗi hoặc xuất hiện cảnh báo về khả năng truy cập, hãy xem biểu đồ Khả năng truy cập vào máy chủ và tìm những thời điểm mà yêu cầu của Googlebot vượt quá đường giới hạn màu đỏ, nhấp vào biểu đồ để xem URL nào đang gặp vấn đề rồi cố gắng tìm mối tương quan giữa các URL đó với vấn đề trên trang web.
Ngoài ra, bạn cũng có thể dùng Công cụ kiểm tra URL để kiểm tra một số URL trên trang web của mình. Nếu công cụ này trả về cảnh báo Quá giới hạn tải máy chủ, điều đó nghĩa là Googlebot không thể thu thập dữ liệu tất cả URL phát hiện được từ trang web của bạn.
Xử lý:
- Đọc tài liệu hướng dẫn về Báo cáo số liệu thống kê về hoạt động thu thập dữ liệu để tìm hiểu cách phát hiện và xử lý một số vấn đề về khả năng truy cập.
- Chặn hoạt động thu thập dữ liệu trên một số trang nếu bạn không muốn chúng tôi thu thập dữ liệu trên những trang đó. (Xem cách quản lý các URL bạn đang có)
- Tăng tốc độ tải và kết xuất trang. (Xem Cách cải thiện hiệu suất thu thập dữ liệu trên trang web của bạn)
- Tăng công suất của máy chủ. Nếu có vẻ như Google đã liên tục thu thập dữ liệu trang web của bạn ở mức công suất phân phát tối đa của trang web, nhưng một số URL quan trọng của bạn vẫn chưa được thu thập dữ liệu hoặc chưa được cập nhật như mong muốn, thì có thể bạn phải bổ sung tài nguyên phân phát để cho phép Google yêu cầu thêm nhiều trang trong trang web của bạn. Hãy kiểm tra khả năng truy cập vào máy chủ theo thời gian trong báo cáo Số liệu thống kê về hoạt động thu thập dữ liệu để xem liệu tốc độ thu thập dữ liệu của Google có thường xuyên vượt quá giới hạn hay không. Nếu đúng là vậy, hãy tăng tài nguyên phân phát của bạn trong một tháng và xem số lượng yêu cầu thu thập dữ liệu có tăng trong cùng khoảng thời gian đó hay không.
Kiểm tra xem có phần nào trên trang web mà bạn muốn Google thu thập dữ liệu nhưng vẫn chưa được thu thập hay không
Google dành lượng thời gian cần thiết để lập chỉ mục toàn bộ nội dung chất lượng cao và có giá trị đối với người dùng mà Google tìm được trên trang web của bạn. Nếu bạn cho rằng Googlebot bỏ sót nội dung quan trọng, thì nguyên nhân có thể là do công cụ này không tìm thấy nội dung đó, nội dung bị chặn khỏi Google, hoặc trang web đang hạn chế quyền truy cập của Google (hoặc Google đang cố gắng không làm trang web quá tải).
Chẩn đoán:
Search Console không cung cấp nhật ký thu thập dữ liệu có thể lọc theo URL hay đường dẫn, nhưng bạn có thể tham khảo nhật ký trang web để xem Googlebot có thu thập dữ liệu một số URL cụ thể nào đó hay không. Điều này không liên quan đến việc Google có lập chỉ mục các URL đã thu thập dữ liệu hay không.
Hãy nhớ rằng đối với hầu hết các trang web, Google sẽ mất tối thiểu vài ngày để phát hiện thấy các trang mới. Hầu hết các URL của các trang web sẽ không được thu thập dữ liệu trong cùng ngày, ngoại trừ những trang web có nội dung bị ảnh hưởng lớn bởi yếu tố thời gian (chẳng hạn như trang web tin tức).
Xử lý:
Nếu bạn thêm trang mới vào trang web của mình và Google không thu thập dữ liệu các trang đó trong một khoảng thời gian hợp lý, thì nguyên nhân là do Google không biết về các trang đó, nội dung bị chặn, trang web đã đạt đến khả năng phân phát tối đa hoặc bạn đã hết hạn mức thu thập dữ liệu.
- Cho Google biết về các trang mới của bạn: hãy cập nhật sơ đồ trang web để phản ánh các URL mới.
- Kiểm tra các quy tắc trong tệp robots.txt để chắc chắn rằng bạn không vô tình chặn trang.
- Xem lại những mức ưu tiên của bạn trong hoạt động thu thập dữ liệu (nghĩa là sử dụng hạn mức thu thập dữ liệu một cách hợp lý). Quản lý các URL bạn đang có và cải thiện hiệu suất thu thập dữ liệu trên trang web của bạn.
- Kiểm tra để đảm bảo bạn vẫn còn công suất phân phát. Googlebot sẽ giảm mức thu thập dữ liệu nếu phát hiện thấy máy chủ của bạn gặp khó khăn khi phản hồi yêu cầu thu thập dữ liệu.
Xin lưu ý rằng các trang đã thu thập dữ liệu vẫn có thể không xuất hiện trong kết quả tìm kiếm nếu trang đó mang lại giá trị không đủ lớn, hoặc người dùng không có nhu cầu truy cập nội dung trên trang.
Kiểm tra xem nội dung cập nhật có được thu thập dữ liệu kịp thời hay không
Nếu chúng tôi chưa thu thập dữ liệu các trang mới hoặc vừa cập nhật trên trang web, thì việc này có thể là vì chúng tôi chưa thấy các trang đó hoặc chưa nhận ra rằng trang đã cập nhật. Sau đây là cách bạn có thể thông báo cho chúng tôi về nội dung cập nhật trên trang.
Xin lưu ý rằng Google luôn cố gắng kiểm tra và lập chỉ mục các trang trong một khoảng thời gian hợp lý. Đối với hầu hết trang web, thời gian này kéo dài từ 3 ngày trở lên. Sẽ rất khó để Google có thể lập chỉ mục các trang vào cùng ngày mà bạn xuất bản trang, trừ trường hợp trang của bạn là trang web tin tức hoặc chứa nội dung có giá trị cao và chịu ảnh hưởng của thời gian.
Chẩn đoán:
Hãy kiểm tra nhật ký trang web của bạn để xem thời điểm Googlebot thu thập dữ liệu các URL cụ thể.
Để biết ngày lập chỉ mục, hãy sử dụng Công cụ kiểm tra URL, hoặc dùng Google Tìm kiếm để tìm các URL mà bạn đã cập nhật.
Xử lý:
Nên làm:
- Dùng một sơ đồ trang web Tin tức nếu trang web của bạn có nội dung tin tức.
- Dùng thẻ
<lastmod>
trong sơ đồ trang web để cho biết thời điểm cập nhật một URL đã được lập chỉ mục. - Dùng một cấu trúc URL đơn giản để giúp Google tìm thấy các trang của bạn.
- Cung cấp các đường liên kết
<a>
chuẩn mà Google có thể thu thập dữ liệu để giúp Google tìm thấy các trang của bạn. - Nếu trang web của bạn sử dụng HTML riêng biệt đối với phiên bản dành cho thiết bị di động và phiên bản dành cho máy tính, hãy cung cấp cùng một nhóm đường liên kết trên phiên bản dành cho thiết bị di động giống như trên phiên bản dành cho máy tính. Nếu không thể cung cấp cùng một nhóm đường liên kết trên phiên bản dành cho thiết bị di động, hãy đảm bảo rằng các đường liên kết đó có trong tệp sơ đồ trang web. Google chỉ lập chỉ mục phiên bản dành cho thiết bị di động của các trang, và việc giới hạn các đường liên kết xuất hiện trên đó có thể làm chậm quá trình khám phá trang mới.
Nên tránh:
- Gửi cùng một sơ đồ trang web không có thay đổi gì nhiều lần trong ngày.
- Nghĩ rằng Googlebot sẽ thu thập mọi dữ liệu trong sơ đồ trang web hoặc thu thập dữ liệu sơ đồ trang web ngay lập tức. Sơ đồ trang web là một cách hữu ích để gợi ý Googlebot thu thập dữ liệu, nhưng không phải là yêu cầu bắt buộc.
- Đưa vào sơ đồ trang web những URL bạn không muốn xuất hiện trong các kết quả trên Tìm kiếm. Điều này có thể khiến bạn lãng phí hạn mức thu thập dữ liệu vào các trang mà bạn không muốn Google lập chỉ mục.
Cải thiện hiệu quả thu thập dữ liệu đối với trang web của bạn
Tăng tốc độ tải trang
Khả năng thu thập dữ liệu của Google bị giới hạn bởi băng thông, thời gian và khả năng truy cập của các phiên bản Googlebot. Nếu máy chủ của bạn phản hồi yêu cầu nhanh hơn, chúng tôi có thể thu thập dữ liệu nhiều trang hơn trên trang web của bạn. Dù vậy, Google chỉ muốn thu thập dữ liệu nội dung chất lượng cao. Do đó, nếu bạn chỉ tăng tốc độ của trang chất lượng thấp, thì Googlebot vẫn không thu thập dữ liệu thêm nhiều trang trên trang web của bạn. Ngược lại, nếu cho rằng có nội dung chất lượng cao bị bỏ sót trên trang web, thì chúng tôi có thể tăng hạn mức để thu thập dữ liệu nội dung đó.
Sau đây là cách bạn có thể tối ưu hoá các trang và tài nguyên cho hoạt động thu thập dữ liệu:
- Dùng tệp robots.txt để ngăn Googlebot tải các tài nguyên lớn nhưng không quan trọng. Đảm bảo bạn chỉ chặn tài nguyên không quan trọng, tức là những tài nguyên không cần thiết để nắm được ý nghĩa của trang (chẳng hạn như hình ảnh trang trí).
- Đảm bảo rằng các trang của bạn tải nhanh.
- Hãy chú ý các chuỗi chuyển hướng dài, vì các chuỗi này gây ảnh hưởng tiêu cực đến hoạt động thu thập dữ liệu.
- Thời gian để phản hồi yêu cầu của máy chủ và thời gian cần thiết để kết xuất trang đều quan trọng, bao gồm cả thời gian tải và chạy các tài nguyên được nhúng như hình ảnh và tập lệnh. Hãy chú ý đến các tài nguyên lớn hoặc chậm nhưng cần thiết để lập chỉ mục.
Chỉ định nội dung thay đổi bằng mã trạng thái HTTP
Thường thì Google hỗ trợ các tiêu đề If-Modified-Since
và If-None-Match
của yêu cầu HTTP đối với quy trình thu thập dữ liệu. Trình thu thập dữ liệu của Google không gửi tiêu đề trong tất cả lần thu thập dữ liệu; mà tuỳ thuộc vào trường hợp sử dụng của yêu cầu (ví dụ: thường thì AdsBot sẽ thiết lập tiêu đề If-Modified-Since
và If-None-Match
của yêu cầu HTTP nhiều hơn). Nếu trình thu thập dữ liệu của chúng tôi gửi tiêu đề If-Modified-Since
, thì giá trị của tiêu đề đó sẽ là ngày và giờ của lần gần đây nhất mà Google thu thập dữ liệu nội dung này. Dựa trên giá trị đó, máy chủ có thể chọn trả về một mã trạng thái HTTP 304 (Not Modified)
không có nội dung phản hồi. Trong trường hợp đó, Google sẽ sử dụng lại phiên bản đã thu thập dữ liệu lần trước của nội dung. Nếu nội dung mới hơn ngày mà trình thu thập dữ liệu chỉ định trong tiêu đề If-Modified-Since
, máy chủ có thể trả về một mã trạng thái HTTP 200 (OK)
cùng với nội dung phản hồi.
Ngoài các tiêu đề của yêu cầu, bạn có thể gửi mã trạng thái HTTP 304 (Not Modified)
và không có nội dung phản hồi cho bất kỳ yêu cầu nào của Googlebot nếu nội dung không thay đổi kể từ lần gần nhất Googlebot truy cập URL đó. Việc này sẽ giúp bạn tiết kiệm thời gian và tài nguyên xử lý cho máy chủ, qua đó có thể cải thiện hiệu suất thu thập dữ liệu.
Ẩn những URL mà bạn không muốn xuất hiện trong kết quả tìm kiếm
Việc lãng phí tài nguyên máy chủ vào các trang không cần thiết có thể làm giảm khả năng thu thập dữ liệu trên các trang mà bạn thấy quan trọng, đồng thời, có thể làm chậm quá trình khám phá nội dung mới hoặc nội dung vừa cập nhật trên trang web.
Việc đưa vào trang web nhiều URL bạn không muốn Google Tìm kiếm thu thập dữ liệu có thể ảnh hưởng tiêu cực đến hoạt động thu thập dữ liệu và lập chỉ mục trang web. Thông thường, những URL này thuộc các loại sau:
- Điều hướng đa chiều và giá trị nhận dạng phiên: URL điều hướng đa chiều thường là nội dung trùng lặp trên trang web. Giá trị nhận dạng phiên và các tham số URL khác chỉ có chức năng sắp xếp hoặc lọc các trang không cung cấp nội dung mới. Dùng tệp robots.txt để chặn các trang điều hướng đa chiều.
- Nội dung trùng lặp: Hãy giúp Google xác định nội dung trùng lặp để tránh thu thập những dữ liệu không cần thiết.
- Trang
soft 404
: Trả về mã404
khi một trang không còn tồn tại. - Trang bị xâm nhập: Đừng quên kiểm tra báo cáo Vấn đề bảo mật và sửa hoặc xoá những trang bị xâm nhập mà bạn tìm được.
- Không gian vô hạn và proxy: Hãy dùng tệp robots.txt để chặn hoạt động thu thập dữ liệu trên không gian vô hạn và proxy.
- Nội dung rác và chất lượng thấp: Hiển nhiên là bạn nên tránh những nội dung như vậy.
- Trang giỏ hàng, trang cuộn vô hạn và các trang thao tác (chẳng hạn như trang "đăng ký" hoặc "mua ngay").
Nên làm:
- Dùng tệp robots.txt nếu bạn không muốn Google thu thập dữ liệu trên một tài nguyên hoặc một trang.
- Nếu nhiều trang sử dụng cùng một tài nguyên (chẳng hạn như hình ảnh hoặc tệp JavaScript dùng chung), hãy tham chiếu đến tài nguyên từ cùng một URL trong mỗi trang. Khi đó, Google có thể lưu tài nguyên vào bộ nhớ đệm và sử dụng lại mà không cần yêu cầu tài nguyên đó nhiều lần.
Nên tránh:
- Đừng thường xuyên thêm hoặc xoá các trang hoặc thư mục khỏi tệp robots.txt như một cách phân bổ lại hạn mức thu thập dữ liệu cho trang web của bạn. Chỉ dùng tệp robots.txt cho các trang hoặc tài nguyên mà bạn không muốn xuất hiện trên Google trong thời gian dài.
- Đừng xoay vòng sơ đồ trang web hoặc sử dụng cơ chế ẩn tạm thời khác để phân bổ lại hạn mức.
Xử lý tình trạng thu thập dữ liệu quá mức trên trang web của bạn (trường hợp khẩn cấp)
Googlebot có các thuật toán để tránh tình trạng các yêu cầu thu thập dữ liệu gây quá tải cho trang web. Tuy nhiên, nếu nhận thấy Googlebot đang làm quá tải trang web của mình thì bạn có thể thử một vài cách sau đây.
Chẩn đoán:
Theo dõi máy chủ của bạn để kiểm tra xem Googlebot có gửi quá nhiều yêu cầu đến trang web hay không.
Xử lý:
Trong trường hợp cấp bách, bạn nên thực hiện những bước sau để giảm tốc độ thu thập dữ liệu của Googlebot:
- Tạm thời trả về mã trạng thái phản hồi HTTP
503
hoặc429
cho các yêu cầu của Googlebot khi máy chủ của bạn bị quá tải. Googlebot sẽ thử thu thập lại dữ liệu trên những URL này sau khoảng 2 ngày. Xin lưu ý rằng việc trả lại mã "không thể truy cập" trong vài ngày trở lên sẽ khiến Google giảm hoặc ngừng thu thập dữ liệu URL vĩnh viễn trên trang web của bạn. Vì vậy, hãy thực hiện thêm những bước sau đây. -
Khi tốc độ thu thập dữ liệu bị giảm, hãy ngừng trả về mã trạng thái phản hồi HTTP
503
hoặc429
đối với các yêu cầu thu thập dữ liệu; việc trả lại503
hoặc429
trong hơn 2 ngày sẽ khiến Google loại bỏ những URL đó khỏi chỉ mục. - Theo dõi hoạt động thu thập dữ liệu và công suất của máy chủ lưu trữ theo thời gian.
- Nếu trình thu thập dữ liệu gây ra vấn đề là một trong những trình thu thập dữ liệu AdsBot, thì vấn đề có thể là do bạn đã tạo các mục tiêu Quảng cáo tìm kiếm động cho trang web của mình và Google đang cố gắng thu thập dữ liệu trên những mục tiêu đó. Trong trường hợp này, Google sẽ thu thập dữ liệu 3 tuần một lần. Nếu máy chủ của bạn không có khả năng xử lý những lần thu thập dữ liệu này, bạn nên giới hạn mục tiêu quảng cáo hoặc tăng công suất phân phát.
Những điều lầm tưởng và sự thật về hoạt động thu thập dữ liệu
Hãy kiểm tra kiến thức của bạn về cách Google thu thập dữ liệu và lập chỉ mục các trang web.
5xx
(lỗi máy chủ) hoặc lỗi hết thời gian chờ kết nối lại báo hiệu điều ngược lại và làm chậm quá trình thu thập dữ liệu. Bạn nên chú ý đến báo cáo Số liệu thống kê về hoạt động thu thập dữ liệu trên Search Console và hạn chế số lượng lỗi máy chủ.
nofollow
có ảnh hưởng đến hạn mức thu thập dữ liệu.nofollow
, Google vẫn sẽ thu thập dữ liệu URL đó nếu một trang khác trên trang web của bạn (hay bất kỳ trang nào khác trên web) không gắn nhãn nofollow
cho đường liên kết.noindex
để kiểm soát hạn mức thu thập dữ liệu.noindex
.
Tuy nhiên,
noindex
sẽ giúp bạn chặn việc đưa trang vào chỉ mục. Nếu bạn muốn đảm bảo rằng những trang đó không xuất hiện trong chỉ mục của Google, hãy tiếp tục sử dụng noindex
và đừng lo về hạn mức thu thập dữ liệu. Ngoài ra, xin lưu ý rằng nếu bạn xoá URL khỏi chỉ mục của Google bằng noindex
hoặc cách khác, thì Googlebot có thể tập trung vào các URL khác trên trang web của bạn, tức lànoindex
có thể gián tiếp giải phóng một lượng hạn mức thu thập dữ liệu cho trang web của bạn về lâu dài.
4xx
đang làm lãng phí hạn mức thu thập dữ liệu.4xx
(ngoại trừ 429
) không gây lãng phí hạn mức thu thập dữ liệu. Google đã cố gắng thu thập dữ liệu trên trang, nhưng nhận được một mã trạng thái và không có nội dung nào khác.