Câu hỏi thường gặp về robots
Câu hỏi chung về robots
Trang web của tôi có cần tệp robots.txt không?
Không. Khi Googlebot truy cập một trang web, trước tiên chúng tôi yêu cầu quyền thu thập dữ liệu bằng cách cố gắng truy xuất tệp robots.txt. Thường thì một trang web không có tệp robots.txt, thẻ robots meta
hoặc tiêu đề HTTP X-Robots-Tag
sẽ được thu thập dữ liệu và lập chỉ mục như bình thường.
Tôi nên dùng phương thức nào để chặn các trình thu thập dữ liệu?
Còn tùy. Nói ngắn gọn thì có những lý do chính đáng để sử dụng từng phương thức sau:
-
robots.txt: Hãy dùng tệp này nếu việc thu thập dữ liệu nội dung đang gây ra vấn đề trên máy chủ của bạn. Ví dụ: bạn nên chặn việc thu thập dữ liệu trên các tập lệnh lịch vô hạn. Đừng dùng tệp robots.txt để chặn nội dung riêng tư (mà hãy dùng phương thức xác thực phía máy chủ) hoặc để xử lý quá trình chuẩn hoá .
Để đảm bảo Google không lập chỉ mục một URL, hãy chuyển sang sử dụng thẻ
meta
robots hoặc tiêu đề HTTPX-Robots-Tag
. -
Thẻ
meta
robots: Hãy dùng thẻ này nếu bạn cần kiểm soát cách thức xuất hiện của một trang HTML đơn lẻ trong kết quả tìm kiếm hoặc để đảm bảo trang này không xuất hiện. - Tiêu đề HTTP
X-Robots-Tag
: Hãy dùng cách này nếu bạn cần kiểm soát cách thức xuất hiện của nội dung trong kết quả tìm kiếm hoặc để đảm bảo nội dung đó không xuất hiện.
Tôi có thể dùng tệp robots.txt, thẻ meta
robots hoặc tiêu đề HTTP X-Robots-Tag
để xoá trang web của người khác khỏi kết quả tìm kiếm không?
Không. Những phương thức này chỉ áp dụng được cho những trang web mà bạn có thể sửa đổi mã hoặc thêm tệp. Hãy tìm hiểu thêm về cách xóa thông tin khỏi Google.
Làm cách nào để tôi có thể làm chậm quá trình thu thập dữ liệu của Google trên trang web của tôi?
Thường thì bạn có thể điều chỉnh chế độ cài đặt tốc độ thu thập dữ liệu trong tài khoản Google Search Console của mình.
Câu hỏi về tệp robots.txt
Tôi dùng cùng một tệp robots.txt cho nhiều trang web. Tôi có thể dùng một URL đầy đủ thay cho một đường dẫn tương đối không?
Không. Các quy tắc trong tệp robots.txt (ngoại trừ sitemap:
) chỉ hợp lệ đối với các đường dẫn tương đối.
Tôi có thể đặt tệp robots.txt trong một thư mục con không?
Không. Tệp phải được đặt trong thư mục cấp cao nhất của trang web.
Tôi muốn chặn một thư mục riêng tư. Tôi có thể ngăn người khác đọc tệp robots.txt của tôi không?
Không. Tệp robots.txt cho phép nhiều người dùng đọc được. Nếu không muốn công khai thư mục hoặc tên tệp chứa nội dung, thì bạn đừng đưa những nội dung như vậy vào tệp robots.txt. Bạn không nên phân phát nhiều tệp robots.txt dựa trên tác nhân người dùng hoặc các thuộc tính khác.
Tôi có phải dùng quy tắc allow
để cho phép thu thập dữ liệu không?
Không, bạn không cần dùng quy tắc allow
. Tất cả URL đều được ngầm hiểu là đã được cho phép và quy tắc allow
được dùng để ghi đè quy tắc disallow
trong cùng một tệp robots.txt.
Điều gì sẽ xảy ra nếu tệp robots.txt của tôi có lỗi hoặc tôi dùng một quy tắc không được hỗ trợ?
Các trình thu thập dữ liệu web nói chung rất linh hoạt và thường sẽ không bị ảnh hưởng khi có những sai sót nhỏ trong tệp robots.txt. Nhìn chung, tình huống xấu nhất có thể xảy ra là trình thu thập dữ liệu sẽ bỏ qua những quy tắc không chính xác hoặc không được hỗ trợ. Tuy nhiên, hãy lưu ý rằng mặc dù Google không thể đọc suy nghĩ của bạn khi diễn giải tệp robots.txt nhưng chúng tôi vẫn phải diễn giải tệp robots.txt mà chúng tôi tìm nạp được. Dù vậy, nếu bạn biết có vấn đề trong tệp robots.txt của mình thì việc khắc phục những vấn đề này thường khá dễ dàng.
Tôi nên dùng chương trình nào để tạo tệp robots.txt?
Bạn có thể dùng bất kỳ chương trình gì có khả năng tạo một tệp văn bản hợp lệ. Những chương trình thường được dùng để tạo tệp robots.txt là Notepad, TextEdit, vi hoặc emacs. Đọc thêm về cách tạo tệp robots.txt. Sau khi tạo tệp, hãy dùng Trình kiểm tra robots.txt để xác thực tệp đó.
Nếu tôi dùng một quy tắc disallow
trong tệp robots.txt để chặn Google thu thập dữ liệu trên một trang, thì trang đó có biến mất khỏi kết quả tìm kiếm không?
Việc chặn Google thu thập dữ liệu trên một trang có thể khiến trang đó bị xoá khỏi chỉ mục của Google.
Tuy nhiên, lệnh disallow
trong tệp robots.txt không đảm bảo rằng một trang sẽ không xuất hiện trong kết quả: Google vẫn có thể quyết định sự phù hợp của một trang dựa trên những thông tin bên ngoài như các đường liên kết đến trang đó để hiển thị URL đó trong kết quả. Nếu bạn muốn đảm bảo rằng Google không lập chỉ mục một trang nào đó, hãy dùng thẻ meta
robots noindex
hoặc tiêu đề HTTP X-Robots-Tag
. Trong trường hợp này, đừng dùng lệnh disallow trong tệp robots.txt đối với trang này do trang này phải được thu thập dữ liệu để Google có thể nhìn thấy và tuân theo thẻ. Tìm hiểu cách kiểm soát nội dung bạn chia sẻ với Google
Sẽ mất bao lâu để những thay đổi trong tệp robots.txt của tôi tác động đến kết quả tìm kiếm?
Trước hết, bộ nhớ đệm của tệp robots.txt phải được làm mới (chúng tôi thường lưu nội dung vào bộ nhớ đệm trong tối đa một ngày). Bạn có thể tăng tốc quá trình này bằng cách gửi tệp robots.txt đã cập nhật cho Google. Ngay cả sau khi tìm thấy nội dung thay đổi, việc thu thập dữ liệu và lập chỉ mục vẫn là một quá trình phức tạp và đôi khi có thể tốn nhiều thời gian đối với các URL riêng lẻ. Vì vậy, chúng tôi không thể đưa ra thời gian chính xác. Ngoài ra, hãy lưu ý rằng ngay cả khi tệp robots.txt của bạn đang chặn quyền truy cập vào một URL nào đó, URL đó có thể vẫn xuất hiện trong kết quả tìm kiếm dù chúng tôi không thể thu thập dữ liệu. Nếu bạn muốn đẩy nhanh việc xóa những trang bạn đã chặn khỏi Google, hãy gửi một yêu cầu xóa.
Làm cách nào để tôi có thể tạm ngưng toàn bộ hoạt động thu thập dữ liệu trên trang web của mình?
Bạn có thể tạm ngưng toàn bộ hoạt động thu thập dữ liệu bằng cách trả về một mã trạng thái HTTP 503 (service unavailable)
cho mọi URL, trong đó có tệp robots.txt. Chúng tôi sẽ đều đặn thử truy cập lại vào tệp robots.txt đó cho đến khi thành công. Bạn không nên thay đổi tệp robots.txt để chặn hoạt động thu thập dữ liệu.
Máy chủ của tôi không phân biệt chữ hoa chữ thường. Làm cách nào để tôi có thể chặn hoàn toàn việc thu thập dữ liệu một số thư mục?
Quy tắc trong tệp robots.txt có phân biệt chữ hoa chữ thường. Trong trường hợp này, bạn nên đảm bảo rằng chỉ một phiên bản của URL được lập chỉ mục bằng phương thức chuẩn hoá.
Cách này cho phép bạn giảm số dòng trong tệp robots.txt, nhờ đó bạn có thể quản lý tệp dễ dàng hơn. Nếu cách này không khả thi, bạn nên liệt kê các tổ hợp phổ biến của tên thư mục hoặc rút ngắn tối đa tên thư mục bằng cách chỉ sử dụng vài ký tự đầu tiên thay vì tên đầy đủ. Ví dụ: thay vì liệt kê tất cả phiên bản viết hoa và viết thường của /MyPrivateFolder
, bạn có thể liệt kê các phiên bản /MyP
(nếu bạn chắc chắn rằng trong số những URL có thể thu thập dữ liệu khác, không có URL nào có những ký tự đầu tiên như vậy). Ngoài ra, bạn có thể chuyển sang dùng thẻ meta
robots hoặc tiêu đề HTTP X-Robots-Tag
nếu hoạt động thu thập dữ liệu không gây ra vấn đề gì.
Tôi trả về mã trạng thái 403 Forbidden
cho mọi URL, bao gồm cả tệp robots.txt. Tại sao trang web của tôi vẫn được thu thập dữ liệu?
Mã trạng thái HTTP 403 Forbidden
(cũng như các mã trạng thái HTTP 4xx
khác) được diễn giải là tệp robots.txt không tồn tại. Tức là trình thu thập dữ liệu thường sẽ mặc nhiên cho rằng có thể thu thập dữ liệu mọi URL của trang web. Để chặn hoạt động thu thập dữ liệu trên trang web, bạn phải trả về tệp robots.txt bằng một mã trạng thái HTTP 200 OK
và tệp đó phải chứa quy tắc disallow
thích hợp.
Câu hỏi về thẻ meta
robots
Thẻ meta
robots có thay thế cho tệp robots.txt được không?
Không. Tệp robots.txt kiểm soát những trang nào được truy cập. Thẻ meta
robots kiểm soát việc liệu một trang có được lập chỉ mục hay không, nhưng để xem thẻ này, trang đó phải được thu thập dữ liệu.
Nếu hoạt động thu thập dữ liệu trên một trang gây ra vấn đề (ví dụ: nếu trang đó gây ra tình trạng tải cao trên máy chủ), thì hãy dùng tệp robots.txt. Nếu vấn đề chỉ là một trang có xuất hiện trong kết quả tìm kiếm hay không, thì bạn có thể dùng thẻ meta
robots.
Tôi có thể dùng thẻ meta
robots để chặn việc lập chỉ mục một phần của một trang được không?
Không, thẻ meta
robots là chế độ cài đặt cấp trang.
Tôi có thể sử dụng thẻ meta
robots bên ngoài phần <head>
không?
Không, thẻ meta
robots cần phải nằm trong phần <head>
của trang.
Thẻ meta
robots có cho phép thu thập dữ liệu không?
Không. Ngay cả khi thẻ meta
robots hiện có giá trị noindex
, chúng tôi thỉnh thoảng vẫn cần thu thập lại dữ liệu trên URL đó để kiểm tra xem thẻ meta
có thay đổi hay không.
Thẻ meta
robots nofollow
có gì khác so với thuộc tính liên kết rel="nofollow"
?
Thẻ meta
robots nofollow
áp dụng cho tất cả đường liên kết trên một trang. Thuộc tính liên kết rel="nofollow"
chỉ áp dụng cho một số đường liên kết cụ thể trên một trang.
Để biết thêm thông tin về thuộc tính liên kết rel="nofollow"
, hãy xem tài liệu của chúng tôi về nội dung rác do người dùng tạo và rel="nofollow"
.
Các câu hỏi về tiêu đề HTTP X-Robots-Tag
Làm cách nào để tôi có thể kiểm tra X-Robots-Tag
cho một URL?
Một cách đơn giản để xem tiêu đề máy chủ là dùng tính năng Công cụ kiểm tra URL trong Google Search Console. Để kiểm tra tiêu đề phản hồi của URL bất kỳ, hãy thử tìm kiếm "trình kiểm tra tiêu đề máy chủ".