Cách thức Google thu thập dữ liệu trên các trang thay đổi theo ngôn ngữ
Nếu trang web của bạn có các trang chứa nội dung thay đổi theo quốc gia/ngôn ngữ (tức là trang web của bạn trả lại những nội dung khác nhau dựa trên quốc gia theo suy đoán của hệ thống hoặc ngôn ngữ ưu tiên của người dùng), thì Google có thể sẽ không thu thập dữ liệu, lập chỉ mục hoặc xếp hạng tất cả nội dung cho những ngôn ngữ đó. Điều này là do địa chỉ IP mặc định của trình thu thập dữ liệu Googlebot có vẻ như được đặt tại Hoa Kỳ. Ngoài ra, trình thu thập dữ liệu này còn gửi các yêu cầu HTTP mà không đặt Accept-Language
trong tiêu đề của yêu cầu.
Thu thập dữ liệu theo vị trí địa lý
Googlebot thu thập dữ liệu bằng cả địa chỉ IP tại Hoa Kỳ và địa chỉ IP bên ngoài Hoa Kỳ.
Như chúng tôi vẫn luôn đề xuất, khi Googlebot có vẻ như đến từ một quốc gia nhất định, thì bạn hãy xem Googlebot như một người dùng bất kỳ tại quốc gia đó. Điều này có nghĩa là nếu bạn chặn không cho người dùng tại Hoa Kỳ truy cập vào nội dung của bạn nhưng vẫn cho phép khách truy cập tại Úc thấy nội dung đó, thì máy chủ của bạn nên chặn một Googlebot có vẻ như đến từ Hoa Kỳ và cấp quyền truy cập cho một Googlebot có vẻ như đến từ Úc.
Các lưu ý khác
- Googlebot sử dụng cùng một chuỗi tác nhân người dùng cho tất cả cấu hình thu thập dữ liệu. Hãy tìm hiểu thêm về các chuỗi tác nhân người dùng mà trình thu thập dữ liệu của Google sử dụng.
- Bạn có thể xác minh các lần Googlebot thu thập dữ liệu theo vị trí địa lý bằng quy trình tra cứu DNS ngược.
- Hãy đảm bảo rằng trang web của bạn áp dụng giao thức loại trừ cho robot một cách nhất quán cho mọi ngôn ngữ. Như vậy tức là thẻ
meta
robots và tệp robots.txt phải chỉ định các lệnh như nhau cho mọi ngôn ngữ.