Cách thức Google thu thập dữ liệu trên trang thích ứng theo ngôn ngữ
Nếu trang web của bạn có các trang thích ứng theo ngôn ngữ (tức là trang web của bạn trả lại những nội dung khác nhau dựa trên quốc gia theo suy đoán của hệ thống hoặc ngôn ngữ ưu tiên của người dùng), thì Google có thể sẽ không thu thập dữ liệu, lập chỉ mục hoặc xếp hạng tất cả nội dung cho các ngôn ngữ khác nhau. Điều này là do địa chỉ IP mặc định của trình thu thập dữ liệu Googlebot có vẻ như được đặt tại Hoa Kỳ. Ngoài ra, trình thu thập dữ liệu này còn gửi các yêu cầu HTTP mà không đặt Accept-Language
trong tiêu đề của yêu cầu.
Thu thập dữ liệu theo vị trí địa lý
Googlebot thu thập dữ liệu bằng cả địa chỉ IP tại Hoa Kỳ và địa chỉ IP bên ngoài Hoa Kỳ.
Như chúng tôi vẫn luôn đề xuất, khi Googlebot có vẻ như đến từ một quốc gia nhất định, thì hãy xem Googlebot như bất kỳ người dùng nào khác từ quốc gia đó. Điều này có nghĩa là nếu bạn chặn không cho người dùng tại Hoa Kỳ truy cập vào nội dung của bạn nhưng lại cho phép khách truy cập tại Úc thấy nội dung đó, thì máy chủ của bạn nên chặn một Googlebot có vẻ như đến từ Hoa Kỳ nhưng cấp quyền truy cập cho một Googlebot có vẻ như đến từ Úc.
Các lưu ý khác
- Googlebot sử dụng cùng một chuỗi tác nhân người dùng cho tất cả cấu hình thu thập dữ liệu. Hãy tìm hiểu thêm về các chuỗi tác nhân người dùng mà trình thu thập dữ liệu của Google sử dụng.
- Bạn có thể xác minh các lần Googlebot thu thập dữ liệu theo vị trí địa lý bằng quy trình tra cứu DNS ngược.
- Hãy đảm bảo rằng trang web của bạn áp dụng giao thức loại trừ cho robot một cách nhất quán cho mọi ngôn ngữ. Điều này nghĩa là thẻ
meta
robots và tệp robots.txt phải chỉ định các lệnh như nhau cho mọi ngôn ngữ.