Cách thức Google thu thập dữ liệu trên trang thích ứng theo ngôn ngữ

Nếu trang web của bạn có các trang thích ứng theo ngôn ngữ (tức là trang web của bạn trả lại những nội dung khác nhau dựa trên quốc gia theo suy đoán của hệ thống hoặc ngôn ngữ ưu tiên của người dùng), thì Google có thể sẽ không thu thập dữ liệu, lập chỉ mục hoặc xếp hạng tất cả nội dung cho các ngôn ngữ khác nhau. Điều này là do địa chỉ IP mặc định của trình thu thập dữ liệu Googlebot có vẻ như được đặt tại Hoa Kỳ. Ngoài ra, trình thu thập dữ liệu này còn gửi các yêu cầu HTTP mà không thiết lập Accept-Language trong tiêu đề của yêu cầu.

Thu thập dữ liệu theo vị trí địa lý

Googlebot thu thập dữ liệu bằng cả địa chỉ IP tại Hoa Kỳ và địa chỉ IP bên ngoài Hoa Kỳ.

Như chúng tôi vẫn luôn đề xuất, khi Googlebot có vẻ như đến từ một quốc gia nhất định, thì hãy xem Googlebot như bất kỳ người dùng nào khác từ quốc gia đó. Điều này có nghĩa là nếu bạn chặn không cho người dùng tại Hoa Kỳ truy cập vào nội dung của mình nhưng lại cho phép khách truy cập tại Úc thấy nội dung đó, thì máy chủ của bạn nên chặn Googlebot nếu có vẻ như đến từ Hoa Kỳ nhưng sẽ cấp quyền truy cập cho Googlebot nếu có vẻ như đến từ Úc.

Các lưu ý khác

Googlebot sử dụng cùng một chuỗi tác nhân người dùng cho tất cả cấu hình thu thập dữ liệu. Tìm hiểu thêm về các chuỗi tác nhân người dùng mà trình thu thập dữ liệu của Google sử dụng.
Bạn có thể dùng phương pháp tra cứu DNS ngược để xác minh các lượt thu thập dữ liệu theo vị trí địa lý do Googlebot thực hiện.
Nếu trang web của bạn đang sử dụng giao thức loại trừ cho robot, hãy đảm bảo bạn áp dụng giao thức này một cách nhất quán đối với các ngôn ngữ. Điều này nghĩa là các thẻ meta robots và tệp robots.txt phải chỉ định các lệnh như nhau đối với mọi ngôn ngữ.