Danh sách các trình thu thập thông tin chung của Google
Các trình thu thập thông tin chung của Google dùng để tìm thông tin nhằm xây dựng chỉ mục tìm kiếm của Google, thực hiện các hoạt động thu thập dữ liệu khác theo sản phẩm cụ thể và để phân tích. Các trình thu thập dữ liệu này luôn tuân thủ các quy tắc trong tệp robots.txt trong quá trình thu thập dữ liệu tự động. Tính chất kỹ thuật chung của trình thu thập thông tin của Google cũng áp dụng cho trình thu thập thông tin chung.
Các trình thu thập thông tin chung thường thu thập dữ liệu qua các dải IP được xuất bản trong đối tượng googlebot.json và mặt nạ DNS ngược của tên máy chủ khớp với crawl-***-***-***-***.googlebot.com
hoặc geo-crawl-***-***-***-***.geo.googlebot.com
.
Danh sách sau đây cho thấy các trình thu thập thông tin chung, chuỗi tác nhân người dùng của các trình thu thập đó khi xuất hiện trong yêu cầu HTTP, mã tác nhân người dùng của các trình thu thập đó ở dòng User-agent:
trong tệp robots.txt và các sản phẩm bị ảnh hưởng bởi lựa chọn ưu tiên về thu thập dữ liệu tương ứng với trình thu thập dữ liệu. Một số trình thu thập thông tin có nhiều hơn một mã thông báo tác nhân người dùng; bạn chỉ cần so khớp với một mã thông báo trình thu thập dữ liệu để áp dụng một quy tắc. Danh sách này không đầy đủ, mà chỉ đề cập đến những trình yêu cầu mà mọi người thường đặt câu hỏi cho chúng tôi và có nhiều khả năng xuất hiện trong các tệp nhật ký.
-
Googlebot
-
User-Agent
trong yêu cầu HTTPGooglebot Smartphone Mozilla/5.0 (Linux; Android 6.0.1; Nexus 5X Build/MMB29P) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/W.X.Y.Z Mobile Safari/537.36 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)
Googlebot Desktop Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; Googlebot/2.1; +http://www.google.com/bot.html) Chrome/W.X.Y.Z Safari/537.36
Hiếm gặp:
Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)
Googlebot/2.1 (+http://www.google.com/bot.html)
robots.txt Mã thông báo tác nhân người dùng trong tệp robots.txt Googlebot
Ví dụ về nhóm tệp robots.txt user-agent: Googlebot allow: /archive/1Q84 disallow: /archive
Sản phẩm bị ảnh hưởng Lựa chọn ưu tiên về thu thập dữ liệu gửi đến tác nhân người dùng Googlebot
sẽ ảnh hưởng đến Google Tìm kiếm (kể cả Khám phá và tất cả các tính năng của Google Tìm kiếm), cũng như các sản phẩm khác như Google Hình ảnh, Google Video, Google News và Khám phá. Googlebot Image
-
Tác nhân người dùng trong yêu cầu HTTP Googlebot-Image/1.0
robots.txt Mã thông báo tác nhân người dùng trong tệp robots.txt Googlebot-Image
Googlebot
Ví dụ về nhóm tệp robots.txt user-agent: Googlebot-Image allow: /archive/1Q84 disallow: /archive/moons.jpg
Sản phẩm bị ảnh hưởng Lựa chọn ưu tiên về thu thập dữ liệu gửi đến tác nhân người dùng Googlebot-Image
sẽ ảnh hưởng đến Google Hình ảnh, Khám phá, Google Video và tất cả tính năng trong Google Tìm kiếm có xuất hiện hình ảnh, biểu trưng và biểu tượng trang chủ. Googlebot Video
-
Tác nhân người dùng trong yêu cầu HTTP Googlebot-Video/1.0
robots.txt Mã thông báo tác nhân người dùng trong tệp robots.txt Googlebot-Video
Googlebot
Ví dụ về nhóm tệp robots.txt user-agent: Googlebot-Video allow: /archive/1Q84 disallow: /archive/
Sản phẩm bị ảnh hưởng Lựa chọn ưu tiên về thu thập dữ liệu gửi đến tác nhân người dùng Googlebot-Video
sẽ ảnh hưởng đến các tính năng liên quan đến video trên Google Tìm kiếm và các sản phẩm khác phụ thuộc vào video. Googlebot News
-
Tác nhân người dùng trong yêu cầu HTTP Googlebot-news không có chuỗi tác nhân người dùng yêu cầu HTTP riêng. Việc thu thập dữ liệu được thực hiện bằng nhiều chuỗi tác nhân người dùng Googlebot. robots.txt Mã thông báo tác nhân người dùng trong tệp robots.txt Googlebot-News
Googlebot
Ví dụ về nhóm tệp robots.txt user-agent: Googlebot-News allow: /archive/1Q84 disallow: /archive/
Sản phẩm bị ảnh hưởng Lựa chọn ưu tiên về thu thập dữ liệu gửi đến tác nhân người dùng Googlebot-News
sẽ ảnh hưởng đến mọi nền tảng của Google News (ví dụ: thẻ Tin tức trên Google Tìm kiếm và ứng dụng Google News). Google StoreBot
-
Tác nhân người dùng trong yêu cầu HTTP Tác nhân cho máy tính Mozilla/5.0 (X11; Linux x86_64; Storebot-Google/1.0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/W.X.Y.Z Safari/537.36
Tác nhân cho thiết bị di động Mozilla/5.0 (Linux; Android 8.0; Pixel 2 Build/OPD3.170816.012; Storebot-Google/1.0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/W.X.Y.Z Mobile Safari/537.36
robots.txt Mã thông báo tác nhân người dùng trong tệp robots.txt Storebot-Google
Ví dụ về nhóm tệp robots.txt user-agent: Storebot-Google allow: /archive/1Q84 disallow: /archive/konbini
Sản phẩm bị ảnh hưởng Lựa chọn ưu tiên về thu thập dữ liệu gửi đến tác nhân người dùng Storebot-Google
sẽ ảnh hưởng đến tất cả nền tảng của Google Mua sắm (ví dụ: thẻ Mua sắm trong Google Tìm kiếm và Google Mua sắm). Google-InspectionTool
-
Tác nhân người dùng trong yêu cầu HTTP Tác nhân cho máy tính Mozilla/5.0 (compatible; Google-InspectionTool/1.0;)
Tác nhân cho thiết bị di động Mozilla/5.0 (Linux; Android 6.0.1; Nexus 5X Build/MMB29P) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/W.X.Y.Z Mobile Safari/537.36 (compatible; Google-InspectionTool/1.0;)
robots.txt Mã thông báo tác nhân người dùng trong tệp robots.txt Google-InspectionTool
Googlebot
Ví dụ về nhóm tệp robots.txt user-agent: Google-InspectionTool allow: /archive/1Q84 disallow: /archive/
Sản phẩm bị ảnh hưởng Lựa chọn ưu tiên về thu thập dữ liệu gửi đến tác nhân người dùng Google-InspectionTool
sẽ ảnh hưởng đến các công cụ kiểm tra của Tìm kiếm, chẳng hạn như Công cụ kiểm tra kết quả nhiều định dạng và Công cụ kiểm tra URL trong Search Console. Lựa chọn ưu tiên này không ảnh hưởng đến Google Tìm kiếm hoặc các sản phẩm khác. GoogleOther
-
Tác nhân người dùng trong yêu cầu HTTP Mozilla/5.0 (Linux; Android 6.0.1; Nexus 5X Build/MMB29P) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/W.X.Y.Z Mobile Safari/537.36 (compatible; GoogleOther)
Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; GoogleOther) Chrome/W.X.Y.Z Safari/537.36
robots.txt Mã thông báo tác nhân người dùng trong tệp robots.txt GoogleOther
Ví dụ về nhóm tệp robots.txt user-agent: GoogleOther allow: /archive/1Q84 disallow: /archive/
Sản phẩm bị ảnh hưởng Lựa chọn ưu tiên về thu thập dữ liệu gửi đến tác nhân người dùng GoogleOther
sẽ không ảnh hưởng đến bất kỳ sản phẩm cụ thể nào. GoogleOther là một trình thu thập thông tin chung có thể được nhiều nhóm sản phẩm sử dụng để tìm nạp nội dung có thể truy cập công khai trên các trang web. Ví dụ: có thể dùng để thu thập dữ liệu một lần cho mục đích nghiên cứu và phát triển nội bộ. Lựa chọn ưu tiên này không ảnh hưởng đến Google Tìm kiếm hoặc các sản phẩm khác. GoogleOther-Image
-
Tác nhân người dùng trong yêu cầu HTTP GoogleOther-Image/1.0
robots.txt Mã thông báo tác nhân người dùng trong tệp robots.txt GoogleOther-Image
GoogleOther
Ví dụ về nhóm tệp robots.txt user-agent: GoogleOther-Image allow: /archive/1Q84 disallow: /archive/moon.jpg
Sản phẩm bị ảnh hưởng Lựa chọn ưu tiên về thu thập dữ liệu gửi đến tác nhân người dùng GoogleOther-Image
sẽ không ảnh hưởng đến bất cứ sản phẩm cụ thể nào, tương tự như GoogleOther. GoogleOther-Image là phiên bản được tối ưu hoá của GoogleOther để tìm nạp các URL hình ảnh có thể truy cập công khai. GoogleOther-Video
-
Tác nhân người dùng trong yêu cầu HTTP GoogleOther-Video/1.0
robots.txt Mã thông báo tác nhân người dùng trong tệp robots.txt GoogleOther-Video
GoogleOther
Ví dụ về nhóm tệp robots.txt user-agent: GoogleOther-Video allow: /archive/1Q84 disallow: /archive
Sản phẩm bị ảnh hưởng Lựa chọn ưu tiên về hoạt động thu thập dữ liệu gửi đến tác nhân người dùng GoogleOther-Video
sẽ không ảnh hưởng đến bất cứ sản phẩm cụ thể nào, tương tự như GoogleOther. GoogleOther-Video là phiên bản được tối ưu hoá của GoogleOther để tìm nạp các URL video có thể truy cập công khai. Google-CloudVertexBot
-
Chuỗi con tác nhân người dùng trong các yêu cầu HTTP Google-CloudVertexBot
robots.txt Mã thông báo tác nhân người dùng trong tệp robots.txt Google-CloudVertexBot
Googlebot
Ví dụ về nhóm tệp robots.txt user-agent: Google-CloudVertexBot allow: /archive/1Q84 disallow: /archive/
Sản phẩm bị ảnh hưởng Lựa chọn ưu tiên về thu thập dữ liệu gửi đến tác nhân người dùng Google-CloudVertexBot
sẽ ảnh hưởng đến việc thu thập dữ liệu theo yêu cầu của chủ sở hữu trang web đối với việc xây dựng Tác nhân Vertex AI. Lựa chọn ưu tiên này không ảnh hưởng đến Google Tìm kiếm hoặc các sản phẩm khác. Google-Extended
-
Tác nhân người dùng trong yêu cầu HTTP Google-Extended không có chuỗi tác nhân người dùng yêu cầu HTTP riêng. Việc thu thập dữ liệu được thực hiện bằng các chuỗi tác nhân người dùng hiện có của Google; mã thông báo tác nhân người dùng robots.txt được dùng trong phạm vi có kiểm soát. robots.txt Mã thông báo tác nhân người dùng trong tệp robots.txt Google-Extended
Ví dụ về nhóm tệp robots.txt user-agent: Google-Extended allow: /archive/1Q84 disallow: /archive/
Sản phẩm bị ảnh hưởng Google-Extended
là một mã thông báo sản phẩm độc lập mà các nhà xuất bản web có thể dùng để quản lý việc trang web của họ có giúp cải thiện các API tạo sinh của các ứng dụng Gemini và Vertex AI hay không, kể cả những thế hệ mô hình sau này có hỗ trợ các sản phẩm đó. Tính năng liên kết thực tế với Google Tìm kiếm trên Vertex AI sẽ không dùng được các trang web để liên kết thực tế nếu các trang web đó không cho phép Google-Extended. Google-Extended không ảnh hưởng đến việc đưa vào hoặc xếp hạng một trang web trên Google Tìm kiếm.
Lưu ý về Chrome/W.X.Y.Z trong tác nhân người dùng
Chuỗi Chrome/W.X.Y.Z trong chuỗi tác nhân người dùng trong danh sách là phần giữ chỗ đại diện cho phiên bản của trình duyệt Chrome mà tác nhân người dùng đó sử dụng, ví dụ: 41.0.2272.96
. Số phiên bản này sẽ tăng theo thời gian để khớp với phiên bản phát hành mới nhất của Chromium mà Googlebot sử dụng.
Nếu bạn đang tìm/lọc tác nhân người dùng có mẫu này trong nhật ký/máy chủ, hãy sử dụng ký tự đại diện cho mã số phiên bản thay vì chỉ định một mã số phiên bản chính xác.