Feedfetcher

Feedfetcher là cách thức Google thu thập dữ liệu trên các nguồn cấp dữ liệu RSS hoặc Atom cho Google News và PubSubHubbub. Feedfetcher lưu trữ và định kỳ làm mới nguồn cấp dữ liệu mà người dùng ứng dụng hoặc người dùng dịch vụ yêu cầu. Chỉ có nguồn cấp dữ liệu podcast mới được lập chỉ mục trong Google Tìm kiếm; tuy nhiên, nếu một nguồn cấp dữ liệu không tuân theo thông số kỹ thuật Atom hoặc RSS, thì nguồn cấp dữ liệu đó vẫn có thể được lập chỉ mục. Sau đây là câu trả lời cho một số câu hỏi thường gặp nhất về cách hoạt động của trình lấy nguồn cấp dữ liệu do người dùng kiểm soát này.

Làm thế nào để yêu cầu Google không truy xuất một số hoặc tất cả nguồn cấp dữ liệu của trang web của tôi?

Khi người dùng thêm một dịch vụ hoặc ứng dụng có dùng dữ liệu Feedfetcher, thì Feedfetcher của Google sẽ tìm cách lấy nội dung của nguồn cấp dữ liệu để hiển thị dữ liệu đó. Vì các yêu cầu Feedfetcher xuất phát từ hành động rõ ràng của người dùng, chứ không phải từ trình thu thập dữ liệu tự động, nên Feedfetcher bỏ qua các quy tắc trong tệp robots.txt.

Nếu nguồn cấp dữ liệu của bạn là công khai, Google không thể hạn chế người dùng truy cập vào đó. Có một giải pháp là định cấu hình trang web của bạn để phân phát mã 404, mã 410 hoặc một thông báo trạng thái lỗi khác cho tác nhân người dùng Feedfetcher-Google.

Nếu nguồn cấp dữ liệu của bạn là do một dịch vụ lưu trữ trang web hoặc blog cung cấp, hãy làm việc trực tiếp với dịch vụ đó để hạn chế quyền truy cập vào nguồn cấp dữ liệu của bạn.

Feedfetcher truy xuất nguồn cấp dữ liệu của tôi với tần suất như thế nào?

Với hầu hết trang web, trung bình Feedfetcher sẽ không truy xuất nguồn cấp dữ liệu nhiều hơn một lần trong vài giờ. Có thể một số trang web được cập nhật thường xuyên sẽ được làm mới thường xuyên hơn. Tuy nhiên, hãy lưu ý rằng vì độ trễ mạng nên có vẻ như Feedfetcher truy xuất nguồn cấp dữ liệu của bạn thường xuyên hơn tại một số thời điểm.

Tại sao Feedfetcher lại tìm cách tải các đường liên kết không chính xác xuống qua máy chủ của tôi hoặc qua một miền không tồn tại?

Feedfetcher truy xuất nguồn cấp dữ liệu theo yêu cầu của các dịch vụ hoặc ứng dụng do người dùng cài đặt. Có thể người dùng đã yêu cầu một URL nguồn cấp dữ liệu không tồn tại.

Tại sao Feedfetcher tải thông tin xuống qua máy chủ web "bí mật" của tôi?

Feedfetcher truy xuất nguồn cấp dữ liệu theo yêu cầu của các dịch vụ hoặc ứng dụng do người dùng cài đặt. Có thể yêu cầu này xuất phát từ một người dùng biết về máy chủ "bí mật" của bạn hoặc người dùng đã nhập nhầm.

Tại sao Feedfetcher không tuân theo tệp robots.txt của tôi?

Feedfetcher chỉ truy xuất nguồn cấp dữ liệu sau khi người dùng đã thể hiện rõ việc sử dụng một dịch vụ hoặc ứng dụng yêu cầu dữ liệu trong nguồn cấp. Feedfetcher hoạt động như một tác nhân trực tiếp của người dùng thực chứ không phải như một robot, vì vậy công cụ này bỏ qua các mục trong robots.txt. Vì hoạt động như một tác nhân cho nhiều người dùng, Feedfetcher tiết kiệm băng thông bằng cách yêu cầu những nguồn cấp dữ liệu phổ biến chỉ một lần cho tất cả người dùng yêu cầu những nguồn cấp dữ liệu đó qua một ứng dụng hoặc dịch vụ. RSS và Atom là các nguồn cấp dữ liệu phổ biến.

Bạn có thể ngăn Feedfetcher thu thập dữ liệu trên trang web của mình bằng cách định cấu hình máy chủ để phân phát mã 404, mã 410 hoặc một thông báo trạng thái lỗi khác đến tác nhân người dùng Feedfetcher-Google.

Tại sao lại xuất hiện những lần truy cập từ nhiều máy tại Google.com và tất cả đều có tác nhân người dùng Feedfetcher?

Feedfetcher được thiết kế để phân phối trên nhiều máy nhằm cải thiện hiệu suất và quy mô khi web phát triển. Để giảm mức băng thông, các máy được dùng thường nằm gần các trang web mà các máy đó đang truy xuất trong mạng.

Google có thể cho tôi biết những địa chỉ IP mà qua đó Feedfetcher thực hiện yêu cầu để tôi có thể lọc dữ liệu trong nhật ký của mình được không?

Địa chỉ IP mà Feedfetcher sử dụng có trong đối tượng user-triggered-fetchers-google.json.

Tại sao Feedfetcher nhiều lần tải cùng một trang trên trang web của tôi xuống?

Nhìn chung, Feedfetcher chỉ tải một bản sao của mỗi tệp trên trang web của bạn xuống trong một lần truy xuất nguồn cấp dữ liệu nhất định. Chỉ thỉnh thoảng các máy mới bị dừng và khởi động lại, nhưng điều này có thể khiến Feedfetcher truy xuất lại các trang mới truy cập gần đây.

Feedfetcher thu thập dữ liệu những loại đường liên kết nào?

Không giống như các trình thu thập dữ liệu web thông thường, Feedfetcher hoàn toàn không khám phá các đường liên kết để thu thập dữ liệu. Thay vào đó, Feedfetcher thu thập dữ liệu một URL duy nhất do người dùng của một dịch vụ hoặc ứng dụng sử dụng Feedfetcher cung cấp.

Thắc mắc của tôi về Feedfetcher chưa được giải đáp tại đây. Tôi có thể tìm thêm trợ giúp ở đâu?

Nếu bạn vẫn gặp vấn đề, hãy thử đăng câu hỏi của bạn lên diễn đàn của Trung tâm Tìm kiếm.