Feedfetcher

Feedfetcher คือวิธีที่ Google ทำการ Crawl ฟีด RSS หรือ Atom สำหรับ Google News และ PubSubHubbub Feedfetcher จะจัดเก็บและรีเฟรชฟีดที่ผู้ใช้แอปหรือบริการขอเป็นระยะๆ เฉพาะฟีดพอดแคสต์เท่านั้นที่จะจัดทำดัชนีใน Google Search และอาจจะยังจัดทำดัชนีแม้ว่าฟีดนั้นไม่เป็นไปตามข้อกำหนด Atom หรือ RSS ต่อไปนี้เป็นคำตอบของคำถามที่พบบ่อยเกี่ยวกับวิธีการทำงานของโปรแกรมดึงฟีดที่ผู้ใช้ควบคุม

ฉันจะขอไม่ให้ Google เรียกฟีดของเว็บไซต์บางส่วนหรือทั้งหมดได้อย่างไร

Feedfetcher ของ Google จะพยายามรับเนื้อหาของฟีดมาแสดง เมื่อผู้ใช้เพิ่มบริการหรือแอปที่ใช้ข้อมูล Feedfetcher เนื่องจากคำขอของ Feedfetcher มาจากการกระทำที่ชัดแจ้งของผู้ใช้ที่เป็นมนุษย์ และไม่ได้มาจาก Crawler อัตโนมัติ Feedfetcher จึงเพิกเฉยกฎของ robots.txt

หากฟีดของคุณเผยแพร่แบบสาธารณะ Google จะจำกัดการเข้าถึงของผู้ใช้ไม่ได้ วิธีแก้ไขวิธีหนึ่งคือ กำหนดค่าเว็บไซต์ให้แสดงข้อความแสดงสถานะข้อผิดพลาด 404, 410 หรืออื่นๆ ไปยัง User Agent ของ Feedfetcher-Google

หากฟีดได้มาจากบล็อกหรือบริการโฮสติ้งเว็บไซต์ โปรดติดต่อบริการนั้นๆ โดยตรงให้จำกัดการเข้าถึงฟีดดังกล่าว

Feedfetcher จะรวบรวมข้อมูลฟีดของฉันบ่อยเพียงใด

โดยเฉลี่ยแล้ว Feedfetcher ไม่ควรรวบรวมฟีดจากเว็บไซต์ส่วนใหญ่เกินชั่วโมงละครั้ง เว็บไซต์ที่อัปเดตบ่อยบางเว็บอาจมีการรีเฟรชบ่อยกว่านั้น อย่างไรก็ตาม โปรดทราบว่าเนื่องจากเครือข่ายมีความล่าช้า Feedfetcher จึงอาจปรากฏขึ้นชั่วครู่เพื่อรวบรวมข้อมูลฟีดของคุณให้บ่อยขึ้น

ทำไม Feedfetcher พยายามดาวน์โหลดลิงก์ที่ไม่ถูกต้องจากเซิร์ฟเวอร์ของฉัน หรือจากโดเมนที่ไม่มีอยู่

Feedfetcher รวบรวมข้อมูลฟีดตามคำขอของบริการหรือแอปที่ผู้ใช้ติดตั้ง เป็นไปได้ว่าผู้ใช้อาจขอ URL ฟีดที่ไม่มีอยู่

ทำไม Feedfetcher ดาวน์โหลดข้อมูลจากเว็บเซิร์ฟเวอร์ "ลับ" ของฉัน

Feedfetcher รวบรวมข้อมูลฟีดตามคำขอของบริการหรือแอปที่ผู้ใช้ติดตั้ง เป็นไปได้ว่าคำขอมาจากผู้ใช้ที่ทราบเกี่ยวกับเซิร์ฟเวอร์ "ลับ" ของคุณหรือเกิดการพิมพ์ผิดโดยไม่ได้ตั้งใจ

ทำไม Feedfetcher ไม่ทำตามไฟล์ robots.txt ของฉัน

Feedfetcher จะรวบรวมข้อมูลฟีดเฉพาะหลังจากที่ผู้ใช้ดำเนินการอย่างชัดแจ้งเพื่อเริ่มใช้บริการหรือแอปที่ขอข้อมูลจากฟีด โดย Feedfetcher ทำหน้าที่เป็นตัวแทนตรงของผู้ใช้ที่เป็นมนุษย์ ไม่ใช่โรบ็อต ด้วยเหตุนี้จึงไม่สนใจรายการใน robots.txt เนื่องจาก Feedfetcher ทำหน้าที่เป็นตัวแทนของผู้ใช้หลายคน จึงประหยัดแบนด์วิดท์ด้วยการขอฟีดทั่วไปเพียงครั้งเดียวสำหรับผู้ใช้ทุกคนที่ขอฟีดผ่านแอปหรือบริการ ฟีดทั่วไปคือ RSS และ Atom

คุณป้องกันไม่ให้ Feedfetcher ทำการ Crawl เว็บไซต์ได้โดยกำหนดค่าเซิร์ฟเวอร์ให้แสดงข้อความสถานะข้อผิดพลาด 404, 410 หรืออื่นๆ ไปยัง User Agent ของ Feedfetcher-Google

ทำไมจึงมีการเข้าชมจากคอมพิวเตอร์หลายเครื่องที่ Google.com โดยทั้งหมดมาพร้อมกับ user-agent Feedfetcher

Feedfetcher ได้รับการออกแบบมาให้กระจายการทำงานในคอมพิวเตอร์หลายเครื่องเพื่อปรับปรุงประสิทธิภาพการทำงานและขนาดในขณะที่เว็บเติบโตขึ้น คอมพิวเตอร์เครื่องต่างๆ ที่ใช้มักตั้งอยู่ใกล้กับเว็บไซต์ที่ตัวเครื่องกำลังรวบรวมข้อมูลในเครือข่าย เพื่อลดการใช้แบนด์วิดท์

ช่วยบอกที่อยู่ IP ที่ Feedfetcher สร้างคำขอได้ไหม ฉันจะได้กรองบันทึก

ที่อยู่ IP ที่ Feedfetcher ใช้จะรวมอยู่ในออบเจ็กต์ user-triggered-fetchers-google.json

ทำไม Feedfetcher ดาวน์โหลดหน้าเดิมในเว็บไซต์หลายครั้ง

โดยทั่วไป Feedfetcher จะดาวน์โหลดสำเนาของแต่ละไฟล์เพียงสำเนาเดียวจากเว็บไซต์ของคุณในระหว่างการรวบรวมข้อมูลฟีดครั้งหนึ่งๆ ในบางครั้ง เครื่องจะหยุดและรีสตาร์ท ซึ่งอาจเป็นสาเหตุให้รวบรวมข้อมูลหน้าที่เพิ่งเข้าชมไปอีกครั้ง

Feedfetcher ทำการ Crawl ลิงก์ประเภทใด

Feedfetcher จะไม่ค้นหาลิงก์ที่จะทำการ Crawl เลย แต่จะทำการ Crawl URL เดียวซึ่งได้รับจากผู้ที่ใช้บริการหรือแอปที่ใช้ Feedfetcher แทน ซึ่งแตกต่างจาก Web Crawler ทั่วไป

ที่นี่ไม่มีคำตอบสำหรับสิ่งที่ฉันถามเกี่ยวกับ Feedfetcher ฉันจะขอรับความช่วยเหลือเพิ่มเติมได้จากที่ใด

หากยังคงพบปัญหา ให้ลองโพสต์คำถามใน ฟอรัมของ Search Central