ข้อมูลเบื้องต้นเกี่ยวกับ robots.txt

ไฟล์ robots.txt จะบอก Crawler ของเครื่องมือค้นหาว่า URL ใดในเว็บไซต์ที่ Crawler เข้ามาได้ ซึ่งโดยหลักจะใช้เพื่อหลีกเลี่ยงไม่ให้มีการส่งคำขอมากเกินไป แต่ไม่ได้ใช้เพื่อกันหน้าเว็บออกจาก Google หากต้องการกันหน้าเว็บออกจาก Google ให้บล็อกการจัดทำดัชนีด้วย noindex หรือป้องกันหน้าเว็บด้วยรหัสผ่าน

ไฟล์ robots.txt ใช้ทําอะไร

ไฟล์ robots.txt ใช้เพื่อจัดการปริมาณการเข้ามาของ Crawler เป็นหลัก และโดยปกติจะใช้เพื่อกันไฟล์ออกจาก Google ทั้งนี้ขึ้นอยู่กับประเภทของไฟล์ ดังนี้

robots.txt มีผลกับไฟล์ประเภทต่างๆ
หน้าเว็บ

คุณสามารถใช้ไฟล์ robots.txt สําหรับหน้าเว็บ (HTML, PDF หรือรูปแบบที่ไม่ใช่สื่อรูปแบบอื่นๆ ที่ Google อ่านได้) เพื่อจัดการปริมาณการ Crawl ได้หากคิดว่า Crawler ของ Google จะส่งคำขอเซิร์ฟเวอร์มากเกินไป หรือเพื่อหลีกเลี่ยงการ Crawl ที่ไม่สำคัญหรือในหน้าเว็บที่คล้ายกันของเว็บไซต์

หากบล็อกหน้าเว็บด้วยไฟล์ robots.txt URL ของหน้าจะยังคงปรากฏในผลการค้นหาได้ แต่ผลการค้นหาจะไม่มีคำอธิบาย ไฟล์ภาพ, ไฟล์วิดีโอ, ไฟล์ PDF และไฟล์ที่ไม่ใช่ HTML อื่นๆ ที่ฝังอยู่ในหน้าที่ถูกบล็อกจะได้รับการยกเว้นจากการ Crawl ด้วย เว้นแต่หน้าเว็บอื่นๆ ที่ได้รับอนุญาตให้ทำการ Crawl ไว้ หากเห็นหน้าเว็บของคุณในผลการค้นหาลักษณะนี้และต้องการแก้ไข ให้ลบรายการ robots.txt ที่บล็อกหน้าดังกล่าว หากต้องการซ่อนหน้าเว็บจาก Search ไปเลย ให้ใช้วิธีการอื่น

ไฟล์สื่อ

ใช้ไฟล์ robots.txt เพื่อจัดการปริมาณการ Crawl และป้องกันไม่ให้ไฟล์ภาพ วิดีโอ และเสียงปรากฏในผลการค้นหาของ Google การทำเช่นนี้ไม่ได้ป้องกันไม่ให้หน้าเว็บหรือผู้ใช้อื่นๆ ลิงก์ไปยังไฟล์ภาพ วิดีโอ หรือเสียงนั้นๆ

ไฟล์ทรัพยากร คุณสามารถใช้ไฟล์ robots.txt บล็อกไฟล์ทรัพยากรต่างๆ ได้ เช่น รูปภาพที่ไม่สำคัญ สคริปต์ หรือไฟล์รูปแบบ หากคิดว่าหน้าที่โหลดโดยไม่มีทรัพยากรเหล่านี้จะไม่ได้รับผลกระทบอย่างชัดเจนจากการขาดไฟล์ดังกล่าว อย่างไรก็ตาม หากไม่มีทรัพยากรเหล่านี้แล้วทำให้ Crawler ของ Google เข้าใจหน้าเว็บได้ยากขึ้น ก็อย่าบล็อกทรัพยากรเหล่านี้ เพราะจะทำให้ Google วิเคราะห์หน้าเว็บที่ต้องอาศัยทรัพยากรเหล่านั้นได้ไม่ดีเท่าที่ควร

ทําความเข้าใจเรื่องข้อจํากัดของไฟล์ robots.txt

ก่อนที่จะสร้างหรือแก้ไขไฟล์ robots.txt คุณควรรู้ถึงข้อจำกัดของการบล็อก URL ด้วยวิธีนี้ และอาจใช้กลไกอื่นๆ เพื่อให้แน่ใจว่า URL ของคุณจะค้นไม่เจอในเว็บ ทั้งนี้ขึ้นอยู่กับเป้าหมายและสถานการณ์ของคุณ

  • เครื่องมือค้นหาบางรายการอาจไม่รองรับกฎ robots.txt
    คำสั่งในไฟล์ robots.txt ไม่อาจบังคับให้ Crawler ทำงานกับเว็บไซต์ของคุณตามต้องการ เพราะการทำตามคำสั่งจะขึ้นอยู่กับตัว Crawler นั้นเอง แม้ว่า Googlebot และ Web Crawler ที่เชื่อถือได้อื่นๆ จะทำตามคำสั่งในไฟล์ robots.txt แต่ Crawler อื่นๆ อาจไม่ทำตามก็ได้ ดังนั้น ถ้าต้องการเก็บข้อมูลให้ปลอดภัยจาก Web Crawler เราขอแนะนำให้ใช้วิธีบล็อกอื่นๆ เช่น การปกป้องไฟล์ส่วนตัวในเซิร์ฟเวอร์ของคุณด้วยรหัสผ่าน
  • Crawler ที่แตกต่างกันจะตีความไวยากรณ์ต่างกัน
    แม้ว่า Web Crawler ที่เชื่อถือได้จะทำตามกฎในไฟล์ robots.txt แต่ Crawler แต่ละโปรแกรมอาจตีความกฎแตกต่างกันได้ คุณควรทราบถึงไวยากรณ์ที่เหมาะสมเพื่อจัดการกับ Web Crawler แบบต่างๆ เนื่องจากบางโปรแกรมอาจไม่เข้าใจบางคำสั่ง
  • หน้าที่ไม่ได้รับอนุญาตในไฟล์ robots.txt จะยังจัดทําดัชนีได้หากลิงก์มาจากเว็บไซต์อื่น
    แม้ว่า Google จะไม่ทำการ Crawl หรือจัดทำดัชนีเนื้อหาที่ robots.txt บล็อกไว้ แต่เราก็อาจยังพบและจัดทำดัชนี URL ที่ไม่อนุญาตได้หากลิงก์มาจากที่อื่นๆ ในเว็บ ดังนั้น ที่อยู่ URL และอาจรวมถึงข้อมูลอื่นๆ ที่เผยแพร่ต่อสาธารณะ เช่น anchor text ในลิงก์ที่เชื่อมโยงไปยังหน้าอาจยังคงปรากฏในผลการค้นหาของ Google วิธีป้องกันที่ถูกต้องเพื่อไม่ให้ URL ปรากฏในผลการค้นหาของ Google คือการตั้งรหัสผ่านป้องกันไฟล์ในเซิร์ฟเวอร์ ใช้แท็ก meta noindex หรือส่วนหัวการตอบกลับ หรือนำหน้าดังกล่าวออกไปเลย

สร้างหรืออัปเดตไฟล์ robots.txt

โปรดดูวิธีสร้างไฟล์ robots.txt หากคุณคิดว่าจำเป็นต้องใช้ หรือหากมีไฟล์อัปเดตอยู่แล้ว ให้ดูวิธีอัปเดต

หากต้องการข้อมูลเพิ่มเติม ลองไปที่แหล่งข้อมูลต่อไปนี้