ข้อมูลเบื้องต้นเกี่ยวกับ robots.txt
ไฟล์ robots.txt จะบอกโปรแกรมรวบรวมข้อมูลของเครื่องมือค้นหาว่า URL ใดในเว็บไซต์ที่โปรแกรมเข้ารวบรวมข้อมูลได้
ซึ่งโดยหลักจะใช้เพื่อหลีกเลี่ยงไม่ให้มีการขอรวบรวมข้อมูลเว็บไซต์มากเกินไป แต่ไม่ได้ใช้เพื่อกันหน้าเว็บออกจาก Google หากต้องการกันหน้าเว็บออกจาก Google ให้บล็อกการจัดทำดัชนีด้วย noindex
หรือป้องกันหน้าเว็บด้วยรหัสผ่าน
ไฟล์ robots.txt ใช้ทําอะไร
ไฟล์ robots.txt ใช้เพื่อจัดการปริมาณการเข้ารวบรวมข้อมูลในเว็บไซต์เป็นหลัก และโดยปกติจะใช้เพื่อกันไฟล์ออกจาก Google ทั้งนี้ขึ้นอยู่กับประเภทของไฟล์ ดังนี้
robots.txt มีผลกับไฟล์ประเภทต่างๆ | |
---|---|
หน้าเว็บ |
คุณสามารถใช้ไฟล์ robots.txt สําหรับหน้าเว็บ (HTML, PDF หรือรูปแบบที่ไม่ใช่สื่อรูปแบบอื่นๆ ที่ Google อ่านได้) เพื่อจัดการปริมาณการเข้ารวบรวมข้อมูลได้หากคิดว่าโปรแกรมรวบรวมข้อมูลของ Google จะร้องขอเซิร์ฟเวอร์มากเกินไป หรือเพื่อหลีกเลี่ยงการรวบรวมข้อมูลที่ไม่สำคัญหรือในหน้าเว็บที่คล้ายกันของเว็บไซต์ หากบล็อกหน้าเว็บด้วยไฟล์ robots.txt URL ของหน้าจะยังคงปรากฏในผลการค้นหาได้ แต่ผลการค้นหาจะไม่มีคำอธิบาย ไฟล์ภาพ, ไฟล์วิดีโอ, PDF และไฟล์อื่นๆ ที่ไม่ใช่ HTML จะถูกตัดออก หากเห็นหน้าเว็บของคุณในผลการค้นหาลักษณะนี้และต้องการแก้ไข ให้ลบรายการ robots.txt ที่บล็อกหน้าดังกล่าว หากต้องการซ่อนหน้าเว็บจาก Search ไปเลย ให้ใช้วิธีการอื่น |
ไฟล์สื่อ |
ใช้ไฟล์ robots.txt เพื่อจัดการปริมาณการเข้ารวบรวมข้อมูล และป้องกันไม่ให้ไฟล์ภาพ วิดีโอ และเสียงปรากฏในผลการค้นหาของ Google การทำเช่นนี้ไม่ได้ป้องกันไม่ให้หน้าเว็บหรือผู้ใช้อื่นๆ ลิงก์ไปยังไฟล์ภาพ วิดีโอ หรือเสียงนั้นๆ |
ไฟล์ทรัพยากร | คุณสามารถใช้ไฟล์ robots.txt บล็อกไฟล์ทรัพยากรต่างๆ ได้ เช่น รูปภาพที่ไม่สำคัญ สคริปต์ หรือไฟล์รูปแบบ หากคิดว่าหน้าที่โหลดโดยไม่มีทรัพยากรเหล่านี้จะไม่ได้รับผลกระทบอย่างชัดเจนจากการขาดไฟล์ดังกล่าว อย่างไรก็ตาม หากไม่มีทรัพยากรเหล่านี้แล้วทำให้โปรแกรมรวบรวมข้อมูลของ Google เข้าใจหน้าเว็บได้ยากขึ้น ก็อย่าบล็อกทรัพยากรเหล่านี้ เพราะจะทำให้ Google วิเคราะห์หน้าเว็บที่ต้องอาศัยทรัพยากรเหล่านั้นได้ไม่ดีเท่าที่ควร |
ทําความเข้าใจเรื่องข้อจํากัดของไฟล์ robots.txt
ก่อนที่จะสร้างหรือแก้ไขไฟล์ robots.txt คุณควรรู้ถึงข้อจำกัดของการบล็อก URL ด้วยวิธีนี้ และอาจใช้กลไกอื่นๆ เพื่อให้แน่ใจว่า URL ของคุณจะค้นไม่เจอในเว็บ ทั้งนี้ขึ้นอยู่กับเป้าหมายและสถานการณ์ของคุณ
-
เครื่องมือค้นหาบางรายการอาจไม่รองรับกฎ robots.txt
คำสั่งในไฟล์ robots.txt ไม่อาจบังคับให้โปรแกรมรวบรวมข้อมูลทำงานกับเว็บไซต์ของคุณตามต้องการ เพราะการทำตามคำสั่งจะขึ้นอยู่กับโปรแกรมรวบรวมข้อมูลนั้นเอง แม้ว่า Googlebot และโปรแกรมรวบรวมข้อมูลเว็บที่เชื่อถือได้อื่นๆ จะทำตามคำสั่งในไฟล์ robots.txt แต่โปรแกรมรวบรวมข้อมูลอื่นๆ อาจไม่ทำตามก็ได้ ดังนั้น ถ้าต้องการเก็บข้อมูลให้ปลอดภัยจากโปรแกรมรวบรวมข้อมูลเว็บ ขอแนะนำให้ใช้วิธีบล็อกอื่นๆ เช่น การปกป้องไฟล์ส่วนตัวในเซิร์ฟเวอร์ของคุณด้วยรหัสผ่าน -
โปรแกรมรวบรวมข้อมูลที่แตกต่างกันจะตีความไวยากรณ์ต่างกัน
แม้ว่า Web Crawler ที่เชื่อถือได้จะทำตามกฎในไฟล์ robots.txt แต่ Crawler แต่ละโปรแกรมอาจตีความกฎแตกต่างกันได้ คุณควรทราบถึงไวยากรณ์ที่เหมาะสมเพื่อจัดการกับโปรแกรมรวบรวมข้อมูลเว็บแบบต่างๆ เนื่องจากบางโปรแกรมอาจไม่เข้าใจบางคำสั่ง -
หน้าที่ไม่ได้รับอนุญาตในไฟล์ robots.txt จะยังจัดทําดัชนีได้หากลิงก์มาจากเว็บไซต์อื่น
แม้ว่า Google จะไม่ทำการ Crawl หรือจัดทำดัชนีเนื้อหาที่ robots.txt บล็อกไว้ แต่เราก็อาจยังพบและจัดทำดัชนี URL ที่ไม่อนุญาตได้หากลิงก์มาจากที่อื่นๆ ในเว็บ ดังนั้น ที่อยู่ URL และอาจรวมถึงข้อมูลอื่นๆ ที่เผยแพร่ต่อสาธารณะ เช่น anchor text ในลิงก์ที่เชื่อมโยงไปยังหน้าอาจยังคงปรากฏในผลการค้นหาของ Google วิธีป้องกันที่ถูกต้องเพื่อไม่ให้ URL ปรากฏในผลการค้นหาของ Google คือการตั้งรหัสผ่านป้องกันไฟล์ในเซิร์ฟเวอร์ ใช้แท็กmeta
noindex
หรือส่วนหัวการตอบกลับ หรือนำหน้าดังกล่าวออกไปเลย
สร้างหรืออัปเดตไฟล์ robots.txt
โปรดดูวิธีสร้างไฟล์ robots.txt หากคุณคิดว่าจำเป็นต้องใช้ หรือหากมีไฟล์อัปเดตอยู่แล้ว ให้ดูวิธีอัปเดต
หากต้องการข้อมูลเพิ่มเติม ลองไปที่แหล่งข้อมูลต่อไปนี้