คู่มือการจัดการ Crawl Budget สำหรับเจ้าของเว็บไซต์ขนาดใหญ่

คู่มือนี้อธิบายวิธีเพิ่มประสิทธิภาพการ Crawl ของ Google จากเว็บไซต์ที่มีขนาดใหญ่มากและมีการอัปเดตบ่อยครั้ง

หากเว็บไซต์ของคุณมีหน้าเว็บที่มีการเปลี่ยนแปลงอย่างรวดเร็วจำนวนไม่มาก หรือหากหน้าเว็บได้รับการ Crawl วันเดียวกับที่เผยแพร่ คุณไม่จำเป็นต้องอ่านคู่มือนี้ เพียงอัปเดต Sitemap ให้เป็นปัจจุบันอยู่เสมอและตรวจสอบการครอบคลุมของดัชนีอย่างสม่ำเสมอก็เพียงพอแล้ว

การมีเนื้อหาที่พร้อมใช้งานมาระยะหนึ่งแต่ยังไม่ได้รับการจัดทําดัชนีถือเป็นคนละปัญหากัน ให้ใช้เครื่องมือตรวจสอบ URL แทนเพื่อดูสาเหตุที่หน้าเว็บไม่ได้รับการจัดทําดัชนี

คู่มือนี้มีไว้สำหรับใคร

นี่เป็นคู่มือขั้นสูงที่มีไว้สำหรับ

  • เว็บไซต์ขนาดใหญ่ (มีหน้าเว็บที่ไม่ซ้ำกันมากกว่า 1 ล้านหน้า) ซึ่งเนื้อหามีการเปลี่ยนแปลงพอควร (สัปดาห์ละครั้ง)
  • เว็บไซต์ขนาดกลางหรือขนาดใหญ่ (มีหน้าเว็บที่ไม่ซ้ำกันมากกว่า 10,000 หน้า) ซึ่งเนื้อหามีการเปลี่ยนแปลงอย่างรวดเร็ว (ทุกวัน)
  • เว็บไซต์ที่ส่วนใหญ่ของ URL ทั้งหมดได้รับการจัดหมวดหมู่โดย Search Console เป็นพบแล้ว - ยังไม่ได้จัดทําดัชนี

ทฤษฎีทั่วไปของการ Crawl

อินเทอร์เน็ตนั้นเป็นพื้นที่ที่แทบไม่มีขอบเขต ซึ่งเกินความสามารถของ Google ที่จะสํารวจและจัดทําดัชนี URL ที่มีอยู่ทั้งหมด ดังนั้นเวลาที่ Googlebot จะใช้ในการ Crawl เว็บไซต์หนึ่งๆ จึงมีจำกัด โดยทั่วไป ระยะเวลาและทรัพยากรที่ Google ใช้ในการ Crawl เว็บไซต์จะเรียกว่า Crawl Budget ของเว็บไซต์ โปรดทราบว่าเนื้อหาบางอย่างที่ได้รับการ Crawl ในเว็บไซต์อาจไม่ได้รับการจัดทำดัชนีเสมอไป เนื่องจาก Googlebot ต้องประเมินและรวมแต่ละหน้าเพื่อตัดสินว่าจะได้รับการจัดทำดัชนีหลังจากที่มีการ Crawl หรือไม่

Crawl Budget กำหนดโดยองค์ประกอบหลัก 2 อย่าง ได้แก่ ขีดความสามารถในการ Crawl และความต้องการให้ Crawl

ขีดความสามารถในการ Crawl

Googlebot ต้องการ Crawl เว็บไซต์โดยไม่ทำให้เซิร์ฟเวอร์ของคุณทำงานหนักเกินไป วิธีป้องกันปัญหานี้คือ Googlebot จะคํานวณขีดความสามารถในการ Crawl ซึ่งเป็นจำนวนการเชื่อมต่อแบบขนานที่เกิดขึ้นพร้อมกันสูงสุดที่ Googlebot จะใช้เพื่อทำการ Crawl เว็บไซต์ได้ รวมถึงความล่าช้าระหว่างการดึงข้อมูลด้วย เราคำนวณองค์ประกอบนี้เพื่อให้การครอบคลุมเนื้อหาที่สำคัญทั้งหมดโดยไม่ทำให้เซิร์ฟเวอร์ของคุณทำงานหนักเกินไป

ขีดความสามารถในการ Crawl อาจเพิ่มขึ้นหรือลดลงตามปัจจัยต่อไปนี้

  • ประสิทธิภาพการ Crawl : ขีดความสามารถจะเพิ่มขึ้นหากเว็บไซต์ตอบสนองอย่างรวดเร็วเป็นระยะเวลาหนึ่ง ซึ่งหมายความว่า Googlebot ใช้การเชื่อมต่อเพื่อทำการ Crawl ได้มากขึ้น หากเว็บไซต์ทำงานช้าลงหรือตอบสนองโดยมีข้อผิดพลาดเกี่ยวกับเซิร์ฟเวอร์ ขีดความสามารถก็จะลดลงและ Googlebot จะทำการ Crawl น้อยลง
  • ขีดจำกัดในการ Crawl ของ Google: Google มีเครื่องจำนวนมากแต่ก็ยังมีขีดจำกัด เรายังคงต้องตัดสินใจเลือกโดยคำนึงถึงทรัพยากรที่มีอยู่

ความต้องการ Crawl

โดยปกติแล้ว Google จะใช้เวลาในการ Crawl เว็บไซต์เท่าที่จำเป็น โดยพิจารณาจากขนาดของเว็บไซต์ ความถี่ในการอัปเดต คุณภาพของหน้าเว็บ และความเกี่ยวข้องเมื่อเทียบกับเว็บไซต์อื่นๆ

ปัจจัยที่มีบทบาทสำคัญในการกำหนดความต้องการการ Crawl ได้แก่

  • รายการ URL ที่รับรู้: หากไม่มีคำแนะนำจากคุณ Googlebot จะพยายามทำการ Crawl URL ทั้งหมดหรือส่วนใหญ่ที่รู้จักซึ่งเกี่ยวกับเว็บไซต์ของคุณ หาก URL หลายรายการซ้ำกัน หรือคุณไม่ต้องการให้ระบบทำการ Crawl ด้วยเหตุผลอื่น (นำออกแล้ว ไม่สำคัญ และอื่นๆ) จะทำให้ Google เสียเวลาไปกับการ Crawl เว็บไซต์ของคุณอย่างมาก นี่เป็นปัจจัยที่คุณควบคุมได้มากที่สุดเพื่อให้เกิดประโยชน์กับทั้ง 2 ฝ่าย
  • ความนิยม: URL ที่ได้รับความนิยมในอินเทอร์เน็ตมากกว่ามักจะได้รับการ Crawl บ่อยกว่าเพื่อให้มีความใหม่ในดัชนีอยู่เสมอ
  • การไม่มีอัปเดต: ระบบต้องการ Crawl ในเอกสารอีกครั้งให้บ่อยพอที่จะทราบถึงการเปลี่ยนแปลง

นอกจากนี้ เหตุการณ์ที่เกิดขึ้นทั้งเว็บไซต์ เช่น การย้ายเว็บไซต์ อาจทำให้เกิดความต้องการ Crawl เพิ่มขึ้นเพื่อจัดทำดัชนีเนื้อหาใน URL ใหม่อีกครั้ง

สรุป

เมื่อพิจารณาความสามารถในการ Crawl และความต้องการ Crawl ร่วมกันแล้ว Google ถือว่า Crawl Budget ของเว็บไซต์เป็นชุด URL ที่ Googlebot สามารถและต้องการ Crawl แม้ว่าความสามารถในการ Crawl ยังไม่ถึงขีดจำกัดแต่มีความต้องการ Crawl ต่ำ Googlebot ก็จะทำการ Crawl เว็บไซต์น้อยลง

แนวทางปฏิบัติแนะนำ

ทําตามแนวทางปฏิบัติแนะนำต่อไปนี้เพื่อเพิ่มประสิทธิภาพการ Crawl สูงสุด

  • จัดการรายการ URL: ใช้เครื่องมือที่เหมาะสมเพื่อบอก Google ว่าต้องรวบรวมและไม่ต้องทำการ Crawl หน้าใดบ้าง หาก Google ใช้เวลามากเกินไปในการ Crawl URL ที่ไม่เหมาะจะใส่ไว้ในดัชนี Googlebot อาจตัดสินว่าการดูส่วนที่เหลือในเว็บไซต์ (หรือการเพิ่มโควต้าเพื่อดูส่วนที่เหลือ) ไม่คุ้มค่า
    • รวมเนื้อหาที่ซ้ำกัน นำเนื้อหาที่ซ้ำกันออกเพื่อให้ระบบทำการ Crawl โดยเน้นเนื้อหาที่ไม่ซ้ำกันแทน URL ที่ไม่ซ้ำ
    • บล็อกการ Crawl URL โดยใช้ robots.txt หน้าเว็บบางหน้าอาจมีความสำคัญต่อผู้ใช้ แต่คุณอาจจะไม่ต้องการให้หน้าเหล่านั้นปรากฏในผลการค้นหา เช่น หน้าที่เลื่อนได้ไม่รู้จบซึ่งมีข้อมูลซ้ำจากหน้าเว็บที่เชื่อมโยง หรือเป็นเวอร์ชันที่มีการจัดเรียงต่างกันของหน้าเดียวกัน หากรวม URL ตามที่อธิบายไว้ในหัวข้อย่อยแรกไม่ได้ ให้บล็อกหน้าที่ไม่สําคัญ (สําหรับการค้นหา) โดยใช้ robots.txt การบล็อก URL ด้วย robots.txt จะลดโอกาสที่ URL จะได้รับการจัดทําดัชนีอย่างมาก
    • แสดงรหัสสถานะ 404 หรือ 410 สําหรับหน้าเว็บที่นำออกอย่างถาวร Google จะไม่ลืม URL ที่รู้จัก แต่รหัสสถานะ 404 เป็นสัญญาณที่บ่งชี้ว่าไม่ให้ทำการ Crawl URL นั้นอีก อย่างไรก็ตาม URL ที่บล็อกจะยังอยู่ในคิวการ Crawl นานขึ้น และจะได้รับการ Crawl อีกครั้งเมื่อมีการเลิกบล็อก
    • นําข้อผิดพลาด soft 404 ออก ระบบจะยังทำการ Crawl หน้า soft 404 ต่อไป ซึ่งจะทําให้คุณเสีย Budget ดูรายงานการครอบคลุมของดัชนีเพื่อหาข้อผิดพลาด soft 404
    • อัปเดตแผนผังเว็บไซต์อยู่เสมอ Google อ่านแผนผังเว็บไซต์เป็นประจำ ดังนั้นอย่าลืมใส่เนื้อหาทั้งหมดที่ต้องการให้ Google ทำการ Crawl ไว้ในแผนผังเว็บไซต์ หากเว็บไซต์มีเนื้อหาที่อัปเดต เราขอแนะนําให้ใส่แท็ก <lastmod>
    • หลีกเลี่ยงการใช้เชนการเปลี่ยนเส้นทางที่มีความยาว ซึ่งจะส่งผลเสียต่อการ Crawl
  • ทําให้หน้าเว็บโหลดได้อย่างมีประสิทธิภาพ หาก Google โหลดและแสดงผลหน้าเว็บได้เร็วขึ้น เราอาจอ่านเนื้อหาจากเว็บไซต์ได้มากขึ้น
  • ตรวจสอบการ Crawl เว็บไซต์ ตรวจสอบว่าเว็บไซต์มีปัญหาความพร้อมใช้งานระหว่างการ Crawl หรือไม่ และหาวิธีอื่นๆ ที่จะทำให้การ Crawl มีประสิทธิภาพมากขึ้น

ตรวจสอบการ Crawl และการจัดทำดัชนีของเว็บไซต์

ขั้นตอนสำคัญในการตรวจสอบโปรไฟล์การ Crawl ของเว็บไซต์มีดังนี้

  1. ดูว่า Googlebot พบปัญหาความพร้อมใช้งานในเว็บไซต์หรือไม่
  2. ดูว่ามีหน้าที่ไม่ได้รับการ Crawl ทั้งที่ควรได้รับหรือไม่
  3. ดูว่าเว็บไซต์มีส่วนใดที่ต้องได้รับการ Crawl เร็วกว่าที่เป็นอยู่หรือไม่
  4. ปรับปรุงประสิทธิภาพการ Crawl ของเว็บไซต์
  5. จัดการการรวบรวมข้อมูลเว็บไซต์ที่มากเกินไป

ดูว่า Googlebot พบปัญหาความพร้อมใช้งานในเว็บไซต์หรือไม่

การปรับปรุงความพร้อมใช้งานของเว็บไซต์ไม่ได้เพิ่ม Crawl Budget เสมอไป โดย Google จะกำหนดอัตราการ Crawl ที่ดีที่สุดตามความต้องการ Crawl ตามที่อธิบายไปก่อนหน้านี้ อย่างไรก็ตาม ปัญหาความพร้อมใช้งานจะทำให้ Google ทำการ Crawl เว็บไซต์ได้ไม่มากเท่าที่อาจต้องการ

การวิเคราะห์

ใช้รายงานสถิติการ Crawl เพื่อดูประวัติการ Crawl ของ Googlebot ในเว็บไซต์ของคุณ รายงานจะแสดงขึ้นเมื่อ Google พบปัญหาความพร้อมใช้งานในเว็บไซต์ หากมีการรายงานข้อผิดพลาดหรือคำเตือนเกี่ยวกับความพร้อมใช้งานของเว็บไซต์ ให้มองหาอินสแตนซ์ในกราฟความพร้อมใช้งานของโฮสต์ที่คำขอของ Googlebot เกินเส้นขีดจำกัดสีแดง จากนั้นคลิกเข้าไปในกราฟเพื่อดูว่า URL ใดมีข้อผิดพลาด แล้วลองหาความสัมพันธ์ของ URL เหล่านั้นกับปัญหาในเว็บไซต์

นอกจากนี้ คุณยังใช้เครื่องมือตรวจสอบ URL เพื่อทดสอบ URL บางรายการในเว็บไซต์ได้อีกด้วย หากเครื่องมือแสดงคําเตือนโหลดของโฮสต์มากเกินไป หมายความว่า Googlebot ทำการ Crawl URL จากเว็บไซต์ของคุณที่ตรวจพบไม่ได้ทั้งหมด

การแก้ไข

  • อ่านเอกสารประกอบรายงานสถิติการ Crawl เพื่อดูวิธีค้นหาและจัดการปัญหาความพร้อมใช้งานบางอย่าง
  • บล็อกหน้าเว็บไม่ให้ได้รับการ Crawl หากไม่ต้องการให้มีการ Crawl (ดูจัดการรายการ URL)
  • เพิ่มความเร็วในการโหลดหน้าเว็บและการแสดงผล (ดูปรับปรุงประสิทธิภาพการ Crawl ของเว็บไซต์)
  • เพิ่มความสามารถของเซิร์ฟเวอร์ หากดูเหมือนว่า Google ทำการ Crawl เว็บไซต์อย่างต่อเนื่องตามขีดความสามารถในการแสดงผล แต่ยังเหลือ URL รายการสำคัญที่ไม่ได้รับการ Crawl หรือการอัปเดตบ่อยเท่าที่ควร การมีทรัพยากรการแสดงผลเพิ่มขึ้นอาจช่วยให้ Google ขอหน้าในเว็บไซต์ได้มากขึ้น ตรวจสอบประวัติความพร้อมใช้งานของโฮสต์ในรายงานสถิติการ Crawl เพื่อดูว่าอัตราการ Crawl ของ Google น่าจะเกินขีดจำกัดบ่อยครั้งไหม หากเป็นเช่นนั้น ให้เพิ่มทรัพยากรการแสดงผลเป็นเวลา 1 เดือนแล้วดูว่าคำขอการ Crawl เพิ่มขึ้นในช่วงเวลานั้นหรือไม่

ดูว่าเว็บไซต์มีส่วนใดที่ไม่ได้รับการ Crawl ทั้งที่ควรได้รับหรือไม่

Google จะใช้เวลาในเว็บไซต์เท่าที่จำเป็นเพื่อจัดทำดัชนีเนื้อหาทั้งหมดที่พบ ทั้งนี้เนื้อหาต้องมีคุณภาพสูงและให้คุณค่าแก่ผู้ใช้ หากคุณคิดว่าเนื้อหาสำคัญไม่ได้รับการจัดทำดัชนี แสดงว่า Googlebot อาจไม่ทราบเกี่ยวกับเนื้อหาดังกล่าว เนื้อหาถูกบล็อกไม่ให้ Google พบ หรือความพร้อมใช้งานของเว็บไซต์ส่งผลต่อการเข้าถึงของ Google (หรือ Google พยายามไม่ให้เว็บไซต์ทำงานหนักเกินไป)

การวิเคราะห์

Search Console ไม่ได้ให้ประวัติการ Crawl ของเว็บไซต์ที่กรองโดยใช้ URL หรือเส้นทางได้ แต่คุณสามารถตรวจสอบบันทึกของเว็บไซต์เพื่อดูว่า Googlebot ทำการ Crawl URL หนึ่งๆ แล้วหรือยัง ส่วน URL ที่ทำการ Crawl แล้วเหล่านั้นได้รับการจัดทำดัชนีหรือยังเป็นคนละเรื่องกัน

อย่าลืมว่าสําหรับเว็บไซต์ส่วนใหญ่ Googlebot จะใช้เวลาอย่างน้อยหลายวันจึงเห็นหน้าเว็บใหม่ เว็บไซต์ส่วนใหญ่จึงไม่ควรคาดว่าจะได้รับการ Crawl URL ในวันเดียวกัน ยกเว้นเว็บไซต์ที่มีเวลาเป็นปัจจัยสำคัญ เช่น เว็บไซต์ข่าว

การแก้ไข

หากคุณเพิ่มหน้าในเว็บไซต์แต่ไม่ได้รับการ Crawl ภายในระยะเวลาที่เหมาะสม แสดงว่า Google ไม่ทราบเกี่ยวกับหน้าดังกล่าว เนื้อหาถูกบล็อก ความสามารถในการแสดงผลของเว็บไซต์ถึงขีดจำกัดสูงสุด หรือ Crawl Budget หมดแล้ว

  1. บอก Google เกี่ยวกับหน้าเว็บใหม่โดยอัปเดตแผนผังเว็บไซต์ให้มี URL ใหม่
  2. ตรวจสอบกฎ robots.txt เพื่อยืนยันว่าคุณไม่ได้บล็อกหน้าเว็บโดยไม่ตั้งใจ
  3. ตรวจสอบลําดับความสําคัญในการ Crawl (ใช้ Crawl Budget อย่างชาญฉลาด) จัดการรายการ URL และปรับปรุงประสิทธิภาพการ Crawl ของเว็บไซต์
  4. ตรวจสอบว่าความสามารถในการแสดงผลยังไม่ถึงขีดจำกัด Googlebot จะลดการ Crawl หากตรวจพบว่าเซิร์ฟเวอร์ของคุณมีปัญหาในการตอบกลับคําขอทำการ Crawl

โปรดทราบว่าหากเนื้อหามีคุณค่าหรือมีความต้องการของผู้ใช้ไม่เพียงพอ หน้าเว็บอาจไม่แสดงในผลการค้นหาแม้ว่าจะได้รับการ Crawl แล้วก็ตาม

ดูว่าการอัปเดตได้รับการ Crawl อย่างรวดเร็วเพียงพอหรือไม่

หากเราไม่ได้ทำการ Crawl หน้าเว็บใหม่หรือหน้าเว็บที่อัปเดตในเว็บไซต์ แสดงว่าอาจเป็นเพราะเรายังไม่เห็นหน้าดังกล่าวหรือไม่พบว่ามีการอัปเดต นี่เป็นวิธีช่วยให้เราทราบเกี่ยวกับการอัปเดตหน้า

โปรดทราบว่า Google พยายามตรวจสอบและจัดทำดัชนีหน้าเว็บภายในระยะเวลาที่เหมาะสม ซึ่งก็คืออย่างน้อย 3 วันสำหรับเว็บไซต์ส่วนใหญ่ อย่าคาดหวังให้ Google จัดทำดัชนีหน้าเว็บในวันเดียวกับที่คุณเผยแพร่ เว้นแต่จะเป็นเว็บไซต์ข่าวหรือมีเนื้อหาประเภทอื่นที่มีคุณค่าสูงและมีเวลาเป็นปัจจัยสำคัญ

การวิเคราะห์

ตรวจสอบบันทึกของเว็บไซต์เพื่อดูว่า Googlebot ทำการ Crawl URL หนึ่งๆ เมื่อใด

หากต้องการทราบวันที่จัดทําดัชนี ให้ใช้เครื่องมือตรวจสอบ URL หรือค้นหา URL ที่คุณอัปเดตโดยใช้ Google Search

การแก้ไข

สิ่งที่ควรทำ

  • ใช้แผนผังเว็บไซต์ข่าวหากเว็บไซต์มีเนื้อหาข่าว
  • ใช้แท็ก <lastmod> ในแผนผังเว็บไซต์เพื่อระบุว่ามีการอัปเดต URL ที่จัดทำดัชนีเมื่อใด
  • ใช้โครงสร้าง URL แบบง่ายเพื่อช่วยให้ Google พบหน้าเว็บ
  • ระบุลิงก์ <a> ที่ทำการ Crawl ได้แบบมาตรฐานเพื่อช่วยให้ Google พบหน้าเว็บ

สิ่งที่ควรหลีกเลี่ยง

  • ส่ง Sitemap เดียวกันที่ไม่เปลี่ยนแปลงเข้ามาหลายครั้งต่อวัน
  • คาดหวังว่า Googlebot จะรวบรวมเนื้อหาทั้งหมดใน Sitemap หรือทำการ Crawl ทันที แผนผังเว็บไซต์เป็นคำแนะนําที่มีประโยชน์สำหรับ Googlebot ไม่ใช่สิ่งที่จำเป็นต้องมี
  • ใส่ URL ที่ไม่ต้องการให้ปรากฏใน Search ไว้ในแผนผังเว็บไซต์ เนื่องจากทำให้สิ้นเปลือง Crawl Budget ไปกับหน้าเว็บที่ไม่ต้องการให้จัดทําดัชนี

ปรับปรุงประสิทธิภาพการรวบรวมข้อมูลของเว็บไซต์

เพิ่มความเร็วในการโหลดหน้าเว็บ

สิ่งที่จำกัดการ Crawl ของ Google คือแบนด์วิดท์ เวลา และความพร้อมใช้งานของอินสแตนซ์ Googlebot หากเซิร์ฟเวอร์ของคุณตอบกลับคําขอเร็ว เราก็อาจทำการ Crawl หน้าเว็บในเว็บไซต์ได้มากขึ้น อย่างไรก็ตาม Google ต้องการ Crawl เนื้อหาที่มีคุณภาพสูงเท่านั้น การทําให้หน้าเว็บคุณภาพต่ำทำงานเร็วขึ้นจึงไม่ได้ช่วยให้ Googlebot ทำการ Crawl ในเว็บไซต์มากขึ้น ในทางกลับกัน หากเราคิดว่าไม่ได้ทำการ Crawl เนื้อหาคุณภาพสูงในเว็บไซต์ เราอาจเพิ่ม Crawl Budget ในการ Crawl เนื้อหานั้น

วิธีเพิ่มประสิทธิภาพหน้าเว็บและทรัพยากรเพื่อการ Crawl มีดังนี้

  • ป้องกันไม่ให้ Googlebot โหลดทรัพยากรขนาดใหญ่แต่ไม่สำคัญโดยใช้ robots.txt ให้บล็อกเฉพาะทรัพยากรที่ไม่สำคัญ ซึ่งก็คือทรัพยากรที่ไม่จำเป็นต่อการทำความเข้าใจความหมายของหน้าเว็บ (เช่น รูปภาพตกแต่ง)
  • ตรวจสอบว่าหน้าเว็บโหลดเร็ว
  • ระวังเรื่องเชนการเปลี่ยนเส้นทางที่ยาว ซึ่งจะส่งผลเสียต่อการ Crawl
  • ทั้งเวลาในการตอบกลับคําขอของเซิร์ฟเวอร์และเวลาที่ต้องใช้ในการแสดงหน้าเว็บล้วนมีความสำคัญ รวมถึงเวลาในการโหลดและเรียกใช้ทรัพยากรที่ฝังอยู่ เช่น รูปภาพและสคริปต์ อย่าลืมคำนึงถึงทรัพยากรขนาดใหญ่หรือทำงานช้าซึ่งจำเป็นสำหรับการจัดทำดัชนี

ระบุการเปลี่ยนแปลงเนื้อหาด้วยรหัสสถานะ HTTP

โดยทั่วไปแล้ว Google รองรับส่วนหัวของคำขอ HTTP If-Modified-Since และ If-None-Match สำหรับการ Crawl Crawler ของ Google จะไม่ส่งส่วนหัวที่มีการพยายาม Crawl ทั้งหมด โดยขึ้นอยู่กับ Use Case ของคําขอ (เช่น AdsBot มีแนวโน้มที่จะตั้งค่าส่วนหัวคําขอ HTTP If-Modified-Since และ If-None-Match) หาก Crawler ส่งส่วนหัว If-Modified-Since ค่าของส่วนหัวจะเป็นวันที่และเวลาที่เนื้อหาได้รับการ Crawl ครั้งล่าสุด โดยอิงตามค่านั้น เซิร์ฟเวอร์อาจเลือกแสดงรหัสสถานะ HTTP 304 (Not Modified) ที่ไม่มีเนื้อหาการตอบกลับ ซึ่งในกรณีนี้ Google จะใช้เวอร์ชันของเนื้อหาที่ทำการ Crawl ครั้งล่าสุดซ้ำ หากเนื้อหาเป็นรุ่นใหม่กว่าวันที่ที่ Crawler ระบุในส่วนหัว If-Modified-Since เซิร์ฟเวอร์อาจแสดงรหัสสถานะ HTTP 200 (OK) พร้อมเนื้อหาตอบกลับ

คุณสามารถส่งรหัสสถานะ HTTP 304 (Not Modified) และเนื้อหาการตอบกลับสำหรับคำขอของ Googlebot ได้โดยไม่ขึ้นกับส่วนหัวของคำขอ หากเนื้อหาไม่มีการเปลี่ยนแปลงตั้งแต่ Googlebot มาที่ URL ครั้งล่าสุด การดําเนินการนี้จะช่วยประหยัดเวลาและทรัพยากรของเซิร์ฟเวอร์ในการประมวลผล ซึ่งอาจช่วยปรับปรุงประสิทธิภาพการ Crawl ได้โดยอ้อม

ซ่อน URL ที่ไม่ต้องการให้ปรากฏในผลการค้นหา

การใช้ทรัพยากรของเซิร์ฟเวอร์ไปกับหน้าเว็บที่ไม่จำเป็นจะลดกิจกรรมการ Crawl จากหน้าที่สำคัญสำหรับคุณ ซึ่งอาจทำให้การค้นพบเนื้อหาใหม่ที่ยอดเยี่ยมหรือเนื้อหาที่มีการอัปเดตในเว็บไซต์เกิดความล่าช้าอย่างมาก

การแสดง URL จํานวนมากในเว็บไซต์ซึ่งไม่ต้องการให้ Search ทำการ Crawl อาจส่งผลเสียต่อการ Crawl และจัดทําดัชนีของเว็บไซต์ โดยปกติแล้ว URL เหล่านี้จะอยู่ในหมวดหมู่ต่อไปนี้

สิ่งที่ควรทำ

  • ใช้ robots.txt หากไม่ต้องการให้ Google ทำการ Crawl ทรัพยากรหรือหน้าเว็บหนึ่งๆ เลย
  • หากมีการใช้ทรัพยากรทั่วไปซ้ำในหน้าเว็บหลายหน้า (เช่น ไฟล์ภาพหรือไฟล์ JavaScript ที่ใช้ร่วมกัน) ให้อ้างอิงทรัพยากรนั้นจาก URL เดียวกันในแต่ละหน้าเพื่อให้ Google แคชและใช้ทรัพยากรเดิมซ้ำได้โดยไม่ต้องขอทรัพยากรเดียวกันหลายครั้ง

สิ่งที่ควรหลีกเลี่ยง

  • อย่าใช้วิธีเพิ่มหรือนำหน้าเว็บหรือไดเรกทอรีออกจาก robots.txt เป็นประจำเพื่อจัดสรร Crawl Budget ใหม่ให้เว็บไซต์ ใช้ robots.txt เฉพาะกับหน้าเว็บหรือทรัพยากรที่ไม่ต้องการให้ปรากฏใน Google ในระยะยาว
  • อย่าหมุนเวียนแผนผังเว็บไซต์หรือใช้กลไกการซ่อนชั่วคราวอื่นๆ เพื่อจัดสรร Crawl Budget ใหม่

จัดการการรวบรวมข้อมูลเว็บไซต์ที่มากเกินไป (กรณีฉุกเฉิน)

Googlebot มีอัลกอริทึมที่จะป้องกันไม่ให้ตัวเองส่งคำขอการ Crawl จนทำให้เว็บไซต์ทำงานหนักเกินไป อย่างไรก็ตาม หากเห็นว่า Googlebot ทำให้เว็บไซต์ทำงานหนักเกินไปก็มีหลายวิธีที่คุณทำได้

การวิเคราะห์

ตรวจสอบเซิร์ฟเวอร์เพื่อหาคำขอ Googlebot ที่ส่งไปยังเว็บไซต์มากเกินไป

การแก้ไข

ในกรณีฉุกเฉิน เราขอแนะนำให้ทำตามขั้นตอนต่อไปนี้เพื่อชะลอการ Crawl จาก Googlebot ที่มากเกินไป

  1. แสดงรหัสสถานะการตอบกลับ HTTP 503 หรือ 429 ชั่วคราวสําหรับคำขอ Googlebot เมื่อเซิร์ฟเวอร์ทำงานหนักเกินไป Googlebot จะลองทำการ Crawl URL เหล่านี้ซ้ำเป็นระยะเวลา 2 วัน โปรดทราบว่าการแสดงรหัส "ไม่พร้อมใช้งาน" นานกว่า 2-3 วันจะทำให้ Google ทำการ Crawl URL ในเว็บไซต์ช้าลงอย่างถาวรหรือหยุดทำการ Crawl URL ไปเลย ดังนั้นให้ทําตามขั้นตอนต่อไปเพิ่ม
  2. เมื่ออัตราการ Crawl ลดลง ให้หยุดแสดงรหัส 503 หรือ 429 สำหรับคำขอทำการ Crawl เนื่องจากการแสดงรหัส 503 หรือ 429 นานกว่า 2 วันอาจทําให้ Google นำ URL ออกจากดัชนี
  3. ตรวจสอบการ Crawl และความสามารถของโฮสต์เมื่อเวลาผ่านไป
  4. หาก Crawler ที่ทำให้เกิดปัญหาคือหนึ่งใน Crawler ของ AdsBot แสดงว่าปัญหาอาจมาจากที่คุณสร้างเป้าหมายโฆษณาบนเครือข่ายการค้นหาแบบไดนามิกสําหรับเว็บไซต์ที่ Google พยายามทำการ Crawl การ Crawl นี้จะเกิดขึ้นทุก 2 สัปดาห์ หากเซิร์ฟเวอร์ไม่มีความสามารถในการรับมือการ Crawl เหล่านี้ ให้จำกัดเป้าหมายโฆษณาหรือเพิ่มความสามารถในการแสดงโฆษณา

ความเชื่อและข้อเท็จจริงเกี่ยวกับการ Crawl

ทดสอบความรู้เกี่ยวกับการรวบรวมข้อมูลและการจัดทําดัชนีเว็บไซต์ของ Google

การบีบอัดแผนผังเว็บไซต์ช่วยเพิ่ม Crawl Budget ได้
จริง
เท็จ
ไม่ได้เป็นเช่นนั้น ระบบจะยังคงดึงข้อมูลแผนผังเว็บไซต์แบบไฟล์ ZIP มาจากเซิร์ฟเวอร์ ดังนั้นการส่งแผนผังเว็บไซต์ที่บีบอัดจึงไม่ได้ช่วยให้ Google ใช้เวลาหรือความพยายามในการ Crawl น้อยลงแต่อย่างใด
Google ต้องการเนื้อหาที่ใหม่กว่า ฉันจึงควรปรับเปลี่ยนหน้าเว็บอยู่เสมอ
จริง
เท็จ
เนื้อหาได้รับการจัดประเภทตามคุณภาพโดยไม่คํานึงถึงความใหม่ สร้างและอัปเดตเนื้อหาตามที่จำเป็น อย่างไรก็ตาม การแสร้งทำเป็นว่าหน้าเว็บมีความใหม่โดยทำการเปลี่ยนแปลงที่ไม่สำคัญและอัปเดตวันที่ในหน้าเว็บไม่ถือเป็นการเพิ่มคุณค่า
Google ต้องการเนื้อหาเก่า (มีน้ำหนักมากกว่า) มากกว่าเนื้อหาใหม่
จริง
เท็จ
หน้าเว็บที่มีประโยชน์คือหน้าเว็บมีประโยชน์ไม่ว่าจะเป็นหน้าเก่าหรือใหม่
Google ต้องการ URL ที่ชัดเจนและไม่ต้องการพารามิเตอร์การค้นหา
จริง
เท็จ
เรารวบรวมข้อมูลพารามิเตอร์ได้
ยิ่งหน้าเว็บโหลดและแสดงผลเร็ว Google ก็จะรวบรวมข้อมูลได้มากขึ้น
จริง
จริง ในแง่ที่ว่าทรัพยากรของเรามีจำกัดเนื่องด้วยทั้งเวลาและจำนวนบ็อตสำหรับทำการ Crawl หากคุณแสดงผลหน้าเว็บได้มากขึ้นภายในเวลาที่จํากัด เราก็จะทำการ Crawl หน้าเว็บได้มากขึ้น อย่างไรก็ตาม เราอาจใช้เวลาในการ Crawl เว็บไซต์ที่มีข้อมูลสำคัญนานกว่า แม้ว่าเว็บไซต์จะช้ากว่า การทำให้เว็บไซต์เร็วขึ้นสำหรับผู้ใช้อาจสำคัญกว่าการทำให้เว็บไซต์เร็วขึ้นเพื่อให้การ Crawl ครอบคลุมมากขึ้น และการช่วยให้ Google ทำการ Crawl เนื้อหาที่ถูกต้องนั้นก็ง่ายกว่าการปล่อยให้ Google ทำการ Crawl เนื้อหาทั้งหมดทุกครั้ง โปรดทราบว่าการ Crawl เว็บไซต์มีทั้งการดึงข้อมูลและการแสดงผลเนื้อหา เวลาที่ใช้ในการแสดงผลหน้าเว็บจะเท่ากับเวลาที่ใช้ขอหน้าเว็บ ดังนั้นการทําให้หน้าเว็บแสดงผลเร็วขึ้นจะเป็นการเพิ่มความเร็วในการ Crawl ด้วย
เท็จ
เว็บไซต์ขนาดเล็กไม่ได้รับการรวบรวมข้อมูลบ่อยเท่ากับเว็บไซต์ขนาดใหญ่
จริง
เท็จ
หากเว็บไซต์มีเนื้อหาสําคัญที่มีการเปลี่ยนแปลงบ่อย เราจะทำการ Crawl บ่อยครั้งโดยไม่คํานึงถึงขนาด
ยิ่งเนื้อหาใกล้เคียงกับหน้าแรกมาก Google ก็จะให้ความสําคัญมาก
จริง
จริงบางส่วน
หน้าแรกของเว็บไซต์มักเป็นหน้าที่สำคัญที่สุดในเว็บไซต์ ดังนั้นระบบอาจถือว่าหน้าที่ลิงก์กับหน้าแรกโดยตรงมีความสำคัญมากกว่า จึงทำการ Crawl บ่อยกว่า แต่ก็ไม่ได้หมายความว่าหน้าเว็บเหล่านี้จะได้รับการจัดอันดับสูงกว่าหน้าอื่นๆ ในเว็บไซต์
เท็จ
การแนะนำให้ Google รวบรวมข้อมูลหน้าเว็บอีกครั้งด้วยการกำหนดเวอร์ชัน URL นั้นเป็นวิธีที่ดี
จริง
จริงบางส่วน
การใช้ URL ของหน้าเว็บซึ่งมีการกำหนดเวอร์ชันเพื่อแนะนำให้ Google ทำการ Crawl อีกครั้งในเร็วๆ นี้อาจได้ผลก็จริง แต่มักจะไม่จำเป็น และจะทำให้สิ้นเปลืองทรัพยากรในการ Crawl หากหน้าเว็บไม่มีการเปลี่ยนแปลง หากคุณใช้ URL ที่มีการกำหนดเวอร์ชันเพื่อระบุเนื้อหาใหม่ เราขอแนะนําให้เปลี่ยน URL เฉพาะเมื่อเนื้อหาของหน้าเว็บมีการเปลี่ยนแปลงอย่างมีความหมาย
เท็จ
ความเร็วเว็บไซต์และข้อผิดพลาดมีผลต่อ Crawl Budget
จริง
การทําให้เว็บไซต์เร็วขึ้นจะช่วยปรับปรุงประสบการณ์ของผู้ใช้ไปพร้อมกับเพิ่มอัตราการ Crawl Googlebot มองว่าเว็บไซต์ที่เร็วเป็นสัญญาณของเซิร์ฟเวอร์ที่มีประสิทธิภาพ จึงรวบรวมเนื้อหาได้มากขึ้นผ่านการเชื่อมต่อจํานวนเท่ากัน ในทางกลับกัน ก็มองว่ารหัสสถานะการตอบกลับ HTTP 5xx (ข้อผิดพลาดเกี่ยวกับเซิร์ฟเวอร์) จํานวนมากหรือการเชื่อมต่อหมดเวลาเป็นสัญญาณของเซิร์ฟเวอร์ที่ไม่มีประสิทธิภาพ จึงทำการ Crawl ได้ช้าลง เราขอแนะนำให้คอยตรวจสอบรายงานสถิติการ Crawl ใน Search Console และดูแลไม่ให้มีข้อผิดพลาดเกี่ยวกับเซิร์ฟเวอร์จำนวนมาก
เท็จ
การรวบรวมข้อมูลเป็นปัจจัยในการจัดอันดับ
จริง
เท็จ
การปรับปรุงอัตราการ Crawl ไม่ได้ทำให้มีอันดับในผลการค้นหาสูงขึ้นเสมอไป Google ใช้สัญญาณจำนวนมากในการจัดอันดับผลการค้นหา และแม้ว่าการ Crawl จะเป็นสิ่งจําเป็นที่ทำให้หน้าเว็บปรากฏในผลการค้นหา แต่ก็ไม่ได้เป็นสัญญาณการจัดอันดับ
URL ทางเลือกและเนื้อหาที่ฝังนับรวมอยู่ใน Crawl Budget
จริง
โดยทั่วไป URL ที่ Googlebot ทำการ Crawl จะนับรวมอยู่ใน Crawl Budget ของเว็บไซต์ ระบบอาจต้องทำการ Crawl URL ทางเลือกอย่างเช่น AMP หรือ hreflang ตลอดจนเนื้อหาที่ฝังอย่างเช่น CSS และ JavaScript ซึ่งรวมถึงการดึงข้อมูล XHR โดยทั้งหมดจะนับรวมอยู่ใน Crawl Budget ของเว็บไซต์
เท็จ
ฉันควบคุม Googlebot ได้ด้วยกฎ "crawl-delay"
จริง
เท็จ
Googlebot ไม่ประมวลผลกฎ robots.txt "crawl-delay" ที่ไม่เป็นมาตรฐาน
กฎ nofollow มีผลต่อ Crawl Budget
จริง
จริงบางส่วน
URL ใดๆ ที่ได้รับการ Crawl จะมีผลต่อ Crawl Budget ดังนั้นแม้ว่าหน้าเว็บจะทำเครื่องหมาย URL ว่า nofollow ระบบก็อาจยังทำการ Crawl URL นั้นอยู่หากหน้าอื่นในเว็บไซต์หรือหน้าอื่นในอินเทอร์เน็ตไม่ติดป้ายกำกับลิงก์ดังกล่าวว่า nofollow
เท็จ
ฉันใช้ noindex เพื่อควบคุม Crawl Budget
จริง
จริงบางส่วน
URL ใดๆ ที่ได้รับการ Crawl จะมีผลต่อ Crawl Budget และ Google ต้องทำการ Crawl หน้าเว็บเพื่อหากฎ noindex

อย่างไรก็ตาม noindex พร้อมช่วยคุณในการป้องกันไม่ให้มีการจัดทำดัชนี หากคุณไม่ต้องการให้หน้าเว็บเหล่านั้นอยู่ในดัชนีของ Google ก็ให้ใช้ noindex ต่อไปและไม่ต้องกังวลเกี่ยวกับ Crawl Budget โปรดทราบด้วยว่าหากคุณนํา URL ออกจากดัชนีของ Google โดยใช้ noindex หรือหาก Googlebot สามารถเน้นที่ URL อื่นๆ ในเว็บไซต์ของคุณได้ นั่นหมายความว่า ในระยะยาว noindex สามารถเพิ่ม Crawl Budget สำหรับเว็บไซต์ของคุณได้โดยทางอ้อม
เท็จ
หน้าที่แสดงรหัสสถานะ HTTP 4xx ใช้ Crawl Budget
จริง
เท็จ
หน้าที่แสดงรหัสสถานะ HTTP 4xx (ยกเว้น 429) ไม่ได้ใช้ Crawl Budget Google พยายามทำการ Crawl หน้าเว็บ แต่ได้รับรหัสสถานะและไม่มีเนื้อหาอื่นๆ