คู่มือการจัดการ Crawl Budget สำหรับเจ้าของเว็บไซต์ขนาดใหญ่

คู่มือนี้อธิบายวิธีเพิ่มประสิทธิภาพการ Crawl ของ Google จากเว็บไซต์ที่มีขนาดใหญ่มากและมีการอัปเดตบ่อยครั้ง

หากเว็บไซต์ของคุณมีหน้าเว็บที่มีการเปลี่ยนแปลงอย่างรวดเร็วจำนวนไม่มาก หรือหากหน้าเว็บได้รับ Crawl วันเดียวกับที่เผยแพร่ คุณไม่จำเป็นต้องอ่านคู่มือนี้ เพียงอัปเดต Sitemap ให้เป็นปัจจุบันอยู่เสมอและตรวจสอบการครอบคลุมของดัชนีอย่างสม่ำเสมอก็เพียงพอแล้ว

การมีเนื้อหาที่พร้อมใช้งานมาระยะหนึ่งแต่ยังไม่ได้รับการจัดทําดัชนีถือเป็นคนละปัญหากัน ให้ใช้เครื่องมือตรวจสอบ URL แทนเพื่อดูสาเหตุที่หน้าเว็บไม่ได้รับการจัดทําดัชนี

คู่มือนี้มีไว้สำหรับใคร

นี่เป็นคู่มือขั้นสูงที่มีไว้สำหรับ

  • เว็บไซต์ขนาดใหญ่ (มีหน้าเว็บที่ไม่ซ้ำกันมากกว่า 1 ล้านหน้า) ซึ่งเนื้อหามีการเปลี่ยนแปลงพอควร (สัปดาห์ละครั้ง)
  • เว็บไซต์ขนาดกลางหรือขนาดใหญ่ (มีหน้าเว็บที่ไม่ซ้ำกันมากกว่า 10,000 หน้า) ซึ่งเนื้อหามีการเปลี่ยนแปลงอย่างรวดเร็ว (ทุกวัน)
  • เว็บไซต์ที่ส่วนใหญ่ของ URL ทั้งหมดได้รับการจัดหมวดหมู่โดย Search Console เป็นพบแล้ว - ยังไม่ได้จัดทําดัชนี

ทฤษฎีทั่วไปของการรวบรวมข้อมูล

อินเทอร์เน็ตนั้นเป็นพื้นที่ที่แทบไม่มีขอบเขต ซึ่งเกินความสามารถของ Google ที่จะสํารวจและจัดทําดัชนี URL ที่มีอยู่ทั้งหมด ดังนั้นเวลาที่ Googlebot จะใช้ในการรวบรวมข้อมูลเว็บไซต์หนึ่งๆ จึงมีจำกัด โดยทั่วไป ระยะเวลาและทรัพยากรที่ Google ใช้ในการรวบรวมข้อมูลเว็บไซต์จะเรียกว่า Crawl Budget ของเว็บไซต์ โปรดทราบว่าเนื้อหาบางอย่างที่ได้รับการรวบรวมข้อมูลในเว็บไซต์อาจไม่ได้รับการจัดทำดัชนีเสมอไป เนื่องจาก Googlebot ต้องประเมินและรวมแต่ละหน้าเพื่อตัดสินว่าจะได้รับการจัดทำดัชนีหลังจากที่มีการรวบรวมข้อมูลหรือไม่

Crawl Budget กำหนดโดยองค์ประกอบหลัก 2 อย่าง ได้แก่ ขีดความสามารถในการรวบรวมข้อมูลและความต้องการรวบรวมข้อมูล

ขีดความสามารถในการรวบรวมข้อมูล

Googlebot ต้องการรวบรวมข้อมูลเว็บไซต์โดยไม่ทำให้เซิร์ฟเวอร์ของคุณทำงานหนักเกินไป วิธีป้องกันปัญหานี้คือ Googlebot จะคํานวณขีดความสามารถในการรวบรวมข้อมูล ซึ่งเป็นจำนวนการเชื่อมต่อแบบขนานที่เกิดขึ้นพร้อมกันสูงสุดที่ Googlebot จะใช้เพื่อรวบรวมข้อมูลเว็บไซต์ได้ รวมถึงความล่าช้าระหว่างการดึงข้อมูลด้วย เราคำนวณองค์ประกอบนี้เพื่อให้การครอบคลุมเนื้อหาที่สำคัญทั้งหมดโดยไม่ทำให้เซิร์ฟเวอร์ของคุณทำงานหนักเกินไป

ขีดความสามารถในการรวบรวมข้อมูลอาจเพิ่มขึ้นหรือลดลงตามปัจจัยต่อไปนี้

  • ประสิทธิภาพการรวบรวมข้อมูล: ขีดความสามารถจะเพิ่มขึ้นหากเว็บไซต์ตอบสนองอย่างรวดเร็วเป็นระยะเวลาหนึ่ง ซึ่งหมายความว่า Googlebot ใช้การเชื่อมต่อเพื่อรวบรวมข้อมูลได้มากขึ้น หากเว็บไซต์ทำงานช้าลงหรือตอบสนองโดยมีข้อผิดพลาดเกี่ยวกับเซิร์ฟเวอร์ ขีดความสามารถก็จะลดลงและ Googlebot จะรวบรวมข้อมูลน้อยลง
  • ขีดจํากัดที่เจ้าของเว็บไซต์กําหนดไว้ใน Search Console: เจ้าของเว็บไซต์เลือกที่จะให้ Googlebot รวบรวมข้อมูลในเว็บไซต์น้อยลงได้ โปรดทราบว่าการตั้งขีดจำกัดไว้สูงจะไม่เพิ่มการรวบรวมข้อมูลโดยอัตโนมัติ
  • ขีดจำกัดในการรวบรวมข้อมูลของ Google: Google มีเครื่องจำนวนมากแต่ก็ยังมีขีดจำกัด เรายังคงต้องตัดสินใจเลือกโดยคำนึงถึงทรัพยากรที่มีอยู่

ความต้องการรวบรวมข้อมูล

โดยปกติแล้ว Google จะใช้เวลาในการรวบรวมข้อมูลเว็บไซต์เท่าที่จำเป็น โดยพิจารณาจากขนาดของเว็บไซต์ ความถี่ในการอัปเดต คุณภาพของหน้าเว็บ และความเกี่ยวข้องเมื่อเทียบกับเว็บไซต์อื่นๆ

ปัจจัยที่มีบทบาทสำคัญในการกำหนดความต้องการรวบรวมข้อมูล ได้แก่

  • รายการ URL ที่รับรู้: หากไม่มีคำแนะนำจากคุณ Googlebot จะพยายามรวบรวมข้อมูล URL ทั้งหมดหรือส่วนใหญ่ที่รู้จักซึ่งเกี่ยวกับเว็บไซต์ของคุณ หาก URL หลายรายการซ้ำกัน หรือคุณไม่ต้องการให้ระบบรวบรวมข้อมูลด้วยเหตุผลอื่น (นำออกแล้ว ไม่สำคัญ และอื่นๆ) จะทำให้ Google เสียเวลาไปกับการรวบรวมข้อมูลเว็บไซต์ของคุณอย่างมาก นี่เป็นปัจจัยที่คุณควบคุมได้มากที่สุดเพื่อให้เกิดประโยชน์กับทั้ง 2 ฝ่าย
  • ความนิยม: URL ที่ได้รับความนิยมในอินเทอร์เน็ตมากกว่ามักจะได้รับการรวบรวมข้อมูลบ่อยกว่าเพื่อให้มีความใหม่ในดัชนีอยู่เสมอ
  • การไม่มีอัปเดต: ระบบต้องการรวบรวมข้อมูลในเอกสารอีกครั้งให้บ่อยพอที่จะทราบถึงการเปลี่ยนแปลง

นอกจากนี้ เหตุการณ์ที่เกิดขึ้นทั้งเว็บไซต์ เช่น การย้ายเว็บไซต์อาจทำให้เกิดความต้องการรวบรวมข้อมูลเพิ่มขึ้นเพื่อจัดทำดัชนีเนื้อหาใน URL ใหม่อีกครั้ง

สรุป

เมื่อพิจารณาความสามารถในการรวบรวมข้อมูลและความต้องการรวบรวมข้อมูลร่วมกันแล้ว Google ถือว่า Crawl Budget ของเว็บไซต์เป็นชุด URL ที่ Googlebot สามารถและต้องการรวบรวมข้อมูล แม้ว่าความสามารถในการรวบรวมข้อมูลยังไม่ถึงขีดจำกัดแต่มีความต้องการรวบรวมข้อมูลต่ำ Googlebot ก็จะรวบรวมข้อมูลเว็บไซต์น้อยลง

แนวทางปฏิบัติแนะนำ

ทําตามแนวทางปฏิบัติแนะนำต่อไปนี้เพื่อเพิ่มประสิทธิภาพการรวบรวมข้อมูลสูงสุด

  • จัดการรายการ URL: ใช้เครื่องมือที่เหมาะสมเพื่อบอก Google ว่าต้องทำการ Crawl และไม่ต้องรวบรวมข้อมูลหน้าใดบ้าง หาก Google ใช้เวลามากเกินไปในการรวบรวมข้อมูล URL ที่ไม่เหมาะจะใส่ไว้ในดัชนี Googlebot อาจตัดสินว่าการดูส่วนที่เหลือในเว็บไซต์ (หรือการเพิ่มโควต้าเพื่อดูส่วนที่เหลือ) ไม่คุ้มค่า
    • รวมเนื้อหาที่ซ้ำกัน นำเนื้อหาที่ซ้ำกันออกเพื่อให้ระบบรวบรวมข้อมูลโดยเน้นเนื้อหาที่ไม่ซ้ำกันแทน URL ที่ไม่ซ้ำ
    • บล็อกการรวบรวมข้อมูล URL โดยใช้ robots.txt หน้าเว็บบางหน้าอาจมีความสำคัญต่อผู้ใช้ แต่คุณอาจจะไม่ต้องการให้หน้าเหล่านั้นปรากฏในผลการค้นหา เช่น หน้าที่เลื่อนได้ไม่รู้จบซึ่งมีข้อมูลซ้ำจากหน้าเว็บที่เชื่อมโยง หรือเป็นเวอร์ชันที่มีการจัดเรียงต่างกันของหน้าเดียวกัน หากรวม URL ตามที่อธิบายไว้ในหัวข้อย่อยแรกไม่ได้ ให้บล็อกหน้าที่ไม่สําคัญ (สําหรับการค้นหา) โดยใช้ robots.txt การบล็อก URL ด้วย robots.txt จะลดโอกาสที่ URL จะได้รับการจัดทําดัชนีอย่างมาก
    • แสดงรหัสสถานะ 404 หรือ 410 สําหรับหน้าเว็บที่นำออกอย่างถาวร Google จะไม่ลืม URL ที่รู้จัก แต่รหัสสถานะ 404 เป็นสัญญาณที่บ่งชี้ว่าไม่ให้ทำการ Crawl URL นั้นอีก อย่างไรก็ตาม URL ที่บล็อกจะยังอยู่ในคิวการรวบรวมข้อมูลนานขึ้น และจะได้รับการรวบรวมข้อมูลอีกครั้งเมื่อมีการเลิกบล็อก
    • นําข้อผิดพลาด soft 404 ออก ระบบจะยังทำการ Crawlหน้า soft 404 ต่อไป ซึ่งจะทําให้คุณเสีย Budget ดูรายงานการครอบคลุมของดัชนีเพื่อหาข้อผิดพลาด soft 404
    • อัปเดตแผนผังเว็บไซต์อยู่เสมอ Google อ่านแผนผังเว็บไซต์เป็นประจำ ดังนั้นอย่าลืมใส่เนื้อหาทั้งหมดที่ต้องการให้ Google รวบรวมข้อมูลไว้ในแผนผังเว็บไซต์ หากเว็บไซต์มีเนื้อหาที่อัปเดต เราขอแนะนําให้ใส่แท็ก <lastmod>
    • หลีกเลี่ยงการใช้เชนการเปลี่ยนเส้นทางที่มีความยาว ซึ่งจะส่งผลเสียต่อการรวบรวมข้อมูล
  • ทําให้หน้าเว็บโหลดได้อย่างมีประสิทธิภาพ หาก Google โหลดและแสดงผลหน้าเว็บได้เร็วขึ้น เราอาจอ่านเนื้อหาจากเว็บไซต์ได้มากขึ้น
  • ตรวจสอบการรวบรวมข้อมูลเว็บไซต์ ตรวจสอบว่าเว็บไซต์มีปัญหาความพร้อมใช้งานระหว่างการรวบรวมข้อมูลหรือไม่ และหาวิธีอื่นๆ ที่จะทำให้การรวบรวมข้อมูลมีประสิทธิภาพมากขึ้น

ตรวจสอบการรวบรวมข้อมูลและการจัดทำดัชนีของเว็บไซต์

ขั้นตอนสำคัญในการตรวจสอบโปรไฟล์การรวบรวมข้อมูลของเว็บไซต์มีดังนี้

  1. ดูว่า Googlebot พบปัญหาความพร้อมใช้งานในเว็บไซต์หรือไม่
  2. ดูว่ามีหน้าที่ไม่ได้รับการรวบรวมข้อมูลทั้งที่ควรได้รับหรือไม่
  3. ดูว่าเว็บไซต์มีส่วนใดที่ต้องได้รับการรวบรวมข้อมูลเร็วกว่าที่เป็นอยู่หรือไม่
  4. ปรับปรุงประสิทธิภาพการรวบรวมข้อมูลของเว็บไซต์
  5. จัดการการรวบรวมข้อมูลเว็บไซต์ที่มากเกินไป

ดูว่า Googlebot พบปัญหาความพร้อมใช้งานในเว็บไซต์หรือไม่

การปรับปรุงความพร้อมใช้งานของเว็บไซต์ไม่ได้เพิ่ม Crawl Budget เสมอไป Google จะกำหนดอัตราการรวบรวมข้อมูลที่ดีที่สุดตามความต้องการรวบรวมข้อมูลตามที่อธิบายไปก่อนหน้านี้ อย่างไรก็ตาม ปัญหาความพร้อมใช้งานจะทำให้ Google รวบรวมข้อมูลเว็บไซต์ได้ไม่มากเท่าที่อาจต้องการ

การวิเคราะห์

ใช้รายงานสถิติการรวบรวมข้อมูลเพื่อดูประวัติการรวบรวมข้อมูลของ Googlebot ในเว็บไซต์ของคุณ รายงานจะแสดงขึ้นเมื่อ Google พบปัญหาความพร้อมใช้งานในเว็บไซต์ หากมีการรายงานข้อผิดพลาดหรือคำเตือนเกี่ยวกับความพร้อมใช้งานของเว็บไซต์ ให้มองหาอินสแตนซ์ในกราฟความพร้อมใช้งานของโฮสต์ที่คำขอของ Googlebot เกินเส้นขีดจำกัดสีแดง จากนั้นคลิกเข้าไปในกราฟเพื่อดูว่า URL ใดมีข้อผิดพลาด แล้วลองหาความสัมพันธ์ของ URL เหล่านั้นกับปัญหาในเว็บไซต์

การแก้ไข

  • อ่านเอกสารประกอบรายงานสถิติการรวบรวมข้อมูลเพื่อดูวิธีค้นหาและจัดการปัญหาความพร้อมใช้งานบางอย่าง
  • บล็อกหน้าเว็บไม่ให้ได้รับการรวบรวมข้อมูลหากไม่ต้องการให้มีการรวบรวมข้อมูล (ดูจัดการรายการ URL)
  • เพิ่มความเร็วในการโหลดหน้าเว็บและการแสดงผล (ดูปรับปรุงประสิทธิภาพการรวบรวมข้อมูลของเว็บไซต์)
  • เพิ่มความสามารถของเซิร์ฟเวอร์ หากดูเหมือนว่า Google รวบรวมข้อมูลเว็บไซต์อย่างต่อเนื่องตามขีดความสามารถในการแสดงผล แต่ยังเหลือ URL รายการสำคัญที่ไม่ได้รับการรวบรวมข้อมูลหรือการอัปเดตบ่อยเท่าที่ควร การมีทรัพยากรการแสดงผลเพิ่มขึ้นอาจช่วยให้ Google ขอหน้าในเว็บไซต์ได้มากขึ้น ตรวจสอบประวัติความพร้อมใช้งานของโฮสต์ในรายงานสถิติการรวบรวมข้อมูลเพื่อดูว่าอัตราการรวบรวมข้อมูลของ Google น่าจะเกินขีดจำกัดบ่อยครั้งไหม หากเป็นเช่นนั้น ให้เพิ่มทรัพยากรการแสดงผลเป็นเวลา 1 เดือนแล้วดูว่าคำขอการรวบรวมข้อมูลเพิ่มขึ้นในช่วงเวลานั้นหรือไม่

ดูว่าเว็บไซต์มีส่วนใดที่ไม่ได้รับการรวบรวมข้อมูลทั้งที่ควรได้รับหรือไม่

Google จะใช้เวลาในเว็บไซต์เท่าที่จำเป็นเพื่อจัดทำดัชนีเนื้อหาทั้งหมดที่พบ ทั้งนี้เนื้อหาต้องมีคุณภาพสูงและให้คุณค่าแก่ผู้ใช้ หากคุณคิดว่าเนื้อหาสำคัญไม่ได้รับการจัดทำดัชนี แสดงว่า Googlebot อาจไม่ทราบเกี่ยวกับเนื้อหาดังกล่าว เนื้อหาถูกบล็อกไม่ให้ Google พบ หรือความพร้อมใช้งานของเว็บไซต์ส่งผลต่อการเข้าถึงของ Google (หรือ Google พยายามไม่ให้เว็บไซต์ทำงานหนักเกินไป)

การวิเคราะห์

Search Console ไม่ได้ให้ประวัติการรวบรวมข้อมูลของเว็บไซต์ที่กรองโดยใช้ URL หรือเส้นทางได้ แต่คุณสามารถตรวจสอบบันทึกของเว็บไซต์เพื่อดูว่า Googlebot รวบรวมข้อมูล URL หนึ่งๆ แล้วหรือยัง ส่วน URL ที่รวบรวมข้อมูลแล้วเหล่านั้นได้รับการจัดทำดัชนีหรือยังเป็นคนละเรื่องกัน

อย่าลืมว่าสําหรับเว็บไซต์ส่วนใหญ่ Googlebot จะใช้เวลาอย่างน้อยหลายวันจึงเห็นหน้าเว็บใหม่ เว็บไซต์ส่วนใหญ่จึงไม่ควรคาดว่าจะได้รับการรวบรวมข้อมูล URL ในวันเดียวกัน ยกเว้นเว็บไซต์ที่มีเวลาเป็นปัจจัยสำคัญ เช่น เว็บไซต์ข่าว

การแก้ไข

หากคุณเพิ่มหน้าในเว็บไซต์แต่ไม่ได้รับการรวบรวมข้อมูลภายในระยะเวลาที่เหมาะสม แสดงว่า Google ไม่ทราบเกี่ยวกับหน้าดังกล่าว เนื้อหาถูกบล็อก ความสามารถในการแสดงผลของเว็บไซต์ถึงขีดจำกัดสูงสุด หรือCrawl Budget หมดแล้ว

  1. บอก Google เกี่ยวกับหน้าเว็บใหม่โดยอัปเดตแผนผังเว็บไซต์ให้มี URL ใหม่
  2. ตรวจสอบกฎ robots.txt เพื่อยืนยันว่าคุณไม่ได้บล็อกหน้าเว็บโดยไม่ตั้งใจ
  3. ตรวจสอบลําดับความสําคัญในการรวบรวมข้อมูล (ใช้ Crawl Budget อย่างชาญฉลาด) จัดการรายการ URL และปรับปรุงประสิทธิภาพการรวบรวมข้อมูลของเว็บไซต์
  4. ตรวจสอบว่าความสามารถในการแสดงผลยังไม่ถึงขีดจำกัด Googlebot จะลดการรวบรวมข้อมูลหากตรวจพบว่าเซิร์ฟเวอร์ของคุณมีปัญหาในการตอบกลับคําขอรวบรวมข้อมูล

โปรดทราบว่าหากเนื้อหามีคุณค่าหรือมีความต้องการของผู้ใช้ไม่เพียงพอ หน้าเว็บอาจไม่แสดงในผลการค้นหาแม้ว่าจะได้รับการรวบรวมข้อมูลแล้วก็ตาม

ดูว่าการอัปเดตได้รับการรวบรวมข้อมูลอย่างรวดเร็วเพียงพอหรือไม่

หากเราไม่ได้รวบรวมข้อมูลหน้าเว็บใหม่หรือหน้าเว็บที่อัปเดตในเว็บไซต์ แสดงว่าอาจเป็นเพราะเรายังไม่เห็นหน้าดังกล่าวหรือไม่พบว่ามีการอัปเดต นี่เป็นวิธีช่วยให้เราทราบเกี่ยวกับการอัปเดตหน้า

โปรดทราบว่า Google พยายามตรวจสอบและจัดทำดัชนีหน้าเว็บภายในระยะเวลาที่เหมาะสม ซึ่งก็คืออย่างน้อย 3 วันสำหรับเว็บไซต์ส่วนใหญ่ อย่าคาดหวังให้ Google จัดทำดัชนีหน้าเว็บในวันเดียวกับที่คุณเผยแพร่ เว้นแต่จะเป็นเว็บไซต์ข่าวหรือมีเนื้อหาประเภทอื่นที่มีคุณค่าสูงและมีเวลาเป็นปัจจัยสำคัญ

การวิเคราะห์

ตรวจสอบบันทึกของเว็บไซต์เพื่อดูว่า Googlebot รวบรวมข้อมูล URL หนึ่งๆ เมื่อใด

หากต้องการทราบวันที่จัดทําดัชนี ให้ใช้เครื่องมือตรวจสอบ URL หรือค้นหา URL ที่คุณอัปเดตโดยใช้ Google Search

การแก้ไข

สิ่งที่ควรทำ

  • ใช้แผนผังเว็บไซต์ข่าวหากเว็บไซต์มีเนื้อหาข่าว ใช้คำสั่ง ping กับ Google เมื่อโพสต์หรือเปลี่ยนแปลงแผนผังเว็บไซต์
  • ใช้แท็ก <lastmod> ในแผนผังเว็บไซต์เพื่อระบุว่ามีการอัปเดต URL ที่จัดทำดัชนีเมื่อใด
  • ใช้โครงสร้าง URL แบบง่ายเพื่อช่วยให้ Google พบหน้าเว็บ
  • ระบุลิงก์ <a> ที่สามาร Crawl ได้แบบมาตรฐานเพื่อช่วยให้ Google พบหน้าเว็บ

สิ่งที่ควรหลีกเลี่ยง

  • ส่งแผนผังเว็บไซต์เดียวกันที่ไม่เปลี่ยนแปลงเข้ามาหลายครั้งต่อวัน
  • คาดหวังว่า Googlebot จะรวบรวมเนื้อหาทั้งหมดในแผนผังเว็บไซต์หรือรวบรวมข้อมูลทันที แผนผังเว็บไซต์เป็นคำแนะนําที่มีประโยชน์สำหรับ Googlebot ไม่ใช่สิ่งที่จำเป็นต้องมี
  • ใส่ URL ที่ไม่ต้องการให้ปรากฏใน Search ไว้ในแผนผังเว็บไซต์ เนื่องจากทำให้สิ้นเปลือง Crawl Budget ไปกับหน้าเว็บที่ไม่ต้องการให้จัดทําดัชนี

ปรับปรุงประสิทธิภาพการรวบรวมข้อมูลของเว็บไซต์

เพิ่มความเร็วในการโหลดหน้าเว็บ

สิ่งที่จำกัดการรวบรวมข้อมูลของ Google คือแบนด์วิดท์ เวลา และความพร้อมใช้งานของอินสแตนซ์ Googlebot หากเซิร์ฟเวอร์ของคุณตอบกลับคําขอเร็ว เราก็อาจรวบรวมข้อมูลหน้าเว็บในเว็บไซต์ได้มากขึ้น อย่างไรก็ตาม Google ต้องการรวบรวมข้อมูลเนื้อหาที่มีคุณภาพสูงเท่านั้น การทําให้หน้าเว็บคุณภาพต่ำทำงานเร็วขึ้นจึงไม่ได้ช่วยให้ Googlebot รวบรวมข้อมูลในเว็บไซต์มากขึ้น ในทางกลับกัน หากเราคิดว่าไม่ได้รวบรวมข้อมูลเนื้อหาคุณภาพสูงในเว็บไซต์ เราอาจเพิ่ม Crawl Budget ในการรวบรวมข้อมูลเนื้อหานั้น

วิธีเพิ่มประสิทธิภาพหน้าเว็บและทรัพยากรเพื่อการรวบรวมข้อมูลมีดังนี้

  • ป้องกันไม่ให้ Googlebot โหลดทรัพยากรขนาดใหญ่แต่ไม่สำคัญโดยใช้ robots.txt ให้บล็อกเฉพาะทรัพยากรที่ไม่สำคัญ ซึ่งก็คือทรัพยากรที่ไม่จำเป็นต่อการทำความเข้าใจความหมายของหน้าเว็บ (เช่น รูปภาพตกแต่ง)
  • ตรวจสอบว่าหน้าเว็บโหลดเร็ว
  • ระวังเรื่องเชนการเปลี่ยนเส้นทางที่ยาว ซึ่งจะส่งผลเสียต่อการรวบรวมข้อมูล
  • ทั้งเวลาในการตอบกลับคําขอของเซิร์ฟเวอร์และเวลาที่ต้องใช้ในการแสดงหน้าเว็บล้วนมีความสำคัญ รวมถึงเวลาในการโหลดและเรียกใช้ทรัพยากรที่ฝังอยู่ เช่น รูปภาพและสคริปต์ อย่าลืมคำนึงถึงทรัพยากรขนาดใหญ่หรือทำงานช้าซึ่งจำเป็นสำหรับการจัดทำดัชนี

ระบุการเปลี่ยนแปลงเนื้อหาด้วยรหัสสถานะ HTTP

โดยทั่วไปแล้ว Google รองรับส่วนหัวของคำขอ HTTP If-Modified-Since และ If-None-Match สำหรับการ Crawl Crawler ของ Google จะไม่ส่งส่วนหัวที่มีการพยายาม Crawl ทั้งหมด โดยขึ้นอยู่กับ Use Case ของคําขอ (เช่น AdsBot มีแนวโน้มที่จะตั้งค่าส่วนหัวคําขอ HTTP If-Modified-Since และ If-None-Match) หาก Crawler ส่งส่วนหัว If-Modified-Since ค่าของส่วนหัวจะเป็นวันที่และเวลาที่เนื้อหาได้รับการ Crawl ครั้งล่าสุด โดยอิงตามค่านั้น เซิร์ฟเวอร์อาจเลือกแสดงรหัสสถานะ HTTP 304 (Not Modified) ที่ไม่มีเนื้อหาการตอบกลับ ซึ่งในกรณีนี้ Google จะใช้เวอร์ชันของเนื้อหาที่ทำการ Crawl ครั้งล่าสุดซ้ำ หากเนื้อหาเป็นรุ่นใหม่กว่าวันที่ที่ Crawler ระบุในส่วนหัว If-Modified-Since เซิร์ฟเวอร์อาจแสดงรหัสสถานะ HTTP 200 (OK) พร้อมเนื้อหาตอบกลับ

คุณสามารถส่งรหัสสถานะ HTTP 304 (Not Modified) และเนื้อหาการตอบกลับสำหรับคำขอของ Googlebot ได้โดยไม่ขึ้นกับส่วนหัวของคำขอ หากเนื้อหาไม่มีการเปลี่ยนแปลงตั้งแต่ Googlebot มาที่ URL ครั้งล่าสุด การดําเนินการนี้จะช่วยประหยัดเวลาและทรัพยากรของเซิร์ฟเวอร์ในการประมวลผล ซึ่งอาจช่วยปรับปรุงประสิทธิภาพการ Crawl ได้โดยอ้อม

ซ่อน URL ที่ไม่ต้องการให้ปรากฏในผลการค้นหา

การใช้ทรัพยากรของเซิร์ฟเวอร์ไปกับหน้าเว็บที่ไม่จำเป็นจะลดกิจกรรมการรวบรวมข้อมูลจากหน้าที่สำคัญสำหรับคุณ ซึ่งอาจทำให้การค้นพบเนื้อหาใหม่ที่ยอดเยี่ยมหรือเนื้อหาที่มีการอัปเดตในเว็บไซต์เกิดความล่าช้าอย่างมาก

การแสดง URL จํานวนมากในเว็บไซต์ซึ่งไม่ต้องการให้ Search รวบรวมข้อมูลอาจส่งผลเสียต่อการรวบรวมข้อมูลและจัดทําดัชนีของเว็บไซต์ โดยปกติแล้ว URL เหล่านี้จะอยู่ในหมวดหมู่ต่อไปนี้

สิ่งที่ควรทำ

  • ใช้ robots.txt หากไม่ต้องการให้ Google รวบรวมข้อมูลทรัพยากรหรือหน้าเว็บหนึ่งๆ เลย
  • หากมีการใช้ทรัพยากรทั่วไปซ้ำในหน้าเว็บหลายหน้า (เช่น ไฟล์ภาพหรือไฟล์ JavaScript ที่ใช้ร่วมกัน) ให้อ้างอิงทรัพยากรนั้นจาก URL เดียวกันในแต่ละหน้าเพื่อให้ Google แคชและใช้ทรัพยากรเดิมซ้ำได้โดยไม่ต้องขอทรัพยากรเดียวกันหลายครั้ง

สิ่งที่ควรหลีกเลี่ยง

  • อย่าใช้วิธีเพิ่มหรือนำหน้าเว็บหรือไดเรกทอรีออกจาก robots.txt เป็นประจำเพื่อจัดสรร Crawl Budget ใหม่ให้เว็บไซต์ ใช้ robots.txt เฉพาะกับหน้าเว็บหรือทรัพยากรที่ไม่ต้องการให้ปรากฏใน Google ในระยะยาว
  • อย่าหมุนเวียนแผนผังเว็บไซต์หรือใช้กลไกการซ่อนชั่วคราวอื่นๆ เพื่อจัดสรร Crawl Budget ใหม่

จัดการการรวบรวมข้อมูลเว็บไซต์ที่มากเกินไป (กรณีฉุกเฉิน)

Googlebot มีอัลกอริทึมที่จะป้องกันไม่ให้ตัวเองส่งคำขอรวบรวมข้อมูลจนทำให้เว็บไซต์ทำงานหนักเกินไป อย่างไรก็ตาม หากเห็นว่า Googlebot ทำให้เว็บไซต์ทำงานหนักเกินไปก็มีหลายวิธีที่คุณทำได้

การวิเคราะห์

ตรวจสอบเซิร์ฟเวอร์เพื่อหาคำขอ Googlebot ที่ส่งไปยังเว็บไซต์มากเกินไป

การแก้ไข

ในกรณีฉุกเฉิน เราขอแนะนำให้ทำตามขั้นตอนต่อไปนี้เพื่อชะลอการรวบรวมข้อมูลจาก Googlebot ที่มากเกินไป

  1. แสดงรหัสสถานะการตอบกลับ HTTP 503 หรือ 429 ชั่วคราวสําหรับคำขอ Googlebot เมื่อเซิร์ฟเวอร์ทำงานหนักเกินไป Googlebot จะลองรวบรวมข้อมูล URL เหล่านี้ซ้ำเป็นระยะเวลา 2 วัน โปรดทราบว่าการแสดงรหัส "ไม่พร้อมใช้งาน" นานกว่า 2-3 วันจะทำให้ Google รวบรวมข้อมูล URL ในเว็บไซต์ช้าลงอย่างถาวรหรือหยุดรวบรวมข้อมูล URL ไปเลย ดังนั้นให้ทําตามขั้นตอนต่อไปเพิ่ม
  2. ลดอัตราการรวบรวมข้อมูลของ Googlebot สำหรับเว็บไซต์ การดำเนินการนี้อาจใช้เวลาถึง 2 วันจึงจะมีผล และต้องใช้สิทธิ์ระดับเจ้าของพร็อพเพอร์ตี้ใน Search Console โปรดใช้วิธีนี้เฉพาะเมื่อเห็นการรวบรวมข้อมูลที่มากเกินไปจาก Google เกิดขึ้นซ้ำๆ เป็นเวลานานในรายงานสถิติการรวบรวมข้อมูลในแผนภูมิความพร้อมใช้งานของโฮสต์ > การใช้งานโฮสต์
  3. เมื่ออัตราการรวบรวมข้อมูลลดลง ให้หยุดแสดงรหัส 503 หรือ 429 สำหรับคำขอรวบรวมข้อมูล เนื่องจากการแสดงรหัส 503 หรือ 429 นานกว่า 2 วันอาจทําให้ Google นำ URL ออกจากดัชนี
  4. ตรวจสอบการรวบรวมข้อมูลและความสามารถของโฮสต์เมื่อเวลาผ่านไป และหากเหมาะสมก็เพิ่มอัตราการรวบรวมข้อมูลอีกครั้ง หรืออนุญาตให้รวบรวมข้อมูลตามอัตราเริ่มต้น
  5. หากโปรแกรมรวบรวมข้อมูลที่ทำให้เกิดปัญหาคือหนึ่งในโปรแกรมรวบรวมข้อมูล AdsBot แสดงว่าปัญหาอาจมาจากที่คุณสร้างเป้าหมายโฆษณา Search แบบไดนามิกสําหรับเว็บไซต์ที่ Google พยายามรวบรวมข้อมูล การรวบรวมข้อมูลนี้จะเกิดขึ้นทุก 2 สัปดาห์ หากเซิร์ฟเวอร์ไม่มีความสามารถในการรับมือการรวบรวมข้อมูลเหล่านี้ ให้จำกัดเป้าหมายโฆษณาหรือเพิ่มความสามารถในการแสดงโฆษณา

ความเชื่อและข้อเท็จจริงเกี่ยวกับการรวบรวมข้อมูล

ทดสอบความรู้เกี่ยวกับการรวบรวมข้อมูลและการจัดทําดัชนีเว็บไซต์ของ Google

การบีบอัดแผนผังเว็บไซต์ช่วยเพิ่ม Crawl Budget ได้
จริง
ไม่จริง
ไม่ได้เป็นเช่นนั้น ระบบจะยังคงดึงข้อมูลแผนผังเว็บไซต์แบบไฟล์ ZIP มาจากเซิร์ฟเวอร์ ดังนั้นการส่งแผนผังเว็บไซต์ที่บีบอัดจึงไม่ได้ช่วยให้ Google ใช้เวลาหรือความพยายามในการรวบรวมข้อมูลน้อยลงแต่อย่างใด
Google ต้องการเนื้อหาที่ใหม่กว่า ฉันจึงควรปรับเปลี่ยนหน้าเว็บอยู่เสมอ
จริง
ไม่จริง
เนื้อหาได้รับการจัดประเภทตามคุณภาพโดยไม่คํานึงถึงความใหม่ สร้างและอัปเดตเนื้อหาตามที่จำเป็น อย่างไรก็ตาม การแสร้งทำเป็นว่าหน้าเว็บมีความใหม่โดยทำการเปลี่ยนแปลงที่ไม่สำคัญและอัปเดตวันที่ในหน้าเว็บไม่ถือเป็นการเพิ่มคุณค่า
Google ต้องการเนื้อหาเก่า (มีน้ำหนักมากกว่า) มากกว่าเนื้อหาใหม่
จริง
ไม่จริง
หน้าเว็บที่มีประโยชน์คือหน้าเว็บมีประโยชน์ไม่ว่าจะเป็นหน้าเก่าหรือใหม่
Google ต้องการ URL ที่ชัดเจนและไม่ต้องการพารามิเตอร์การค้นหา
จริง
ไม่จริง
เรารวบรวมข้อมูลพารามิเตอร์ได้
ยิ่งหน้าเว็บโหลดและแสดงผลเร็ว Google ก็จะรวบรวมข้อมูลได้มากขึ้น
จริง
จริง ในแง่ที่ว่าทรัพยากรของเรามีจำกัดเนื่องด้วยทั้งเวลาและจำนวนบ็อตสำหรับรวบรวมข้อมูล หากคุณแสดงผลหน้าเว็บได้มากขึ้นภายในเวลาที่จํากัด เราก็จะรวบรวมข้อมูลหน้าเว็บได้มากขึ้น อย่างไรก็ตาม เราอาจใช้เวลาในการรวบรวมข้อมูลเว็บไซต์ที่มีข้อมูลสำคัญนานกว่า แม้ว่าเว็บไซต์จะช้ากว่า การทำให้เว็บไซต์เร็วขึ้นสำหรับผู้ใช้อาจสำคัญกว่าการทำให้เว็บไซต์เร็วขึ้นเพื่อให้การรวบรวมข้อมูลครอบคลุมมากขึ้น และการช่วยให้ Google รวบรวมข้อมูลเนื้อหาที่ถูกต้องนั้นก็ง่ายกว่าการปล่อยให้ Google รวบรวมข้อมูลเนื้อหาทั้งหมดทุกครั้ง โปรดทราบว่าการรวบรวมข้อมูลเว็บไซต์มีทั้งการดึงข้อมูลและการแสดงผลเนื้อหา เวลาที่ใช้ในการแสดงผลหน้าเว็บจะเท่ากับเวลาที่ใช้ขอหน้าเว็บ ดังนั้นการทําให้หน้าเว็บแสดงผลเร็วขึ้นจะเป็นการเพิ่มความเร็วในการรวบรวมข้อมูลด้วย
ไม่จริง
เว็บไซต์ขนาดเล็กไม่ได้รับการรวบรวมข้อมูลบ่อยเท่ากับเว็บไซต์ขนาดใหญ่
จริง
ไม่จริง
หากเว็บไซต์มีเนื้อหาสําคัญที่มีการเปลี่ยนแปลงบ่อย เราจะรวบรวมข้อมูลบ่อยครั้งโดยไม่คํานึงถึงขนาด
ยิ่งเนื้อหาใกล้เคียงกับหน้าแรกมาก Google ก็จะให้ความสําคัญมาก
จริง
จริงบางส่วน
หน้าแรกของเว็บไซต์มักเป็นหน้าที่สำคัญที่สุดในเว็บไซต์ ดังนั้นระบบอาจถือว่าหน้าที่ลิงก์กับหน้าแรกโดยตรงมีความสำคัญมากกว่า จึงรวบรวมข้อมูลบ่อยกว่า แต่ก็ไม่ได้หมายความว่าหน้าเว็บเหล่านี้จะได้รับการจัดอันดับสูงกว่าหน้าอื่นๆ ในเว็บไซต์
ไม่จริง
การแนะนำให้ Google รวบรวมข้อมูลหน้าเว็บอีกครั้งด้วยการกำหนดเวอร์ชัน URL นั้นเป็นวิธีที่ดี
จริง
จริงบางส่วน
การใช้ URL ของหน้าเว็บซึ่งมีการกำหนดเวอร์ชันเพื่อแนะนำให้ Google รวบรวมข้อมูลอีกครั้งในเร็วๆ นี้อาจได้ผลก็จริง แต่มักจะไม่จำเป็น และจะทำให้สิ้นเปลืองทรัพยากรในการรวบรวมข้อมูลหากหน้าเว็บไม่มีการเปลี่ยนแปลง หากคุณใช้ URL ที่มีการกำหนดเวอร์ชันเพื่อระบุเนื้อหาใหม่ เราขอแนะนําให้เปลี่ยน URL เฉพาะเมื่อเนื้อหาของหน้าเว็บมีการเปลี่ยนแปลงอย่างมีความหมาย
ไม่จริง
ความเร็วเว็บไซต์และข้อผิดพลาดมีผลต่อ Crawl Budget
จริง
การทําให้เว็บไซต์เร็วขึ้นจะช่วยปรับปรุงประสบการณ์ของผู้ใช้ไปพร้อมกับเพิ่มอัตราการรวบรวมข้อมูล Googlebot มองว่าเว็บไซต์ที่เร็วเป็นสัญญาณของเซิร์ฟเวอร์ที่มีประสิทธิภาพ จึงรวบรวมเนื้อหาได้มากขึ้นผ่านการเชื่อมต่อจํานวนเท่ากัน ในทางกลับกัน ก็มองว่ารหัสสถานะการตอบกลับ HTTP 5xx (ข้อผิดพลาดเกี่ยวกับเซิร์ฟเวอร์) จํานวนมากหรือการเชื่อมต่อหมดเวลาเป็นสัญญาณของเซิร์ฟเวอร์ที่ไม่มีประสิทธิภาพ จึงทำการ Crawl ได้ช้าลง เราขอแนะนำให้คอยตรวจสอบรายงานสถิติการรวบรวมข้อมูลใน Search Console และดูแลไม่ให้มีข้อผิดพลาดเกี่ยวกับเซิร์ฟเวอร์จำนวนมาก
ไม่จริง
การรวบรวมข้อมูลเป็นปัจจัยในการจัดอันดับ
จริง
ไม่จริง
การปรับปรุงอัตราการรวบรวมข้อมูลไม่ได้ทำให้มีอันดับในผลการค้นหาสูงขึ้นเสมอไป Google ใช้สัญญาณจำนวนมากในการจัดอันดับผลการค้นหา และแม้ว่าการรวบรวมข้อมูลจะเป็นสิ่งจําเป็นที่ทำให้หน้าเว็บปรากฏในผลการค้นหา แต่ก็ไม่ได้เป็นสัญญาณการจัดอันดับ
URL ทางเลือกและเนื้อหาที่ฝังนับรวมอยู่ใน Crawl Budget
จริง
โดยทั่วไป URL ที่ Googlebot รวบรวมข้อมูลจะนับรวมอยู่ใน Crawl Budget ของเว็บไซต์ ระบบอาจต้องทำการ Crawl URL ทางเลือกอย่างเช่น AMP หรือ hreflang ตลอดจนเนื้อหาที่ฝังอย่างเช่น CSS และ JavaScript ซึ่งรวมถึงการดึงข้อมูล XHR โดยทั้งหมดจะนับรวมอยู่ใน Crawl Budget ของเว็บไซต์
ไม่จริง
ฉันควบคุม Googlebot ได้ด้วยกฎ "crawl-delay"
จริง
ไม่จริง
Googlebot ไม่ประมวลผลกฎ robots.txt "crawl-delay" ที่ไม่เป็นมาตรฐาน
กฎ nofollow มีผลต่อ Crawl Budget
จริง
จริงบางส่วน
URL ใดๆ ที่ได้รับการรวบรวมข้อมูลจะมีผลต่อ Crawl Budget ดังนั้นแม้ว่าหน้าเว็บจะทำเครื่องหมาย URL ว่า nofollow ระบบก็อาจยังรวบรวมข้อมูล URL นั้นอยู่หากหน้าอื่นในเว็บไซต์หรือหน้าอื่นในอินเทอร์เน็ตไม่ติดป้ายกำกับลิงก์ดังกล่าวว่า nofollow
ไม่จริง
ฉันใช้ noindex เพื่อควบคุม Crawl Budget
จริง
จริงบางส่วน
URL ใดๆ ที่ได้รับการ Crawl จะมีผลต่อ Crawl Budget และ Google ต้องทำการ Crawl หน้าเว็บเพื่อหากฎ noindex

อย่างไรก็ตาม noindex พร้อมช่วยคุณในการป้องกันไม่ให้มีการจัดทำดัชนี หากคุณไม่ต้องการให้หน้าเว็บเหล่านั้นอยู่ในดัชนีของ Google ก็ให้ใช้ noindex ต่อไปและไม่ต้องกังวลเกี่ยวกับ Crawl Budget โปรดทราบด้วยว่าหากคุณนํา URL ออกจากดัชนีของ Google โดยใช้ noindex หรือหาก Googlebot สามารถเน้นที่ URL อื่นๆ ในเว็บไซต์ของคุณได้ นั่นหมายความว่า ในระยะยาว noindex สามารถเพิ่ม Crawl Budget สำหรับเว็บไซต์ของคุณได้โดยทางอ้อม
ไม่จริง
หน้าที่แสดงรหัสสถานะ HTTP 4xx ใช้ Crawl Budget
จริง
ไม่จริง
หน้าที่แสดงรหัสสถานะ HTTP 4xx (ยกเว้น 429) ไม่ได้ใช้ Crawl Budget Google พยายามทำการ Crawl หน้าเว็บ แต่ได้รับรหัสสถานะและไม่มีเนื้อหาอื่นๆ