คู่มือการจัดการ Crawl Budget สำหรับเจ้าของเว็บไซต์ขนาดใหญ่
คู่มือนี้อธิบายวิธีเพิ่มประสิทธิภาพการ Crawl ของ Google จากเว็บไซต์ที่มีขนาดใหญ่มากและมีการอัปเดตบ่อยครั้ง
หากเว็บไซต์ของคุณมีหน้าเว็บที่มีการเปลี่ยนแปลงอย่างรวดเร็วจำนวนไม่มาก หรือหากหน้าเว็บได้รับการ Crawl วันเดียวกับที่เผยแพร่ คุณไม่จำเป็นต้องอ่านคู่มือนี้ เพียงอัปเดต Sitemap ให้เป็นปัจจุบันอยู่เสมอและตรวจสอบการครอบคลุมของดัชนีอย่างสม่ำเสมอก็เพียงพอแล้ว
การมีเนื้อหาที่พร้อมใช้งานมาระยะหนึ่งแต่ยังไม่ได้รับการจัดทําดัชนีถือเป็นคนละปัญหากัน ให้ใช้เครื่องมือตรวจสอบ URL แทนเพื่อดูสาเหตุที่หน้าเว็บไม่ได้รับการจัดทําดัชนี
คู่มือนี้มีไว้สำหรับใคร
นี่เป็นคู่มือขั้นสูงที่มีไว้สำหรับ
- เว็บไซต์ขนาดใหญ่ (มีหน้าเว็บที่ไม่ซ้ำกันมากกว่า 1 ล้านหน้า) ซึ่งเนื้อหามีการเปลี่ยนแปลงพอควร (สัปดาห์ละครั้ง)
- เว็บไซต์ขนาดกลางหรือขนาดใหญ่ (มีหน้าเว็บที่ไม่ซ้ำกันมากกว่า 10,000 หน้า) ซึ่งเนื้อหามีการเปลี่ยนแปลงอย่างรวดเร็ว (ทุกวัน)
- เว็บไซต์ที่ส่วนใหญ่ของ URL ทั้งหมดได้รับการจัดหมวดหมู่โดย Search Console เป็นพบแล้ว - ยังไม่ได้จัดทําดัชนี
ทฤษฎีทั่วไปของการ Crawl
อินเทอร์เน็ตนั้นเป็นพื้นที่ที่แทบไม่มีขอบเขต ซึ่งเกินความสามารถของ Google ที่จะสํารวจและจัดทําดัชนี URL ที่มีอยู่ทั้งหมด ดังนั้นเวลาที่ Googlebot จะใช้ในการ Crawl เว็บไซต์หนึ่งๆ จึงมีจำกัด โดยทั่วไป ระยะเวลาและทรัพยากรที่ Google ใช้ในการ Crawl เว็บไซต์จะเรียกว่า Crawl Budget ของเว็บไซต์ โปรดทราบว่าเนื้อหาบางอย่างที่ได้รับการ Crawl ในเว็บไซต์อาจไม่ได้รับการจัดทำดัชนีเสมอไป เนื่องจาก Googlebot ต้องประเมินและรวมแต่ละหน้าเพื่อตัดสินว่าจะได้รับการจัดทำดัชนีหลังจากที่มีการ Crawl หรือไม่
Crawl Budget กำหนดโดยองค์ประกอบหลัก 2 อย่าง ได้แก่ ขีดความสามารถในการ Crawl และความต้องการให้ Crawl
ขีดความสามารถในการ Crawl
Googlebot ต้องการ Crawl เว็บไซต์โดยไม่ทำให้เซิร์ฟเวอร์ของคุณทำงานหนักเกินไป วิธีป้องกันปัญหานี้คือ Googlebot จะคํานวณขีดความสามารถในการ Crawl ซึ่งเป็นจำนวนการเชื่อมต่อแบบขนานที่เกิดขึ้นพร้อมกันสูงสุดที่ Googlebot จะใช้เพื่อทำการ Crawl เว็บไซต์ได้ รวมถึงความล่าช้าระหว่างการดึงข้อมูลด้วย เราคำนวณองค์ประกอบนี้เพื่อให้การครอบคลุมเนื้อหาที่สำคัญทั้งหมดโดยไม่ทำให้เซิร์ฟเวอร์ของคุณทำงานหนักเกินไป
ขีดความสามารถในการ Crawl อาจเพิ่มขึ้นหรือลดลงตามปัจจัยต่อไปนี้
- ประสิทธิภาพการ Crawl : ขีดความสามารถจะเพิ่มขึ้นหากเว็บไซต์ตอบสนองอย่างรวดเร็วเป็นระยะเวลาหนึ่ง ซึ่งหมายความว่า Googlebot ใช้การเชื่อมต่อเพื่อทำการ Crawl ได้มากขึ้น หากเว็บไซต์ทำงานช้าลงหรือตอบสนองโดยมีข้อผิดพลาดเกี่ยวกับเซิร์ฟเวอร์ ขีดความสามารถก็จะลดลงและ Googlebot จะทำการ Crawl น้อยลง
- ขีดจำกัดในการ Crawl ของ Google: Google มีเครื่องจำนวนมากแต่ก็ยังมีขีดจำกัด เรายังคงต้องตัดสินใจเลือกโดยคำนึงถึงทรัพยากรที่มีอยู่
ความต้องการ Crawl
โดยปกติแล้ว Google จะใช้เวลาในการ Crawl เว็บไซต์เท่าที่จำเป็น โดยพิจารณาจากขนาดของเว็บไซต์ ความถี่ในการอัปเดต คุณภาพของหน้าเว็บ และความเกี่ยวข้องเมื่อเทียบกับเว็บไซต์อื่นๆ
ปัจจัยที่มีบทบาทสำคัญในการกำหนดความต้องการการ Crawl ได้แก่
- รายการ URL ที่รับรู้: หากไม่มีคำแนะนำจากคุณ Googlebot จะพยายามทำการ Crawl URL ทั้งหมดหรือส่วนใหญ่ที่รู้จักซึ่งเกี่ยวกับเว็บไซต์ของคุณ หาก URL หลายรายการซ้ำกัน หรือคุณไม่ต้องการให้ระบบทำการ Crawl ด้วยเหตุผลอื่น (นำออกแล้ว ไม่สำคัญ และอื่นๆ) จะทำให้ Google เสียเวลาไปกับการ Crawl เว็บไซต์ของคุณอย่างมาก นี่เป็นปัจจัยที่คุณควบคุมได้มากที่สุดเพื่อให้เกิดประโยชน์กับทั้ง 2 ฝ่าย
- ความนิยม: URL ที่ได้รับความนิยมในอินเทอร์เน็ตมากกว่ามักจะได้รับการ Crawl บ่อยกว่าเพื่อให้มีความใหม่ในดัชนีอยู่เสมอ
- การไม่มีอัปเดต: ระบบต้องการ Crawl ในเอกสารอีกครั้งให้บ่อยพอที่จะทราบถึงการเปลี่ยนแปลง
นอกจากนี้ เหตุการณ์ที่เกิดขึ้นทั้งเว็บไซต์ เช่น การย้ายเว็บไซต์ อาจทำให้เกิดความต้องการ Crawl เพิ่มขึ้นเพื่อจัดทำดัชนีเนื้อหาใน URL ใหม่อีกครั้ง
สรุป
เมื่อพิจารณาความสามารถในการ Crawl และความต้องการ Crawl ร่วมกันแล้ว Google ถือว่า Crawl Budget ของเว็บไซต์เป็นชุด URL ที่ Googlebot สามารถและต้องการ Crawl แม้ว่าความสามารถในการ Crawl ยังไม่ถึงขีดจำกัดแต่มีความต้องการ Crawl ต่ำ Googlebot ก็จะทำการ Crawl เว็บไซต์น้อยลง
แนวทางปฏิบัติแนะนำ
ทําตามแนวทางปฏิบัติแนะนำต่อไปนี้เพื่อเพิ่มประสิทธิภาพการ Crawl สูงสุด
- จัดการรายการ URL: ใช้เครื่องมือที่เหมาะสมเพื่อบอก Google ว่าต้องรวบรวมและไม่ต้องทำการ Crawl หน้าใดบ้าง หาก Google ใช้เวลามากเกินไปในการ Crawl URL ที่ไม่เหมาะจะใส่ไว้ในดัชนี Googlebot อาจตัดสินว่าการดูส่วนที่เหลือในเว็บไซต์ (หรือการเพิ่มโควต้าเพื่อดูส่วนที่เหลือ) ไม่คุ้มค่า
- รวมเนื้อหาที่ซ้ำกัน นำเนื้อหาที่ซ้ำกันออกเพื่อให้ระบบทำการ Crawl โดยเน้นเนื้อหาที่ไม่ซ้ำกันแทน URL ที่ไม่ซ้ำ
- บล็อกการ Crawl URL โดยใช้ robots.txt หน้าเว็บบางหน้าอาจมีความสำคัญต่อผู้ใช้ แต่คุณอาจจะไม่ต้องการให้หน้าเหล่านั้นปรากฏในผลการค้นหา เช่น หน้าที่เลื่อนได้ไม่รู้จบซึ่งมีข้อมูลซ้ำจากหน้าเว็บที่เชื่อมโยง หรือเป็นเวอร์ชันที่มีการจัดเรียงต่างกันของหน้าเดียวกัน หากรวม URL ตามที่อธิบายไว้ในหัวข้อย่อยแรกไม่ได้ ให้บล็อกหน้าที่ไม่สําคัญ (สําหรับการค้นหา) โดยใช้ robots.txt การบล็อก URL ด้วย robots.txt จะลดโอกาสที่ URL จะได้รับการจัดทําดัชนีอย่างมาก
-
แสดงรหัสสถานะ
404
หรือ410
สําหรับหน้าเว็บที่นำออกอย่างถาวร Google จะไม่ลืม URL ที่รู้จัก แต่รหัสสถานะ404
เป็นสัญญาณที่บ่งชี้ว่าไม่ให้ทำการ Crawl URL นั้นอีก อย่างไรก็ตาม URL ที่บล็อกจะยังอยู่ในคิวการ Crawl นานขึ้น และจะได้รับการ Crawl อีกครั้งเมื่อมีการเลิกบล็อก - นําข้อผิดพลาด
soft 404
ออก ระบบจะยังทำการ Crawl หน้าsoft 404
ต่อไป ซึ่งจะทําให้คุณเสีย Budget ดูรายงานการครอบคลุมของดัชนีเพื่อหาข้อผิดพลาดsoft 404
- อัปเดตแผนผังเว็บไซต์อยู่เสมอ Google อ่านแผนผังเว็บไซต์เป็นประจำ ดังนั้นอย่าลืมใส่เนื้อหาทั้งหมดที่ต้องการให้ Google ทำการ Crawl ไว้ในแผนผังเว็บไซต์ หากเว็บไซต์มีเนื้อหาที่อัปเดต เราขอแนะนําให้ใส่แท็ก
<lastmod>
- หลีกเลี่ยงการใช้เชนการเปลี่ยนเส้นทางที่มีความยาว ซึ่งจะส่งผลเสียต่อการ Crawl
- ทําให้หน้าเว็บโหลดได้อย่างมีประสิทธิภาพ หาก Google โหลดและแสดงผลหน้าเว็บได้เร็วขึ้น เราอาจอ่านเนื้อหาจากเว็บไซต์ได้มากขึ้น
- ตรวจสอบการ Crawl เว็บไซต์ ตรวจสอบว่าเว็บไซต์มีปัญหาความพร้อมใช้งานระหว่างการ Crawl หรือไม่ และหาวิธีอื่นๆ ที่จะทำให้การ Crawl มีประสิทธิภาพมากขึ้น
ตรวจสอบการ Crawl และการจัดทำดัชนีของเว็บไซต์
ขั้นตอนสำคัญในการตรวจสอบโปรไฟล์การ Crawl ของเว็บไซต์มีดังนี้
- ดูว่า Googlebot พบปัญหาความพร้อมใช้งานในเว็บไซต์หรือไม่
- ดูว่ามีหน้าที่ไม่ได้รับการ Crawl ทั้งที่ควรได้รับหรือไม่
- ดูว่าเว็บไซต์มีส่วนใดที่ต้องได้รับการ Crawl เร็วกว่าที่เป็นอยู่หรือไม่
- ปรับปรุงประสิทธิภาพการ Crawl ของเว็บไซต์
- จัดการการรวบรวมข้อมูลเว็บไซต์ที่มากเกินไป
ดูว่า Googlebot พบปัญหาความพร้อมใช้งานในเว็บไซต์หรือไม่
การปรับปรุงความพร้อมใช้งานของเว็บไซต์ไม่ได้เพิ่ม Crawl Budget เสมอไป โดย Google จะกำหนดอัตราการ Crawl ที่ดีที่สุดตามความต้องการ Crawl ตามที่อธิบายไปก่อนหน้านี้ อย่างไรก็ตาม ปัญหาความพร้อมใช้งานจะทำให้ Google ทำการ Crawl เว็บไซต์ได้ไม่มากเท่าที่อาจต้องการ
การวิเคราะห์
ใช้รายงานสถิติการ Crawl เพื่อดูประวัติการ Crawl ของ Googlebot ในเว็บไซต์ของคุณ รายงานจะแสดงขึ้นเมื่อ Google พบปัญหาความพร้อมใช้งานในเว็บไซต์ หากมีการรายงานข้อผิดพลาดหรือคำเตือนเกี่ยวกับความพร้อมใช้งานของเว็บไซต์ ให้มองหาอินสแตนซ์ในกราฟความพร้อมใช้งานของโฮสต์ที่คำขอของ Googlebot เกินเส้นขีดจำกัดสีแดง จากนั้นคลิกเข้าไปในกราฟเพื่อดูว่า URL ใดมีข้อผิดพลาด แล้วลองหาความสัมพันธ์ของ URL เหล่านั้นกับปัญหาในเว็บไซต์
นอกจากนี้ คุณยังใช้เครื่องมือตรวจสอบ URL เพื่อทดสอบ URL บางรายการในเว็บไซต์ได้อีกด้วย หากเครื่องมือแสดงคําเตือนโหลดของโฮสต์มากเกินไป หมายความว่า Googlebot ทำการ Crawl URL จากเว็บไซต์ของคุณที่ตรวจพบไม่ได้ทั้งหมด
การแก้ไข
- อ่านเอกสารประกอบรายงานสถิติการ Crawl เพื่อดูวิธีค้นหาและจัดการปัญหาความพร้อมใช้งานบางอย่าง
- บล็อกหน้าเว็บไม่ให้ได้รับการ Crawl หากไม่ต้องการให้มีการ Crawl (ดูจัดการรายการ URL)
- เพิ่มความเร็วในการโหลดหน้าเว็บและการแสดงผล (ดูปรับปรุงประสิทธิภาพการ Crawl ของเว็บไซต์)
- เพิ่มความสามารถของเซิร์ฟเวอร์ หากดูเหมือนว่า Google ทำการ Crawl เว็บไซต์อย่างต่อเนื่องตามขีดความสามารถในการแสดงผล แต่ยังเหลือ URL รายการสำคัญที่ไม่ได้รับการ Crawl หรือการอัปเดตบ่อยเท่าที่ควร การมีทรัพยากรการแสดงผลเพิ่มขึ้นอาจช่วยให้ Google ขอหน้าในเว็บไซต์ได้มากขึ้น ตรวจสอบประวัติความพร้อมใช้งานของโฮสต์ในรายงานสถิติการ Crawl เพื่อดูว่าอัตราการ Crawl ของ Google น่าจะเกินขีดจำกัดบ่อยครั้งไหม หากเป็นเช่นนั้น ให้เพิ่มทรัพยากรการแสดงผลเป็นเวลา 1 เดือนแล้วดูว่าคำขอการ Crawl เพิ่มขึ้นในช่วงเวลานั้นหรือไม่
ดูว่าเว็บไซต์มีส่วนใดที่ไม่ได้รับการ Crawl ทั้งที่ควรได้รับหรือไม่
Google จะใช้เวลาในเว็บไซต์เท่าที่จำเป็นเพื่อจัดทำดัชนีเนื้อหาทั้งหมดที่พบ ทั้งนี้เนื้อหาต้องมีคุณภาพสูงและให้คุณค่าแก่ผู้ใช้ หากคุณคิดว่าเนื้อหาสำคัญไม่ได้รับการจัดทำดัชนี แสดงว่า Googlebot อาจไม่ทราบเกี่ยวกับเนื้อหาดังกล่าว เนื้อหาถูกบล็อกไม่ให้ Google พบ หรือความพร้อมใช้งานของเว็บไซต์ส่งผลต่อการเข้าถึงของ Google (หรือ Google พยายามไม่ให้เว็บไซต์ทำงานหนักเกินไป)
การวิเคราะห์
Search Console ไม่ได้ให้ประวัติการ Crawl ของเว็บไซต์ที่กรองโดยใช้ URL หรือเส้นทางได้ แต่คุณสามารถตรวจสอบบันทึกของเว็บไซต์เพื่อดูว่า Googlebot ทำการ Crawl URL หนึ่งๆ แล้วหรือยัง ส่วน URL ที่ทำการ Crawl แล้วเหล่านั้นได้รับการจัดทำดัชนีหรือยังเป็นคนละเรื่องกัน
อย่าลืมว่าสําหรับเว็บไซต์ส่วนใหญ่ Googlebot จะใช้เวลาอย่างน้อยหลายวันจึงเห็นหน้าเว็บใหม่ เว็บไซต์ส่วนใหญ่จึงไม่ควรคาดว่าจะได้รับการ Crawl URL ในวันเดียวกัน ยกเว้นเว็บไซต์ที่มีเวลาเป็นปัจจัยสำคัญ เช่น เว็บไซต์ข่าว
การแก้ไข
หากคุณเพิ่มหน้าในเว็บไซต์แต่ไม่ได้รับการ Crawl ภายในระยะเวลาที่เหมาะสม แสดงว่า Google ไม่ทราบเกี่ยวกับหน้าดังกล่าว เนื้อหาถูกบล็อก ความสามารถในการแสดงผลของเว็บไซต์ถึงขีดจำกัดสูงสุด หรือ Crawl Budget หมดแล้ว
- บอก Google เกี่ยวกับหน้าเว็บใหม่โดยอัปเดตแผนผังเว็บไซต์ให้มี URL ใหม่
- ตรวจสอบกฎ robots.txt เพื่อยืนยันว่าคุณไม่ได้บล็อกหน้าเว็บโดยไม่ตั้งใจ
- ตรวจสอบลําดับความสําคัญในการ Crawl (ใช้ Crawl Budget อย่างชาญฉลาด) จัดการรายการ URL และปรับปรุงประสิทธิภาพการ Crawl ของเว็บไซต์
- ตรวจสอบว่าความสามารถในการแสดงผลยังไม่ถึงขีดจำกัด Googlebot จะลดการ Crawl หากตรวจพบว่าเซิร์ฟเวอร์ของคุณมีปัญหาในการตอบกลับคําขอทำการ Crawl
โปรดทราบว่าหากเนื้อหามีคุณค่าหรือมีความต้องการของผู้ใช้ไม่เพียงพอ หน้าเว็บอาจไม่แสดงในผลการค้นหาแม้ว่าจะได้รับการ Crawl แล้วก็ตาม
ดูว่าการอัปเดตได้รับการ Crawl อย่างรวดเร็วเพียงพอหรือไม่
หากเราไม่ได้ทำการ Crawl หน้าเว็บใหม่หรือหน้าเว็บที่อัปเดตในเว็บไซต์ แสดงว่าอาจเป็นเพราะเรายังไม่เห็นหน้าดังกล่าวหรือไม่พบว่ามีการอัปเดต นี่เป็นวิธีช่วยให้เราทราบเกี่ยวกับการอัปเดตหน้า
โปรดทราบว่า Google พยายามตรวจสอบและจัดทำดัชนีหน้าเว็บภายในระยะเวลาที่เหมาะสม ซึ่งก็คืออย่างน้อย 3 วันสำหรับเว็บไซต์ส่วนใหญ่ อย่าคาดหวังให้ Google จัดทำดัชนีหน้าเว็บในวันเดียวกับที่คุณเผยแพร่ เว้นแต่จะเป็นเว็บไซต์ข่าวหรือมีเนื้อหาประเภทอื่นที่มีคุณค่าสูงและมีเวลาเป็นปัจจัยสำคัญ
การวิเคราะห์
ตรวจสอบบันทึกของเว็บไซต์เพื่อดูว่า Googlebot ทำการ Crawl URL หนึ่งๆ เมื่อใด
หากต้องการทราบวันที่จัดทําดัชนี ให้ใช้เครื่องมือตรวจสอบ URL หรือค้นหา URL ที่คุณอัปเดตโดยใช้ Google Search
การแก้ไข
สิ่งที่ควรทำ
- ใช้แผนผังเว็บไซต์ข่าวหากเว็บไซต์มีเนื้อหาข่าว
- ใช้แท็ก
<lastmod>
ในแผนผังเว็บไซต์เพื่อระบุว่ามีการอัปเดต URL ที่จัดทำดัชนีเมื่อใด - ใช้โครงสร้าง URL แบบง่ายเพื่อช่วยให้ Google พบหน้าเว็บ
- ระบุลิงก์
<a>
ที่ทำการ Crawl ได้แบบมาตรฐานเพื่อช่วยให้ Google พบหน้าเว็บ
สิ่งที่ควรหลีกเลี่ยง
- ส่ง Sitemap เดียวกันที่ไม่เปลี่ยนแปลงเข้ามาหลายครั้งต่อวัน
- คาดหวังว่า Googlebot จะรวบรวมเนื้อหาทั้งหมดใน Sitemap หรือทำการ Crawl ทันที แผนผังเว็บไซต์เป็นคำแนะนําที่มีประโยชน์สำหรับ Googlebot ไม่ใช่สิ่งที่จำเป็นต้องมี
- ใส่ URL ที่ไม่ต้องการให้ปรากฏใน Search ไว้ในแผนผังเว็บไซต์ เนื่องจากทำให้สิ้นเปลือง Crawl Budget ไปกับหน้าเว็บที่ไม่ต้องการให้จัดทําดัชนี
ปรับปรุงประสิทธิภาพการรวบรวมข้อมูลของเว็บไซต์
เพิ่มความเร็วในการโหลดหน้าเว็บ
สิ่งที่จำกัดการ Crawl ของ Google คือแบนด์วิดท์ เวลา และความพร้อมใช้งานของอินสแตนซ์ Googlebot หากเซิร์ฟเวอร์ของคุณตอบกลับคําขอเร็ว เราก็อาจทำการ Crawl หน้าเว็บในเว็บไซต์ได้มากขึ้น อย่างไรก็ตาม Google ต้องการ Crawl เนื้อหาที่มีคุณภาพสูงเท่านั้น การทําให้หน้าเว็บคุณภาพต่ำทำงานเร็วขึ้นจึงไม่ได้ช่วยให้ Googlebot ทำการ Crawl ในเว็บไซต์มากขึ้น ในทางกลับกัน หากเราคิดว่าไม่ได้ทำการ Crawl เนื้อหาคุณภาพสูงในเว็บไซต์ เราอาจเพิ่ม Crawl Budget ในการ Crawl เนื้อหานั้น
วิธีเพิ่มประสิทธิภาพหน้าเว็บและทรัพยากรเพื่อการ Crawl มีดังนี้
- ป้องกันไม่ให้ Googlebot โหลดทรัพยากรขนาดใหญ่แต่ไม่สำคัญโดยใช้ robots.txt ให้บล็อกเฉพาะทรัพยากรที่ไม่สำคัญ ซึ่งก็คือทรัพยากรที่ไม่จำเป็นต่อการทำความเข้าใจความหมายของหน้าเว็บ (เช่น รูปภาพตกแต่ง)
- ตรวจสอบว่าหน้าเว็บโหลดเร็ว
- ระวังเรื่องเชนการเปลี่ยนเส้นทางที่ยาว ซึ่งจะส่งผลเสียต่อการ Crawl
- ทั้งเวลาในการตอบกลับคําขอของเซิร์ฟเวอร์และเวลาที่ต้องใช้ในการแสดงหน้าเว็บล้วนมีความสำคัญ รวมถึงเวลาในการโหลดและเรียกใช้ทรัพยากรที่ฝังอยู่ เช่น รูปภาพและสคริปต์ อย่าลืมคำนึงถึงทรัพยากรขนาดใหญ่หรือทำงานช้าซึ่งจำเป็นสำหรับการจัดทำดัชนี
ระบุการเปลี่ยนแปลงเนื้อหาด้วยรหัสสถานะ HTTP
โดยทั่วไปแล้ว Google รองรับส่วนหัวของคำขอ HTTP If-Modified-Since
และ If-None-Match
สำหรับการ Crawl Crawler ของ Google จะไม่ส่งส่วนหัวที่มีการพยายาม Crawl ทั้งหมด โดยขึ้นอยู่กับ Use Case ของคําขอ (เช่น AdsBot มีแนวโน้มที่จะตั้งค่าส่วนหัวคําขอ HTTP If-Modified-Since
และ If-None-Match
) หาก Crawler ส่งส่วนหัว If-Modified-Since
ค่าของส่วนหัวจะเป็นวันที่และเวลาที่เนื้อหาได้รับการ Crawl ครั้งล่าสุด โดยอิงตามค่านั้น เซิร์ฟเวอร์อาจเลือกแสดงรหัสสถานะ HTTP 304 (Not Modified)
ที่ไม่มีเนื้อหาการตอบกลับ ซึ่งในกรณีนี้ Google จะใช้เวอร์ชันของเนื้อหาที่ทำการ Crawl ครั้งล่าสุดซ้ำ หากเนื้อหาเป็นรุ่นใหม่กว่าวันที่ที่ Crawler ระบุในส่วนหัว If-Modified-Since
เซิร์ฟเวอร์อาจแสดงรหัสสถานะ HTTP 200 (OK)
พร้อมเนื้อหาตอบกลับ
คุณสามารถส่งรหัสสถานะ HTTP 304 (Not Modified)
และเนื้อหาการตอบกลับสำหรับคำขอของ Googlebot ได้โดยไม่ขึ้นกับส่วนหัวของคำขอ หากเนื้อหาไม่มีการเปลี่ยนแปลงตั้งแต่ Googlebot มาที่ URL ครั้งล่าสุด การดําเนินการนี้จะช่วยประหยัดเวลาและทรัพยากรของเซิร์ฟเวอร์ในการประมวลผล ซึ่งอาจช่วยปรับปรุงประสิทธิภาพการ Crawl ได้โดยอ้อม
ซ่อน URL ที่ไม่ต้องการให้ปรากฏในผลการค้นหา
การใช้ทรัพยากรของเซิร์ฟเวอร์ไปกับหน้าเว็บที่ไม่จำเป็นจะลดกิจกรรมการ Crawl จากหน้าที่สำคัญสำหรับคุณ ซึ่งอาจทำให้การค้นพบเนื้อหาใหม่ที่ยอดเยี่ยมหรือเนื้อหาที่มีการอัปเดตในเว็บไซต์เกิดความล่าช้าอย่างมาก
การแสดง URL จํานวนมากในเว็บไซต์ซึ่งไม่ต้องการให้ Search ทำการ Crawl อาจส่งผลเสียต่อการ Crawl และจัดทําดัชนีของเว็บไซต์ โดยปกติแล้ว URL เหล่านี้จะอยู่ในหมวดหมู่ต่อไปนี้
- การไปยังส่วนต่างๆ ตามข้อมูลประกอบและตัวระบุเซสชัน: (การไปยังส่วนต่างๆ ตามข้อมูลประกอบมักเป็นเนื้อหาที่ซ้ำกันจากเว็บไซต์ ส่วนตัวระบุเซสชันและพารามิเตอร์ของ URL อื่นๆ ที่เพียงแต่จัดเรียงหรือกรองหน้าเว็บเท่านั้นไม่ได้ให้เนื้อหาใหม่) ใช้ robots.txt เพื่อบล็อกหน้าการไปยังส่วนต่างๆ ตามข้อมูลประกอบ
- เนื้อหาที่ซ้ำกัน: ช่วยให้ Google ระบุเนื้อหาที่ซ้ำกันเพื่อหลีกเลี่ยงการ Crawl ที่ไม่จำเป็น
- หน้า
soft 404
: แสดงรหัส404
เมื่อไม่มีหน้าเว็บแล้ว - หน้าที่ถูกแฮ็ก: ตรวจสอบรายงานปัญหาด้านความปลอดภัย และเมื่อพบหน้าเว็บที่ถูกแฮ็ก ให้แก้ไขหรือนําออก
- พื้นที่งานขนาดใหญ่มากและพร็อกซี: บล็อกทั้ง 2 อย่างนี้ไม่ให้มีการ Crawl ด้วย robots.txt
- เนื้อหาคุณภาพต่ำและเป็นสแปม: เป็นที่ทราบอยู่แล้วว่าควรหลีกเลี่ยง
- หน้ารถเข็นช็อปปิ้ง หน้าที่เลื่อนได้ไม่รู้จบ และหน้าที่มีการกระทำ (เช่น หน้า "ลงชื่อสมัครใช้" หรือ "ซื้อเลย")
สิ่งที่ควรทำ
- ใช้ robots.txt หากไม่ต้องการให้ Google ทำการ Crawl ทรัพยากรหรือหน้าเว็บหนึ่งๆ เลย
- หากมีการใช้ทรัพยากรทั่วไปซ้ำในหน้าเว็บหลายหน้า (เช่น ไฟล์ภาพหรือไฟล์ JavaScript ที่ใช้ร่วมกัน) ให้อ้างอิงทรัพยากรนั้นจาก URL เดียวกันในแต่ละหน้าเพื่อให้ Google แคชและใช้ทรัพยากรเดิมซ้ำได้โดยไม่ต้องขอทรัพยากรเดียวกันหลายครั้ง
สิ่งที่ควรหลีกเลี่ยง
- อย่าใช้วิธีเพิ่มหรือนำหน้าเว็บหรือไดเรกทอรีออกจาก robots.txt เป็นประจำเพื่อจัดสรร Crawl Budget ใหม่ให้เว็บไซต์ ใช้ robots.txt เฉพาะกับหน้าเว็บหรือทรัพยากรที่ไม่ต้องการให้ปรากฏใน Google ในระยะยาว
- อย่าหมุนเวียนแผนผังเว็บไซต์หรือใช้กลไกการซ่อนชั่วคราวอื่นๆ เพื่อจัดสรร Crawl Budget ใหม่
จัดการการรวบรวมข้อมูลเว็บไซต์ที่มากเกินไป (กรณีฉุกเฉิน)
Googlebot มีอัลกอริทึมที่จะป้องกันไม่ให้ตัวเองส่งคำขอการ Crawl จนทำให้เว็บไซต์ทำงานหนักเกินไป อย่างไรก็ตาม หากเห็นว่า Googlebot ทำให้เว็บไซต์ทำงานหนักเกินไปก็มีหลายวิธีที่คุณทำได้
การวิเคราะห์
ตรวจสอบเซิร์ฟเวอร์เพื่อหาคำขอ Googlebot ที่ส่งไปยังเว็บไซต์มากเกินไป
การแก้ไข
ในกรณีฉุกเฉิน เราขอแนะนำให้ทำตามขั้นตอนต่อไปนี้เพื่อชะลอการ Crawl จาก Googlebot ที่มากเกินไป
- แสดงรหัสสถานะการตอบกลับ HTTP
503
หรือ429
ชั่วคราวสําหรับคำขอ Googlebot เมื่อเซิร์ฟเวอร์ทำงานหนักเกินไป Googlebot จะลองทำการ Crawl URL เหล่านี้ซ้ำเป็นระยะเวลา 2 วัน โปรดทราบว่าการแสดงรหัส "ไม่พร้อมใช้งาน" นานกว่า 2-3 วันจะทำให้ Google ทำการ Crawl URL ในเว็บไซต์ช้าลงอย่างถาวรหรือหยุดทำการ Crawl URL ไปเลย ดังนั้นให้ทําตามขั้นตอนต่อไปเพิ่ม -
เมื่ออัตราการ Crawl ลดลง ให้หยุดแสดงรหัส
503
หรือ429
สำหรับคำขอทำการ Crawl เนื่องจากการแสดงรหัส503
หรือ429
นานกว่า 2 วันอาจทําให้ Google นำ URL ออกจากดัชนี - ตรวจสอบการ Crawl และความสามารถของโฮสต์เมื่อเวลาผ่านไป
- หาก Crawler ที่ทำให้เกิดปัญหาคือหนึ่งใน Crawler ของ AdsBot แสดงว่าปัญหาอาจมาจากที่คุณสร้างเป้าหมายโฆษณาบนเครือข่ายการค้นหาแบบไดนามิกสําหรับเว็บไซต์ที่ Google พยายามทำการ Crawl การ Crawl นี้จะเกิดขึ้นทุก 2 สัปดาห์ หากเซิร์ฟเวอร์ไม่มีความสามารถในการรับมือการ Crawl เหล่านี้ ให้จำกัดเป้าหมายโฆษณาหรือเพิ่มความสามารถในการแสดงโฆษณา
ความเชื่อและข้อเท็จจริงเกี่ยวกับการ Crawl
ทดสอบความรู้เกี่ยวกับการรวบรวมข้อมูลและการจัดทําดัชนีเว็บไซต์ของ Google
5xx
(ข้อผิดพลาดเกี่ยวกับเซิร์ฟเวอร์) จํานวนมากหรือการเชื่อมต่อหมดเวลาเป็นสัญญาณของเซิร์ฟเวอร์ที่ไม่มีประสิทธิภาพ จึงทำการ Crawl ได้ช้าลง เราขอแนะนำให้คอยตรวจสอบรายงานสถิติการ Crawl ใน Search Console และดูแลไม่ให้มีข้อผิดพลาดเกี่ยวกับเซิร์ฟเวอร์จำนวนมาก
nofollow
มีผลต่อ Crawl Budgetnofollow
ระบบก็อาจยังทำการ Crawl URL นั้นอยู่หากหน้าอื่นในเว็บไซต์หรือหน้าอื่นในอินเทอร์เน็ตไม่ติดป้ายกำกับลิงก์ดังกล่าวว่า nofollow
noindex
เพื่อควบคุม Crawl Budgetnoindex
อย่างไรก็ตาม
noindex
พร้อมช่วยคุณในการป้องกันไม่ให้มีการจัดทำดัชนี หากคุณไม่ต้องการให้หน้าเว็บเหล่านั้นอยู่ในดัชนีของ Google ก็ให้ใช้ noindex
ต่อไปและไม่ต้องกังวลเกี่ยวกับ Crawl Budget โปรดทราบด้วยว่าหากคุณนํา URL ออกจากดัชนีของ Google โดยใช้ noindex
หรือหาก Googlebot สามารถเน้นที่ URL อื่นๆ ในเว็บไซต์ของคุณได้ นั่นหมายความว่า ในระยะยาว noindex
สามารถเพิ่ม Crawl Budget สำหรับเว็บไซต์ของคุณได้โดยทางอ้อม
4xx
ใช้ Crawl Budget4xx
(ยกเว้น 429
) ไม่ได้ใช้ Crawl Budget Google พยายามทำการ Crawl หน้าเว็บ แต่ได้รับรหัสสถานะและไม่มีเนื้อหาอื่นๆ