คู่มือการจัดการ Crawl Budget สำหรับเจ้าของเว็บไซต์ขนาดใหญ่
คู่มือนี้อธิบายวิธีเพิ่มประสิทธิภาพการ Crawl ของ Google จากเว็บไซต์ที่มีขนาดใหญ่มากและมีการอัปเดตบ่อยครั้ง
หากเว็บไซต์ของคุณมีหน้าเว็บที่มีการเปลี่ยนแปลงอย่างรวดเร็วจำนวนไม่มาก หรือหากหน้าเว็บได้รับ Crawl วันเดียวกับที่เผยแพร่ คุณไม่จำเป็นต้องอ่านคู่มือนี้ เพียงอัปเดต Sitemap ให้เป็นปัจจุบันอยู่เสมอและตรวจสอบการครอบคลุมของดัชนีอย่างสม่ำเสมอก็เพียงพอแล้ว
การมีเนื้อหาที่พร้อมใช้งานมาระยะหนึ่งแต่ยังไม่ได้รับการจัดทําดัชนีถือเป็นคนละปัญหากัน ให้ใช้เครื่องมือตรวจสอบ URL แทนเพื่อดูสาเหตุที่หน้าเว็บไม่ได้รับการจัดทําดัชนี
คู่มือนี้มีไว้สำหรับใคร
นี่เป็นคู่มือขั้นสูงที่มีไว้สำหรับ
- เว็บไซต์ขนาดใหญ่ (มีหน้าเว็บที่ไม่ซ้ำกันมากกว่า 1 ล้านหน้า) ซึ่งเนื้อหามีการเปลี่ยนแปลงพอควร (สัปดาห์ละครั้ง)
- เว็บไซต์ขนาดกลางหรือขนาดใหญ่ (มีหน้าเว็บที่ไม่ซ้ำกันมากกว่า 10,000 หน้า) ซึ่งเนื้อหามีการเปลี่ยนแปลงอย่างรวดเร็ว (ทุกวัน)
- เว็บไซต์ที่ส่วนใหญ่ของ URL ทั้งหมดได้รับการจัดหมวดหมู่โดย Search Console เป็นพบแล้ว - ยังไม่ได้จัดทําดัชนี
ทฤษฎีทั่วไปของการรวบรวมข้อมูล
อินเทอร์เน็ตนั้นเป็นพื้นที่ที่แทบไม่มีขอบเขต ซึ่งเกินความสามารถของ Google ที่จะสํารวจและจัดทําดัชนี URL ที่มีอยู่ทั้งหมด ดังนั้นเวลาที่ Googlebot จะใช้ในการรวบรวมข้อมูลเว็บไซต์หนึ่งๆ จึงมีจำกัด โดยทั่วไป ระยะเวลาและทรัพยากรที่ Google ใช้ในการรวบรวมข้อมูลเว็บไซต์จะเรียกว่า Crawl Budget ของเว็บไซต์ โปรดทราบว่าเนื้อหาบางอย่างที่ได้รับการรวบรวมข้อมูลในเว็บไซต์อาจไม่ได้รับการจัดทำดัชนีเสมอไป เนื่องจาก Googlebot ต้องประเมินและรวมแต่ละหน้าเพื่อตัดสินว่าจะได้รับการจัดทำดัชนีหลังจากที่มีการรวบรวมข้อมูลหรือไม่
Crawl Budget กำหนดโดยองค์ประกอบหลัก 2 อย่าง ได้แก่ ขีดความสามารถในการรวบรวมข้อมูลและความต้องการรวบรวมข้อมูล
ขีดความสามารถในการรวบรวมข้อมูล
Googlebot ต้องการรวบรวมข้อมูลเว็บไซต์โดยไม่ทำให้เซิร์ฟเวอร์ของคุณทำงานหนักเกินไป วิธีป้องกันปัญหานี้คือ Googlebot จะคํานวณขีดความสามารถในการรวบรวมข้อมูล ซึ่งเป็นจำนวนการเชื่อมต่อแบบขนานที่เกิดขึ้นพร้อมกันสูงสุดที่ Googlebot จะใช้เพื่อรวบรวมข้อมูลเว็บไซต์ได้ รวมถึงความล่าช้าระหว่างการดึงข้อมูลด้วย เราคำนวณองค์ประกอบนี้เพื่อให้การครอบคลุมเนื้อหาที่สำคัญทั้งหมดโดยไม่ทำให้เซิร์ฟเวอร์ของคุณทำงานหนักเกินไป
ขีดความสามารถในการรวบรวมข้อมูลอาจเพิ่มขึ้นหรือลดลงตามปัจจัยต่อไปนี้
- ประสิทธิภาพการรวบรวมข้อมูล: ขีดความสามารถจะเพิ่มขึ้นหากเว็บไซต์ตอบสนองอย่างรวดเร็วเป็นระยะเวลาหนึ่ง ซึ่งหมายความว่า Googlebot ใช้การเชื่อมต่อเพื่อรวบรวมข้อมูลได้มากขึ้น หากเว็บไซต์ทำงานช้าลงหรือตอบสนองโดยมีข้อผิดพลาดเกี่ยวกับเซิร์ฟเวอร์ ขีดความสามารถก็จะลดลงและ Googlebot จะรวบรวมข้อมูลน้อยลง
- ขีดจํากัดที่เจ้าของเว็บไซต์กําหนดไว้ใน Search Console: เจ้าของเว็บไซต์เลือกที่จะให้ Googlebot รวบรวมข้อมูลในเว็บไซต์น้อยลงได้ โปรดทราบว่าการตั้งขีดจำกัดไว้สูงจะไม่เพิ่มการรวบรวมข้อมูลโดยอัตโนมัติ
- ขีดจำกัดในการรวบรวมข้อมูลของ Google: Google มีเครื่องจำนวนมากแต่ก็ยังมีขีดจำกัด เรายังคงต้องตัดสินใจเลือกโดยคำนึงถึงทรัพยากรที่มีอยู่
ความต้องการรวบรวมข้อมูล
โดยปกติแล้ว Google จะใช้เวลาในการรวบรวมข้อมูลเว็บไซต์เท่าที่จำเป็น โดยพิจารณาจากขนาดของเว็บไซต์ ความถี่ในการอัปเดต คุณภาพของหน้าเว็บ และความเกี่ยวข้องเมื่อเทียบกับเว็บไซต์อื่นๆ
ปัจจัยที่มีบทบาทสำคัญในการกำหนดความต้องการรวบรวมข้อมูล ได้แก่
- รายการ URL ที่รับรู้: หากไม่มีคำแนะนำจากคุณ Googlebot จะพยายามรวบรวมข้อมูล URL ทั้งหมดหรือส่วนใหญ่ที่รู้จักซึ่งเกี่ยวกับเว็บไซต์ของคุณ หาก URL หลายรายการซ้ำกัน หรือคุณไม่ต้องการให้ระบบรวบรวมข้อมูลด้วยเหตุผลอื่น (นำออกแล้ว ไม่สำคัญ และอื่นๆ) จะทำให้ Google เสียเวลาไปกับการรวบรวมข้อมูลเว็บไซต์ของคุณอย่างมาก นี่เป็นปัจจัยที่คุณควบคุมได้มากที่สุดเพื่อให้เกิดประโยชน์กับทั้ง 2 ฝ่าย
- ความนิยม: URL ที่ได้รับความนิยมในอินเทอร์เน็ตมากกว่ามักจะได้รับการรวบรวมข้อมูลบ่อยกว่าเพื่อให้มีความใหม่ในดัชนีอยู่เสมอ
- การไม่มีอัปเดต: ระบบต้องการรวบรวมข้อมูลในเอกสารอีกครั้งให้บ่อยพอที่จะทราบถึงการเปลี่ยนแปลง
นอกจากนี้ เหตุการณ์ที่เกิดขึ้นทั้งเว็บไซต์ เช่น การย้ายเว็บไซต์อาจทำให้เกิดความต้องการรวบรวมข้อมูลเพิ่มขึ้นเพื่อจัดทำดัชนีเนื้อหาใน URL ใหม่อีกครั้ง
สรุป
เมื่อพิจารณาความสามารถในการรวบรวมข้อมูลและความต้องการรวบรวมข้อมูลร่วมกันแล้ว Google ถือว่า Crawl Budget ของเว็บไซต์เป็นชุด URL ที่ Googlebot สามารถและต้องการรวบรวมข้อมูล แม้ว่าความสามารถในการรวบรวมข้อมูลยังไม่ถึงขีดจำกัดแต่มีความต้องการรวบรวมข้อมูลต่ำ Googlebot ก็จะรวบรวมข้อมูลเว็บไซต์น้อยลง
แนวทางปฏิบัติแนะนำ
ทําตามแนวทางปฏิบัติแนะนำต่อไปนี้เพื่อเพิ่มประสิทธิภาพการรวบรวมข้อมูลสูงสุด
- จัดการรายการ URL: ใช้เครื่องมือที่เหมาะสมเพื่อบอก Google ว่าต้องทำการ Crawl และไม่ต้องรวบรวมข้อมูลหน้าใดบ้าง หาก Google ใช้เวลามากเกินไปในการรวบรวมข้อมูล URL ที่ไม่เหมาะจะใส่ไว้ในดัชนี Googlebot อาจตัดสินว่าการดูส่วนที่เหลือในเว็บไซต์ (หรือการเพิ่มโควต้าเพื่อดูส่วนที่เหลือ) ไม่คุ้มค่า
- รวมเนื้อหาที่ซ้ำกัน นำเนื้อหาที่ซ้ำกันออกเพื่อให้ระบบรวบรวมข้อมูลโดยเน้นเนื้อหาที่ไม่ซ้ำกันแทน URL ที่ไม่ซ้ำ
- บล็อกการรวบรวมข้อมูล URL โดยใช้ robots.txt หน้าเว็บบางหน้าอาจมีความสำคัญต่อผู้ใช้ แต่คุณอาจจะไม่ต้องการให้หน้าเหล่านั้นปรากฏในผลการค้นหา เช่น หน้าที่เลื่อนได้ไม่รู้จบซึ่งมีข้อมูลซ้ำจากหน้าเว็บที่เชื่อมโยง หรือเป็นเวอร์ชันที่มีการจัดเรียงต่างกันของหน้าเดียวกัน หากรวม URL ตามที่อธิบายไว้ในหัวข้อย่อยแรกไม่ได้ ให้บล็อกหน้าที่ไม่สําคัญ (สําหรับการค้นหา) โดยใช้ robots.txt การบล็อก URL ด้วย robots.txt จะลดโอกาสที่ URL จะได้รับการจัดทําดัชนีอย่างมาก
-
แสดงรหัสสถานะ
404
หรือ410
สําหรับหน้าเว็บที่นำออกอย่างถาวร Google จะไม่ลืม URL ที่รู้จัก แต่รหัสสถานะ404
เป็นสัญญาณที่บ่งชี้ว่าไม่ให้ทำการ Crawl URL นั้นอีก อย่างไรก็ตาม URL ที่บล็อกจะยังอยู่ในคิวการรวบรวมข้อมูลนานขึ้น และจะได้รับการรวบรวมข้อมูลอีกครั้งเมื่อมีการเลิกบล็อก - นําข้อผิดพลาด
soft 404
ออก ระบบจะยังทำการ Crawlหน้าsoft 404
ต่อไป ซึ่งจะทําให้คุณเสีย Budget ดูรายงานการครอบคลุมของดัชนีเพื่อหาข้อผิดพลาดsoft 404
- อัปเดตแผนผังเว็บไซต์อยู่เสมอ Google อ่านแผนผังเว็บไซต์เป็นประจำ ดังนั้นอย่าลืมใส่เนื้อหาทั้งหมดที่ต้องการให้ Google รวบรวมข้อมูลไว้ในแผนผังเว็บไซต์ หากเว็บไซต์มีเนื้อหาที่อัปเดต เราขอแนะนําให้ใส่แท็ก
<lastmod>
- หลีกเลี่ยงการใช้เชนการเปลี่ยนเส้นทางที่มีความยาว ซึ่งจะส่งผลเสียต่อการรวบรวมข้อมูล
- ทําให้หน้าเว็บโหลดได้อย่างมีประสิทธิภาพ หาก Google โหลดและแสดงผลหน้าเว็บได้เร็วขึ้น เราอาจอ่านเนื้อหาจากเว็บไซต์ได้มากขึ้น
- ตรวจสอบการรวบรวมข้อมูลเว็บไซต์ ตรวจสอบว่าเว็บไซต์มีปัญหาความพร้อมใช้งานระหว่างการรวบรวมข้อมูลหรือไม่ และหาวิธีอื่นๆ ที่จะทำให้การรวบรวมข้อมูลมีประสิทธิภาพมากขึ้น
ตรวจสอบการรวบรวมข้อมูลและการจัดทำดัชนีของเว็บไซต์
ขั้นตอนสำคัญในการตรวจสอบโปรไฟล์การรวบรวมข้อมูลของเว็บไซต์มีดังนี้
- ดูว่า Googlebot พบปัญหาความพร้อมใช้งานในเว็บไซต์หรือไม่
- ดูว่ามีหน้าที่ไม่ได้รับการรวบรวมข้อมูลทั้งที่ควรได้รับหรือไม่
- ดูว่าเว็บไซต์มีส่วนใดที่ต้องได้รับการรวบรวมข้อมูลเร็วกว่าที่เป็นอยู่หรือไม่
- ปรับปรุงประสิทธิภาพการรวบรวมข้อมูลของเว็บไซต์
- จัดการการรวบรวมข้อมูลเว็บไซต์ที่มากเกินไป
ดูว่า Googlebot พบปัญหาความพร้อมใช้งานในเว็บไซต์หรือไม่
การปรับปรุงความพร้อมใช้งานของเว็บไซต์ไม่ได้เพิ่ม Crawl Budget เสมอไป Google จะกำหนดอัตราการรวบรวมข้อมูลที่ดีที่สุดตามความต้องการรวบรวมข้อมูลตามที่อธิบายไปก่อนหน้านี้ อย่างไรก็ตาม ปัญหาความพร้อมใช้งานจะทำให้ Google รวบรวมข้อมูลเว็บไซต์ได้ไม่มากเท่าที่อาจต้องการ
การวิเคราะห์
ใช้รายงานสถิติการรวบรวมข้อมูลเพื่อดูประวัติการรวบรวมข้อมูลของ Googlebot ในเว็บไซต์ของคุณ รายงานจะแสดงขึ้นเมื่อ Google พบปัญหาความพร้อมใช้งานในเว็บไซต์ หากมีการรายงานข้อผิดพลาดหรือคำเตือนเกี่ยวกับความพร้อมใช้งานของเว็บไซต์ ให้มองหาอินสแตนซ์ในกราฟความพร้อมใช้งานของโฮสต์ที่คำขอของ Googlebot เกินเส้นขีดจำกัดสีแดง จากนั้นคลิกเข้าไปในกราฟเพื่อดูว่า URL ใดมีข้อผิดพลาด แล้วลองหาความสัมพันธ์ของ URL เหล่านั้นกับปัญหาในเว็บไซต์
การแก้ไข
- อ่านเอกสารประกอบรายงานสถิติการรวบรวมข้อมูลเพื่อดูวิธีค้นหาและจัดการปัญหาความพร้อมใช้งานบางอย่าง
- บล็อกหน้าเว็บไม่ให้ได้รับการรวบรวมข้อมูลหากไม่ต้องการให้มีการรวบรวมข้อมูล (ดูจัดการรายการ URL)
- เพิ่มความเร็วในการโหลดหน้าเว็บและการแสดงผล (ดูปรับปรุงประสิทธิภาพการรวบรวมข้อมูลของเว็บไซต์)
- เพิ่มความสามารถของเซิร์ฟเวอร์ หากดูเหมือนว่า Google รวบรวมข้อมูลเว็บไซต์อย่างต่อเนื่องตามขีดความสามารถในการแสดงผล แต่ยังเหลือ URL รายการสำคัญที่ไม่ได้รับการรวบรวมข้อมูลหรือการอัปเดตบ่อยเท่าที่ควร การมีทรัพยากรการแสดงผลเพิ่มขึ้นอาจช่วยให้ Google ขอหน้าในเว็บไซต์ได้มากขึ้น ตรวจสอบประวัติความพร้อมใช้งานของโฮสต์ในรายงานสถิติการรวบรวมข้อมูลเพื่อดูว่าอัตราการรวบรวมข้อมูลของ Google น่าจะเกินขีดจำกัดบ่อยครั้งไหม หากเป็นเช่นนั้น ให้เพิ่มทรัพยากรการแสดงผลเป็นเวลา 1 เดือนแล้วดูว่าคำขอการรวบรวมข้อมูลเพิ่มขึ้นในช่วงเวลานั้นหรือไม่
ดูว่าเว็บไซต์มีส่วนใดที่ไม่ได้รับการรวบรวมข้อมูลทั้งที่ควรได้รับหรือไม่
Google จะใช้เวลาในเว็บไซต์เท่าที่จำเป็นเพื่อจัดทำดัชนีเนื้อหาทั้งหมดที่พบ ทั้งนี้เนื้อหาต้องมีคุณภาพสูงและให้คุณค่าแก่ผู้ใช้ หากคุณคิดว่าเนื้อหาสำคัญไม่ได้รับการจัดทำดัชนี แสดงว่า Googlebot อาจไม่ทราบเกี่ยวกับเนื้อหาดังกล่าว เนื้อหาถูกบล็อกไม่ให้ Google พบ หรือความพร้อมใช้งานของเว็บไซต์ส่งผลต่อการเข้าถึงของ Google (หรือ Google พยายามไม่ให้เว็บไซต์ทำงานหนักเกินไป)
การวิเคราะห์
Search Console ไม่ได้ให้ประวัติการรวบรวมข้อมูลของเว็บไซต์ที่กรองโดยใช้ URL หรือเส้นทางได้ แต่คุณสามารถตรวจสอบบันทึกของเว็บไซต์เพื่อดูว่า Googlebot รวบรวมข้อมูล URL หนึ่งๆ แล้วหรือยัง ส่วน URL ที่รวบรวมข้อมูลแล้วเหล่านั้นได้รับการจัดทำดัชนีหรือยังเป็นคนละเรื่องกัน
อย่าลืมว่าสําหรับเว็บไซต์ส่วนใหญ่ Googlebot จะใช้เวลาอย่างน้อยหลายวันจึงเห็นหน้าเว็บใหม่ เว็บไซต์ส่วนใหญ่จึงไม่ควรคาดว่าจะได้รับการรวบรวมข้อมูล URL ในวันเดียวกัน ยกเว้นเว็บไซต์ที่มีเวลาเป็นปัจจัยสำคัญ เช่น เว็บไซต์ข่าว
การแก้ไข
หากคุณเพิ่มหน้าในเว็บไซต์แต่ไม่ได้รับการรวบรวมข้อมูลภายในระยะเวลาที่เหมาะสม แสดงว่า Google ไม่ทราบเกี่ยวกับหน้าดังกล่าว เนื้อหาถูกบล็อก ความสามารถในการแสดงผลของเว็บไซต์ถึงขีดจำกัดสูงสุด หรือCrawl Budget หมดแล้ว
- บอก Google เกี่ยวกับหน้าเว็บใหม่โดยอัปเดตแผนผังเว็บไซต์ให้มี URL ใหม่
- ตรวจสอบกฎ robots.txt เพื่อยืนยันว่าคุณไม่ได้บล็อกหน้าเว็บโดยไม่ตั้งใจ
- ตรวจสอบลําดับความสําคัญในการรวบรวมข้อมูล (ใช้ Crawl Budget อย่างชาญฉลาด) จัดการรายการ URL และปรับปรุงประสิทธิภาพการรวบรวมข้อมูลของเว็บไซต์
- ตรวจสอบว่าความสามารถในการแสดงผลยังไม่ถึงขีดจำกัด Googlebot จะลดการรวบรวมข้อมูลหากตรวจพบว่าเซิร์ฟเวอร์ของคุณมีปัญหาในการตอบกลับคําขอรวบรวมข้อมูล
โปรดทราบว่าหากเนื้อหามีคุณค่าหรือมีความต้องการของผู้ใช้ไม่เพียงพอ หน้าเว็บอาจไม่แสดงในผลการค้นหาแม้ว่าจะได้รับการรวบรวมข้อมูลแล้วก็ตาม
ดูว่าการอัปเดตได้รับการรวบรวมข้อมูลอย่างรวดเร็วเพียงพอหรือไม่
หากเราไม่ได้รวบรวมข้อมูลหน้าเว็บใหม่หรือหน้าเว็บที่อัปเดตในเว็บไซต์ แสดงว่าอาจเป็นเพราะเรายังไม่เห็นหน้าดังกล่าวหรือไม่พบว่ามีการอัปเดต นี่เป็นวิธีช่วยให้เราทราบเกี่ยวกับการอัปเดตหน้า
โปรดทราบว่า Google พยายามตรวจสอบและจัดทำดัชนีหน้าเว็บภายในระยะเวลาที่เหมาะสม ซึ่งก็คืออย่างน้อย 3 วันสำหรับเว็บไซต์ส่วนใหญ่ อย่าคาดหวังให้ Google จัดทำดัชนีหน้าเว็บในวันเดียวกับที่คุณเผยแพร่ เว้นแต่จะเป็นเว็บไซต์ข่าวหรือมีเนื้อหาประเภทอื่นที่มีคุณค่าสูงและมีเวลาเป็นปัจจัยสำคัญ
การวิเคราะห์
ตรวจสอบบันทึกของเว็บไซต์เพื่อดูว่า Googlebot รวบรวมข้อมูล URL หนึ่งๆ เมื่อใด
หากต้องการทราบวันที่จัดทําดัชนี ให้ใช้เครื่องมือตรวจสอบ URL หรือค้นหา URL ที่คุณอัปเดตโดยใช้ Google Search
การแก้ไข
สิ่งที่ควรทำ
- ใช้แผนผังเว็บไซต์ข่าวหากเว็บไซต์มีเนื้อหาข่าว ใช้คำสั่ง ping กับ Google เมื่อโพสต์หรือเปลี่ยนแปลงแผนผังเว็บไซต์
- ใช้แท็ก
<lastmod>
ในแผนผังเว็บไซต์เพื่อระบุว่ามีการอัปเดต URL ที่จัดทำดัชนีเมื่อใด - ใช้โครงสร้าง URL แบบง่ายเพื่อช่วยให้ Google พบหน้าเว็บ
- ระบุลิงก์
<a>
ที่สามาร Crawl ได้แบบมาตรฐานเพื่อช่วยให้ Google พบหน้าเว็บ
สิ่งที่ควรหลีกเลี่ยง
- ส่งแผนผังเว็บไซต์เดียวกันที่ไม่เปลี่ยนแปลงเข้ามาหลายครั้งต่อวัน
- คาดหวังว่า Googlebot จะรวบรวมเนื้อหาทั้งหมดในแผนผังเว็บไซต์หรือรวบรวมข้อมูลทันที แผนผังเว็บไซต์เป็นคำแนะนําที่มีประโยชน์สำหรับ Googlebot ไม่ใช่สิ่งที่จำเป็นต้องมี
- ใส่ URL ที่ไม่ต้องการให้ปรากฏใน Search ไว้ในแผนผังเว็บไซต์ เนื่องจากทำให้สิ้นเปลือง Crawl Budget ไปกับหน้าเว็บที่ไม่ต้องการให้จัดทําดัชนี
ปรับปรุงประสิทธิภาพการรวบรวมข้อมูลของเว็บไซต์
เพิ่มความเร็วในการโหลดหน้าเว็บ
สิ่งที่จำกัดการรวบรวมข้อมูลของ Google คือแบนด์วิดท์ เวลา และความพร้อมใช้งานของอินสแตนซ์ Googlebot หากเซิร์ฟเวอร์ของคุณตอบกลับคําขอเร็ว เราก็อาจรวบรวมข้อมูลหน้าเว็บในเว็บไซต์ได้มากขึ้น อย่างไรก็ตาม Google ต้องการรวบรวมข้อมูลเนื้อหาที่มีคุณภาพสูงเท่านั้น การทําให้หน้าเว็บคุณภาพต่ำทำงานเร็วขึ้นจึงไม่ได้ช่วยให้ Googlebot รวบรวมข้อมูลในเว็บไซต์มากขึ้น ในทางกลับกัน หากเราคิดว่าไม่ได้รวบรวมข้อมูลเนื้อหาคุณภาพสูงในเว็บไซต์ เราอาจเพิ่ม Crawl Budget ในการรวบรวมข้อมูลเนื้อหานั้น
วิธีเพิ่มประสิทธิภาพหน้าเว็บและทรัพยากรเพื่อการรวบรวมข้อมูลมีดังนี้
- ป้องกันไม่ให้ Googlebot โหลดทรัพยากรขนาดใหญ่แต่ไม่สำคัญโดยใช้ robots.txt ให้บล็อกเฉพาะทรัพยากรที่ไม่สำคัญ ซึ่งก็คือทรัพยากรที่ไม่จำเป็นต่อการทำความเข้าใจความหมายของหน้าเว็บ (เช่น รูปภาพตกแต่ง)
- ตรวจสอบว่าหน้าเว็บโหลดเร็ว
- ระวังเรื่องเชนการเปลี่ยนเส้นทางที่ยาว ซึ่งจะส่งผลเสียต่อการรวบรวมข้อมูล
- ทั้งเวลาในการตอบกลับคําขอของเซิร์ฟเวอร์และเวลาที่ต้องใช้ในการแสดงหน้าเว็บล้วนมีความสำคัญ รวมถึงเวลาในการโหลดและเรียกใช้ทรัพยากรที่ฝังอยู่ เช่น รูปภาพและสคริปต์ อย่าลืมคำนึงถึงทรัพยากรขนาดใหญ่หรือทำงานช้าซึ่งจำเป็นสำหรับการจัดทำดัชนี
ระบุการเปลี่ยนแปลงเนื้อหาด้วยรหัสสถานะ HTTP
โดยทั่วไปแล้ว Google รองรับส่วนหัวของคำขอ HTTP If-Modified-Since
และ If-None-Match
สำหรับการ Crawl Crawler ของ Google จะไม่ส่งส่วนหัวที่มีการพยายาม Crawl ทั้งหมด โดยขึ้นอยู่กับ Use Case ของคําขอ (เช่น AdsBot มีแนวโน้มที่จะตั้งค่าส่วนหัวคําขอ HTTP If-Modified-Since
และ If-None-Match
) หาก Crawler ส่งส่วนหัว If-Modified-Since
ค่าของส่วนหัวจะเป็นวันที่และเวลาที่เนื้อหาได้รับการ Crawl ครั้งล่าสุด โดยอิงตามค่านั้น เซิร์ฟเวอร์อาจเลือกแสดงรหัสสถานะ HTTP 304 (Not Modified)
ที่ไม่มีเนื้อหาการตอบกลับ ซึ่งในกรณีนี้ Google จะใช้เวอร์ชันของเนื้อหาที่ทำการ Crawl ครั้งล่าสุดซ้ำ หากเนื้อหาเป็นรุ่นใหม่กว่าวันที่ที่ Crawler ระบุในส่วนหัว If-Modified-Since
เซิร์ฟเวอร์อาจแสดงรหัสสถานะ HTTP 200 (OK)
พร้อมเนื้อหาตอบกลับ
คุณสามารถส่งรหัสสถานะ HTTP 304 (Not Modified)
และเนื้อหาการตอบกลับสำหรับคำขอของ Googlebot ได้โดยไม่ขึ้นกับส่วนหัวของคำขอ หากเนื้อหาไม่มีการเปลี่ยนแปลงตั้งแต่ Googlebot มาที่ URL ครั้งล่าสุด การดําเนินการนี้จะช่วยประหยัดเวลาและทรัพยากรของเซิร์ฟเวอร์ในการประมวลผล ซึ่งอาจช่วยปรับปรุงประสิทธิภาพการ Crawl ได้โดยอ้อม
ซ่อน URL ที่ไม่ต้องการให้ปรากฏในผลการค้นหา
การใช้ทรัพยากรของเซิร์ฟเวอร์ไปกับหน้าเว็บที่ไม่จำเป็นจะลดกิจกรรมการรวบรวมข้อมูลจากหน้าที่สำคัญสำหรับคุณ ซึ่งอาจทำให้การค้นพบเนื้อหาใหม่ที่ยอดเยี่ยมหรือเนื้อหาที่มีการอัปเดตในเว็บไซต์เกิดความล่าช้าอย่างมาก
การแสดง URL จํานวนมากในเว็บไซต์ซึ่งไม่ต้องการให้ Search รวบรวมข้อมูลอาจส่งผลเสียต่อการรวบรวมข้อมูลและจัดทําดัชนีของเว็บไซต์ โดยปกติแล้ว URL เหล่านี้จะอยู่ในหมวดหมู่ต่อไปนี้
- การไปยังส่วนต่างๆ ตามข้อมูลประกอบและตัวระบุเซสชัน: (การไปยังส่วนต่างๆ ตามข้อมูลประกอบมักเป็นเนื้อหาที่ซ้ำกันจากเว็บไซต์ ส่วนตัวระบุเซสชันและพารามิเตอร์ของ URL อื่นๆ ที่เพียงแต่จัดเรียงหรือกรองหน้าเว็บเท่านั้นไม่ได้ให้เนื้อหาใหม่) ใช้ robots.txt เพื่อบล็อกหน้าการไปยังส่วนต่างๆ ตามข้อมูลประกอบ
- เนื้อหาที่ซ้ำกัน: ช่วยให้ Google ระบุเนื้อหาที่ซ้ำกันเพื่อหลีกเลี่ยงการรวบรวมข้อมูลที่ไม่จำเป็น
- หน้า
soft 404
: แสดงรหัส404
เมื่อไม่มีหน้าเว็บแล้ว - หน้าที่ถูกแฮ็ก: ตรวจสอบรายงานปัญหาด้านความปลอดภัย และเมื่อพบหน้าเว็บที่ถูกแฮ็ก ให้แก้ไขหรือนําออก
- พื้นที่งานขนาดใหญ่มากและพร็อกซี: บล็อกทั้ง 2 อย่างนี้ไม่ให้มีการรวบรวมข้อมูลด้วย robots.txt
- เนื้อหาคุณภาพต่ำและเป็นสแปม: เป็นที่ทราบอยู่แล้วว่าควรหลีกเลี่ยง
- หน้ารถเข็นช็อปปิ้ง หน้าที่เลื่อนได้ไม่รู้จบ และหน้าที่มีการกระทำ (เช่น หน้า "ลงชื่อสมัครใช้" หรือ "ซื้อเลย")
สิ่งที่ควรทำ
- ใช้ robots.txt หากไม่ต้องการให้ Google รวบรวมข้อมูลทรัพยากรหรือหน้าเว็บหนึ่งๆ เลย
- หากมีการใช้ทรัพยากรทั่วไปซ้ำในหน้าเว็บหลายหน้า (เช่น ไฟล์ภาพหรือไฟล์ JavaScript ที่ใช้ร่วมกัน) ให้อ้างอิงทรัพยากรนั้นจาก URL เดียวกันในแต่ละหน้าเพื่อให้ Google แคชและใช้ทรัพยากรเดิมซ้ำได้โดยไม่ต้องขอทรัพยากรเดียวกันหลายครั้ง
สิ่งที่ควรหลีกเลี่ยง
- อย่าใช้วิธีเพิ่มหรือนำหน้าเว็บหรือไดเรกทอรีออกจาก robots.txt เป็นประจำเพื่อจัดสรร Crawl Budget ใหม่ให้เว็บไซต์ ใช้ robots.txt เฉพาะกับหน้าเว็บหรือทรัพยากรที่ไม่ต้องการให้ปรากฏใน Google ในระยะยาว
- อย่าหมุนเวียนแผนผังเว็บไซต์หรือใช้กลไกการซ่อนชั่วคราวอื่นๆ เพื่อจัดสรร Crawl Budget ใหม่
จัดการการรวบรวมข้อมูลเว็บไซต์ที่มากเกินไป (กรณีฉุกเฉิน)
Googlebot มีอัลกอริทึมที่จะป้องกันไม่ให้ตัวเองส่งคำขอรวบรวมข้อมูลจนทำให้เว็บไซต์ทำงานหนักเกินไป อย่างไรก็ตาม หากเห็นว่า Googlebot ทำให้เว็บไซต์ทำงานหนักเกินไปก็มีหลายวิธีที่คุณทำได้
การวิเคราะห์
ตรวจสอบเซิร์ฟเวอร์เพื่อหาคำขอ Googlebot ที่ส่งไปยังเว็บไซต์มากเกินไป
การแก้ไข
ในกรณีฉุกเฉิน เราขอแนะนำให้ทำตามขั้นตอนต่อไปนี้เพื่อชะลอการรวบรวมข้อมูลจาก Googlebot ที่มากเกินไป
- แสดงรหัสสถานะการตอบกลับ HTTP
503
หรือ429
ชั่วคราวสําหรับคำขอ Googlebot เมื่อเซิร์ฟเวอร์ทำงานหนักเกินไป Googlebot จะลองรวบรวมข้อมูล URL เหล่านี้ซ้ำเป็นระยะเวลา 2 วัน โปรดทราบว่าการแสดงรหัส "ไม่พร้อมใช้งาน" นานกว่า 2-3 วันจะทำให้ Google รวบรวมข้อมูล URL ในเว็บไซต์ช้าลงอย่างถาวรหรือหยุดรวบรวมข้อมูล URL ไปเลย ดังนั้นให้ทําตามขั้นตอนต่อไปเพิ่ม - ลดอัตราการรวบรวมข้อมูลของ Googlebot สำหรับเว็บไซต์ การดำเนินการนี้อาจใช้เวลาถึง 2 วันจึงจะมีผล และต้องใช้สิทธิ์ระดับเจ้าของพร็อพเพอร์ตี้ใน Search Console โปรดใช้วิธีนี้เฉพาะเมื่อเห็นการรวบรวมข้อมูลที่มากเกินไปจาก Google เกิดขึ้นซ้ำๆ เป็นเวลานานในรายงานสถิติการรวบรวมข้อมูลในแผนภูมิความพร้อมใช้งานของโฮสต์ > การใช้งานโฮสต์
-
เมื่ออัตราการรวบรวมข้อมูลลดลง ให้หยุดแสดงรหัส
503
หรือ429
สำหรับคำขอรวบรวมข้อมูล เนื่องจากการแสดงรหัส503
หรือ429
นานกว่า 2 วันอาจทําให้ Google นำ URL ออกจากดัชนี - ตรวจสอบการรวบรวมข้อมูลและความสามารถของโฮสต์เมื่อเวลาผ่านไป และหากเหมาะสมก็เพิ่มอัตราการรวบรวมข้อมูลอีกครั้ง หรืออนุญาตให้รวบรวมข้อมูลตามอัตราเริ่มต้น
- หากโปรแกรมรวบรวมข้อมูลที่ทำให้เกิดปัญหาคือหนึ่งในโปรแกรมรวบรวมข้อมูล AdsBot แสดงว่าปัญหาอาจมาจากที่คุณสร้างเป้าหมายโฆษณา Search แบบไดนามิกสําหรับเว็บไซต์ที่ Google พยายามรวบรวมข้อมูล การรวบรวมข้อมูลนี้จะเกิดขึ้นทุก 2 สัปดาห์ หากเซิร์ฟเวอร์ไม่มีความสามารถในการรับมือการรวบรวมข้อมูลเหล่านี้ ให้จำกัดเป้าหมายโฆษณาหรือเพิ่มความสามารถในการแสดงโฆษณา
ความเชื่อและข้อเท็จจริงเกี่ยวกับการรวบรวมข้อมูล
ทดสอบความรู้เกี่ยวกับการรวบรวมข้อมูลและการจัดทําดัชนีเว็บไซต์ของ Google
5xx
(ข้อผิดพลาดเกี่ยวกับเซิร์ฟเวอร์) จํานวนมากหรือการเชื่อมต่อหมดเวลาเป็นสัญญาณของเซิร์ฟเวอร์ที่ไม่มีประสิทธิภาพ จึงทำการ Crawl ได้ช้าลง เราขอแนะนำให้คอยตรวจสอบรายงานสถิติการรวบรวมข้อมูลใน Search Console และดูแลไม่ให้มีข้อผิดพลาดเกี่ยวกับเซิร์ฟเวอร์จำนวนมาก
nofollow
มีผลต่อ Crawl Budgetnofollow
ระบบก็อาจยังรวบรวมข้อมูล URL นั้นอยู่หากหน้าอื่นในเว็บไซต์หรือหน้าอื่นในอินเทอร์เน็ตไม่ติดป้ายกำกับลิงก์ดังกล่าวว่า nofollow
noindex
เพื่อควบคุม Crawl Budgetnoindex
อย่างไรก็ตาม
noindex
พร้อมช่วยคุณในการป้องกันไม่ให้มีการจัดทำดัชนี หากคุณไม่ต้องการให้หน้าเว็บเหล่านั้นอยู่ในดัชนีของ Google ก็ให้ใช้ noindex
ต่อไปและไม่ต้องกังวลเกี่ยวกับ Crawl Budget โปรดทราบด้วยว่าหากคุณนํา URL ออกจากดัชนีของ Google โดยใช้ noindex
หรือหาก Googlebot สามารถเน้นที่ URL อื่นๆ ในเว็บไซต์ของคุณได้ นั่นหมายความว่า ในระยะยาว noindex
สามารถเพิ่ม Crawl Budget สำหรับเว็บไซต์ของคุณได้โดยทางอ้อม
4xx
ใช้ Crawl Budget4xx
(ยกเว้น 429
) ไม่ได้ใช้ Crawl Budget Google พยายามทำการ Crawl หน้าเว็บ แต่ได้รับรหัสสถานะและไม่มีเนื้อหาอื่นๆ