เพิ่มประสิทธิภาพ Crawl Budget

คู่มือนี้อธิบายวิธีเพิ่มประสิทธิภาพการ Crawl ของ Google จากเว็บไซต์ที่มีขนาดใหญ่มากและมีการอัปเดตบ่อยครั้ง

หากเว็บไซต์ของคุณมีหน้าเว็บที่มีการเปลี่ยนแปลงอย่างรวดเร็วจำนวนไม่มาก หรือหากหน้าเว็บได้รับการ Crawl วันเดียวกับที่เผยแพร่ คุณไม่จำเป็นต้องอ่านคู่มือนี้ สำหรับ Google Search โดยเฉพาะ เพียงอัปเดต Sitemap ให้เป็นปัจจุบันอยู่เสมอและตรวจสอบการครอบคลุมของดัชนีอย่างสม่ำเสมอก็เพียงพอแล้ว

คู่มือนี้มีไว้สำหรับใคร

แม้ว่าคำแนะนำในคู่มือนี้จะเป็นแนวทางปฏิบัติที่ดีโดยทั่วไป แต่คู่มือนี้เป็นคู่มือขั้นสูงที่มีไว้สำหรับเว็บไซต์ประเภทต่อไปนี้เป็นหลัก

เว็บไซต์ขนาดใหญ่ (มีหน้าเว็บที่ไม่ซ้ำกันมากกว่า 1 ล้านหน้า) ซึ่งเนื้อหามีการเปลี่ยนแปลงพอควร (สัปดาห์ละครั้ง)
เว็บไซต์ขนาดกลางหรือขนาดใหญ่ (มีหน้าเว็บที่ไม่ซ้ำกันมากกว่า 10,000 หน้า) ซึ่งเนื้อหามีการเปลี่ยนแปลงอย่างรวดเร็ว (ทุกวัน)
เว็บไซต์ที่ส่วนใหญ่ของ URL ทั้งหมดได้รับการจัดหมวดหมู่โดย Search Console เป็นพบแล้ว - ยังไม่ได้จัดทําดัชนี

ทฤษฎีทั่วไปของการ Crawl

อินเทอร์เน็ตนั้นเป็นพื้นที่ที่แทบไม่มีขอบเขต ซึ่งเกินความสามารถของ Google ที่จะสํารวจและจัดทําดัชนี URL ที่มีอยู่ทั้งหมด ดังนั้นเวลาที่ Crawler ของ Google จะใช้ในการ Crawl เว็บไซต์หนึ่งๆ จึงมีจำกัด โดยที่ชื่อโฮสต์จะเป็นตัวกําหนดเว็บไซต์ เช่น https://www.example.com/ และ https://code.example.com/ เป็นชื่อโฮสต์ที่แตกต่างกัน 2 ชื่อ จึงมี Crawl Budget แยกกัน โดยทั่วไป ระยะเวลาและทรัพยากรที่ Google ใช้ในการ Crawl เว็บไซต์จะเรียกว่า Crawl Budget ของเว็บไซต์ และกำหนดโดยองค์ประกอบหลัก 2 อย่าง ได้แก่ ขีดความสามารถในการ Crawl และความต้องการ Crawl

ขีดความสามารถในการ Crawl

Google ต้องการ Crawl เว็บไซต์โดยไม่ทำให้เซิร์ฟเวอร์ของคุณทำงานหนักเกินไป วิธีป้องกันปัญหานี้คือ Crawler ของ Google จะคํานวณขีดความสามารถในการ Crawl ซึ่งเป็นจำนวนการเชื่อมต่อแบบขนานที่เกิดขึ้นพร้อมกันสูงสุดที่ Google จะใช้เพื่อทำการ Crawl เว็บไซต์ได้ รวมถึงความล่าช้าระหว่างการดึงข้อมูลด้วย เราคำนวณองค์ประกอบนี้เพื่อให้การครอบคลุมเนื้อหาที่สำคัญทั้งหมดโดยไม่ทำให้เซิร์ฟเวอร์ของคุณทำงานหนักเกินไป

ขีดความสามารถในการ Crawl อาจเพิ่มขึ้นหรือลดลงตามปัจจัยต่อไปนี้

ประสิทธิภาพการ Crawl : ขีดความสามารถจะเพิ่มขึ้นหากเว็บไซต์ตอบสนองอย่างรวดเร็วเป็นระยะเวลาหนึ่ง ซึ่งหมายความว่า Google ใช้การเชื่อมต่อเพื่อทำการ Crawl ได้มากขึ้น หากเว็บไซต์ทำงานช้าลงหรือตอบสนองโดยมีข้อผิดพลาดเกี่ยวกับเซิร์ฟเวอร์ ขีดความสามารถก็จะลดลงและ Google จะทำการ Crawl น้อยลง
ขีดจำกัดในการ Crawl ของ Google: Google มีเครื่องจำนวนมากแต่ก็ยังมีขีดจำกัด เรายังคงต้องตัดสินใจเลือกโดยคำนึงถึงทรัพยากรที่มีอยู่

ความต้องการ Crawl

Crawler แต่ละตัวมี "ความต้องการ" ของตัวเองเมื่อพูดถึงการ Crawl เว็บ ตัวอย่างเช่น โดยทั่วไปแล้ว AdsBot จะมีความต้องการสูงกว่าเมื่อเว็บไซต์ใช้เป้าหมายโฆษณาแบบไดนามิก, Google Shopping จะมีความต้องการสูงกว่าสำหรับผลิตภัณฑ์ที่คุณมีในฟีดผู้ขาย และความต้องการของ Googlebot จะแตกต่างกันไปตามขนาดของเว็บไซต์ ความถี่ในการอัปเดต คุณภาพของหน้าเว็บ และความเกี่ยวข้องเมื่อเทียบกับเว็บไซต์อื่นๆ

โดยทั่วไป ปัจจัยที่มีบทบาทสำคัญในการกำหนดความต้องการ Crawl ได้แก่

รายการ URL ที่รับรู้: หากไม่มีคำแนะนำจากคุณ Google จะพยายามทำการ Crawl URL ทั้งหมดหรือส่วนใหญ่ที่รู้จักซึ่งเกี่ยวกับเว็บไซต์ของคุณ หาก URL หลายรายการซ้ำกัน หรือคุณไม่ต้องการให้ระบบทำการ Crawl ด้วยเหตุผลอื่น (นำออกแล้ว ไม่สำคัญ และอื่นๆ) จะทำให้ Google เสียเวลาไปกับการ Crawl เว็บไซต์ของคุณอย่างมาก นี่เป็นปัจจัยที่คุณควบคุมได้มากที่สุดเพื่อให้เกิดประโยชน์กับทั้ง 2 ฝ่าย
ความนิยม: URL ที่ได้รับความนิยมในอินเทอร์เน็ตมากกว่ามักจะได้รับการ Crawl บ่อยกว่าเพื่อให้มีความใหม่ในระบบอยู่เสมอ
การไม่มีอัปเดต: ระบบต้องการ Crawl ในเอกสารอีกครั้งให้บ่อยพอที่จะทราบถึงการเปลี่ยนแปลง

นอกจากนี้ เหตุการณ์ที่เกิดขึ้นทั้งเว็บไซต์ เช่น การย้ายเว็บไซต์ อาจทำให้เกิดความต้องการ Crawl เพิ่มขึ้นเพื่อประมวลผลเนื้อหาใน URL ใหม่อีกครั้ง

สรุป

เมื่อพิจารณาความสามารถในการ Crawl และความต้องการ Crawl ร่วมกันแล้ว Google ถือว่า Crawl Budget ของเว็บไซต์เป็นชุด URL ที่ Google สามารถและต้องการ Crawl แม้ว่าความสามารถในการ Crawl ยังไม่ถึงขีดจำกัดแต่มีความต้องการ Crawl ต่ำ Google ก็จะทำการ Crawl เว็บไซต์น้อยลง

แนวทางปฏิบัติแนะนำ

ทําตามแนวทางปฏิบัติแนะนำต่อไปนี้เพื่อเพิ่มประสิทธิภาพการ Crawl สูงสุด

จัดการรายการ URL: ใช้เครื่องมือที่เหมาะสมเพื่อบอก Google ว่าต้องทำการ Crawl และไม่ต้องทำการ Crawl หน้าใดบ้าง หาก Google ใช้เวลามากเกินไปในการ Crawl URL ที่ไม่ควร Crawler ของ Google อาจตัดสินว่าการดูส่วนที่เหลือในเว็บไซต์ (หรือการเพิ่ม Budget เพื่อดูส่วนที่เหลือ) ไม่คุ้มค่า
- รวมเนื้อหาที่ซ้ำกัน นำเนื้อหาที่ซ้ำกันออกเพื่อให้ระบบทำการ Crawl โดยเน้นเนื้อหาที่ไม่ซ้ำกันแทน URL ที่ไม่ซ้ำ
- บล็อกการ Crawl URL โดยใช้ robots.txt หน้าเว็บบางหน้าอาจมีความสำคัญต่อผู้ใช้ แต่คุณอาจจะไม่ต้องการให้หน้าเหล่านั้นปรากฏในแพลตฟอร์มของ Google หรือให้ระบบของ Google ประมวลผลอีกครั้ง เช่น หน้าที่เลื่อนได้ไม่รู้จบซึ่งมีข้อมูลซ้ำจากหน้าเว็บที่เชื่อมโยง หรือเป็นเวอร์ชันที่มีการจัดเรียงต่างกันของหน้าเดียวกัน หากรวม URL ตามที่อธิบายไว้ในหัวข้อย่อยแรกไม่ได้ ให้บล็อกหน้าที่ไม่สําคัญเหล่านี้โดยใช้ robots.txt การบล็อก URL ด้วย robots.txt จะป้องกันไม่ให้ Google ทำการ Crawl URL เหล่านั้น และลดโอกาสที่ระบบอื่นๆ ของ Google (เช่น การจัดทำดัชนีโดย Google Search) จะประมวลผล URL เหล่านั้นอย่างมาก
  อย่าใช้ noindex เพราะ Google จะยังส่งคําขออยู่ แต่จากนั้นจะละเว้นหน้าเว็บเมื่อเห็นแท็ก meta noindex หรือส่วนหัวในการตอบกลับ HTTP ซึ่งทําให้เสียเวลาในการ Crawl อย่าใช้ robots.txt เพื่อจัดสรร Crawl Budget ใหม่สำหรับหน้าอื่นๆ ชั่วคราว แต่ให้ใช้ robots.txt เพื่อบล็อกหน้าเว็บหรือทรัพยากรที่ไม่ต้องการให้ Google ทำการ Crawl เลย Google จะไม่เปลี่ยน Crawl Budget ใหม่ที่มีนี้ไปให้หน้าอื่น เว้นแต่จะถึงขีดจำกัดการแสดงผลของเว็บไซต์คุณแล้ว
- แสดงรหัสสถานะ 404 หรือ 410 สําหรับหน้าเว็บที่นำออกอย่างถาวร Google จะไม่ลืม URL ที่รู้จัก แต่รหัสสถานะ 404 เป็นสัญญาณที่บ่งชี้ว่าไม่ให้ทำการ Crawl URL นั้นอีก อย่างไรก็ตาม URL ที่บล็อกจะยังอยู่ในคิวการ Crawl นานขึ้น และจะได้รับการ Crawl อีกครั้งเมื่อมีการเลิกบล็อก
- นําข้อผิดพลาด soft 404 ออก ระบบจะยังทำการ Crawl หน้า soft 404 ต่อไป ซึ่งจะทําให้คุณเสีย Budget ดูรายงานการครอบคลุมของดัชนีเพื่อหาข้อผิดพลาด soft 404
- อัปเดตแผนผังเว็บไซต์อยู่เสมอ Google อ่านแผนผังเว็บไซต์เป็นประจำ ดังนั้นอย่าลืมใส่เนื้อหาทั้งหมดที่ต้องการให้ Google ทำการ Crawl ไว้ในแผนผังเว็บไซต์ หากเว็บไซต์มีเนื้อหาที่อัปเดต เราขอแนะนําให้ใส่แท็ก <lastmod>
- หลีกเลี่ยงการใช้เชนการเปลี่ยนเส้นทางที่มีความยาว ซึ่งจะส่งผลเสียต่อการ Crawl
ทําให้หน้าเว็บโหลดได้อย่างมีประสิทธิภาพ หาก Google โหลดและแสดงผลหน้าเว็บได้เร็วขึ้น เราอาจอ่านเนื้อหาจากเว็บไซต์ได้มากขึ้น
แก้ไขข้อบกพร่องเกี่ยวกับ Crawl Budget ตรวจสอบว่าเว็บไซต์มีปัญหาความพร้อมใช้งานระหว่างการ Crawl หรือไม่ และหาวิธีอื่นๆ ที่จะทำให้การ Crawl มีประสิทธิภาพมากขึ้น

ฉันจะเพิ่ม Crawl Budget ได้อย่างไร

คุณเพิ่ม Crawl Budget ได้ 2 วิธีดังนี้

เพิ่มทรัพยากรเซิร์ฟเวอร์: หากเว็บไซต์ของคุณทำการ Crawl ไม่ได้เนื่องจากความสามารถของเซิร์ฟเวอร์ในฝั่งของคุณ (เช่น คุณได้รับข้อความโหลดของโฮสต์มากเกินไปในเครื่องมือตรวจสอบ URL) ให้เพิ่มทรัพยากรเซิร์ฟเวอร์หากเหมาะสมกับธุรกิจของคุณ
เพิ่มคุณภาพเนื้อหาสำหรับผลิตภัณฑ์ Google ที่คุณกำหนดเป้าหมาย: Google จะกำหนดทรัพยากรการ Crawl ที่จัดสรรให้กับแต่ละเว็บไซต์โดยพิจารณาจากองค์ประกอบที่เกี่ยวข้องกับผลิตภัณฑ์ Google ที่เฉพาะเจาะจง ตัวอย่างเช่น สำหรับ Google Search องค์ประกอบนี้รวมถึงสิ่งต่างๆ เช่น ความนิยม มูลค่าโดยรวมของผู้ใช้ ความเป็นเอกลักษณ์ของเนื้อหา และความสามารถในการแสดงผล