คําแนะนําอย่างละเอียดเกี่ยวกับวิธีการทํางานของ Google Search

Google Search คือเครื่องมือค้นหาแบบอัตโนมัติโดยสมบูรณ์ซึ่งใช้ซอฟต์แวร์ที่เรียกว่า Web Crawler ในการสำรวจเว็บเป็นประจำเพื่อค้นหาหน้าเว็บที่จะเพิ่มไปยังดัชนีของเรา ในความเป็นจริง หน้าเว็บส่วนใหญ่ที่แสดงในผลการค้นหาไม่ได้ส่งข้อมูลมาให้รวมไว้ในดัชนี แต่ระบบค้นพบและเพิ่มหน้าเว็บเหล่านั้นโดยอัตโนมัติในขณะที่ Web Crawler ทำการสำรวจเว็บ เอกสารฉบับนี้อธิบายขั้นตอนการทํางานของ Search ในบริบทของเว็บไซต์ การมีความรู้พื้นฐานนี้ช่วยให้คุณสามารถแก้ไขปัญหาการ Crawl, จัดทําดัชนีหน้าเว็บ และทราบวิธีปรับปรุงลักษณะที่เว็บไซต์ปรากฏใน Google Search

ข้อควรทราบก่อนที่เราจะเริ่ม

ก่อนที่เราจะลงรายละเอียดเกี่ยวกับวิธีการทํางานของ Search โปรดทราบว่า Google ไม่รับค่าตอบแทนในการ Crawl เว็บไซต์ให้บ่อยขึ้นหรือจัดอันดับให้สูงขึ้น โปรดอย่าเชื่อผู้ที่บอกข้อมูลต่างจากนี้

Google ไม่รับประกันว่าจะทำการ Crawl, จัดทําดัชนี หรือแสดงหน้าเว็บของคุณ แม้ว่าหน้าเว็บจะเป็นไปตาม Google Search Essentials ก็ตาม

การทํางานของ Google Search มี 3 ขั้นตอนต่อไปนี้ และหน้าเว็บบางหน้าอาจไม่ผ่านบางขั้นตอน

  1. การ Crawl: Google ดาวน์โหลดข้อความ รูปภาพ และวิดีโอจากหน้าเว็บที่พบในอินเทอร์เน็ตด้วยโปรแกรมอัตโนมัติที่เรียกว่า Crawler
  2. การจัดทําดัชนี: Google วิเคราะห์ข้อความ รูปภาพ และไฟล์วิดีโอในหน้าเว็บ แล้วจัดเก็บข้อมูลไว้ในดัชนีของ Google ซึ่งเป็นฐานข้อมูลขนาดใหญ่
  3. การแสดงผลการค้นหา: เมื่อผู้ใช้ค้นหาใน Google เราจะแสดงข้อมูลที่เกี่ยวข้องกับคําค้นหาของผู้ใช้

การรวบรวมข้อมูล

ขั้นตอนแรกคือการค้นหาหน้าเว็บที่มีอยู่ในอินเทอร์เน็ต เนื่องจากไม่มีรีจิสทรีส่วนกลางสำหรับหน้าเว็บทั้งหมด Google จึงต้องค้นหาหน้าเว็บใหม่และหน้าเว็บที่อัปเดตอย่างสม่ำเสมอ แล้วเพิ่มลงในรายการหน้าเว็บที่รู้จัก กระบวนการนี้เรียกว่า "การค้นพบ URL" Google รู้จักหน้าเว็บบางหน้าเพราะเคยไปที่หน้านั้นแล้ว และจะค้นพบหน้าเว็บบางส่วนเมื่อ Google ตามลิงก์จากหน้าเว็บที่รู้จักไปยังหน้าเว็บใหม่อย่างหน้าฮับ เช่น หน้าหมวดหมู่ ลิงก์ไปยังบล็อกโพสต์ใหม่ ส่วนหน้าอื่นๆ จะค้นพบเมื่อคุณส่งรายการหน้าเว็บ (Sitemap) ให้ Google ทำการ Crawl

เมื่อค้นพบ URL ของหน้าเว็บ Google อาจไปที่ (หรือ "ทำการ Crawl") หน้านั้นเพื่อดูสิ่งที่อยู่ในหน้า เราใช้คอมพิวเตอร์จำนวนมากชุดหนึ่งในการรวบรวมข้อมูลหน้าเว็บหลายพันล้านหน้า โปรแกรมที่ทำการดึงข้อมูลเรียกว่า Googlebot (หรือที่เรียกกันว่า Crawler, โรบ็อต, บ็อต หรือสไปเดอร์ด้วย) Googlebot ใช้ขั้นตอนแบบอัลกอริทึมเพื่อระบุเว็บไซต์ที่จะทำการ Crawl, ความถี่ และจำนวนหน้าเว็บที่จะดึงข้อมูลจากเว็บไซต์แต่ละแห่ง Crawler ของ Google ยังได้รับการกำหนดค่าไว้ไม่ให้ทำการ Crawl เร็วเกินไปเพื่อหลีกเลี่ยงการ Crawl มากเกินไปด้วย กลไกนี้อิงตามการตอบสนองของเว็บไซต์ (เช่น ข้อผิดพลาด HTTP 500 หมายถึง "ช้าลง")

อย่างไรก็ตาม Googlebot ไม่ได้รวบรวมข้อมูลหน้าเว็บทุกหน้าที่ค้นพบ เนื่องจากเจ้าของเว็บไซต์อาจไม่อนุญาตให้ทำการ Crawl หน้าเว็บบางหน้า จึงอาจเข้าถึงหน้าอื่นๆ ไม่ได้หากไม่ลงชื่อเข้าสู่ระบบในเว็บไซต์

ในระหว่างการ Crawl, Google จะแสดงหน้าเว็บและเรียกใช้ JavaScript ที่พบโดยใช้ Chrome เวอร์ชันล่าสุด ซึ่งคล้ายกับวิธีที่เบราว์เซอร์แสดงผลหน้าเว็บที่คุณเข้าชม การแสดงผลเป็นขั้นตอนสําคัญเนื่องจากเว็บไซต์มักจะใช้ JavaScript ในการนําเสนอเนื้อหาบนหน้าเว็บ และ Google อาจไม่เห็นเนื้อหานั้นหากไม่แสดงผล

การรวบรวมข้อมูลขึ้นอยู่กับว่าโปรแกรมรวบรวมข้อมูลของ Google เข้าถึงเว็บไซต์ได้หรือไม่ ปัญหาที่พบได้ทั่วไปเกี่ยวกับการเข้าถึงเว็บไซต์ของ Googlebot ได้แก่

การจัดทำดัชนี

หลังจากรวบรวมข้อมูลหน้าเว็บแล้ว Google จะพยายามทำความเข้าใจเนื้อหาในหน้า ขั้นตอนนี้เรียกว่า "การจัดทําดัชนี" ซึ่งรวมถึงการประมวลผลและวิเคราะห์เนื้อหาที่เป็นข้อความ รวมถึงแท็กและแอตทริบิวต์ของเนื้อหาหลัก เช่น องค์ประกอบ <title> และแอตทริบิวต์ Alt, รูปภาพ, วิดีโอ และอื่นๆ

ในระหว่างกระบวนการจัดทําดัชนี Google จะพิจารณาว่าหน้าเว็บซ้ำกับหน้าอื่นในอินเทอร์เน็ตหรือเป็นหน้า Canonical ซึ่งก็คือหน้าที่อาจแสดงในผลการค้นหา ในการเลือกหน้า Canonical ก่อนอื่นเราจะจัดหน้าเว็บที่พบในอินเทอร์เน็ตซึ่งมีเนื้อหาคล้ายกันไว้เป็นกลุ่ม (บ้างก็เรียกว่าคลัสเตอร์) จากนั้นจึงเลือกหน้าที่เป็นตัวแทนของกลุ่มดังกล่าวได้ดีที่สุด ส่วนหน้าอื่นในกลุ่มจะเป็นเวอร์ชันทางเลือกที่อาจแสดงในบริบทต่างๆ เช่น ในกรณีที่ผู้ใช้ค้นหาจากอุปกรณ์เคลื่อนที่ หรือมองหาหน้าเว็บที่เจาะจงมากจากคลัสเตอร์นั้น

นอกจากนี้ Google ยังรวบรวมสัญญาณเกี่ยวกับหน้า Canonical และเนื้อหาในหน้า ซึ่งอาจใช้ในขั้นตอนถัดไปที่เราแสดงหน้าเว็บนั้นในผลการค้นหา ตัวอย่างสัญญาณ เช่น ภาษาของหน้าเว็บ ประเทศที่เนื้อหาอยู่ และความสามารถในการใช้งานของหน้าเว็บ

ข้อมูลที่รวบรวมไว้เกี่ยวกับหน้า Canonical และคลัสเตอร์อาจจัดเก็บไว้ในดัชนีของ Google ซึ่งเป็นฐานข้อมูลขนาดใหญ่ที่โฮสต์ในคอมพิวเตอร์หลายพันเครื่อง Google ไม่รับประกันการจัดทําดัชนี ซึ่งหมายความว่าเราไม่ได้จัดทําดัชนีหน้าเว็บทุกหน้าที่ประมวลผล

การจัดทําดัชนียังขึ้นอยู่กับเนื้อหาของหน้าเว็บและข้อมูลเมตาด้วย ปัญหาทั่วไปเกี่ยวกับการจัดทำดัชนี ได้แก่

การแสดงผลการค้นหา

เมื่อผู้ใช้ป้อนคำค้นหา เครื่องคอมพิวเตอร์ของเราจะค้นหาหน้าเว็บที่ตรงกันจากดัชนีแล้วแสดงผลลัพธ์ที่คิดว่ามีคุณภาพดีที่สุดและเกี่ยวข้องกับข้อความค้นหาของผู้ใช้มากที่สุด ความเกี่ยวข้องจะพิจารณาจากปัจจัยหลายร้อยรายการ ซึ่งอาจรวมถึงข้อมูล เช่น ตําแหน่ง ภาษา และอุปกรณ์ (เดสก์ท็อปหรือโทรศัพท์) ของผู้ใช้ ตัวอย่างเช่น การค้นหา "ร้านซ่อมจักรยาน" จะแสดงผลลัพธ์ที่แตกต่างกันแก่ผู้ใช้ในปารีสและผู้ใช้ในฮ่องกง

ฟีเจอร์การค้นหาที่ปรากฏในหน้าผลการค้นหาจะเปลี่ยนแปลงไปตามคําค้นหาของผู้ใช้ด้วย ตัวอย่างเช่น การค้นหา "ร้านซ่อมจักรยาน" น่าจะแสดงผลการค้นหาในพื้นที่และไม่มีผลการค้นหารูปภาพ อย่างไรก็ตาม การค้นหา "จักรยานรุ่นใหม่" มีแนวโน้มที่จะแสดงผลการค้นหารูปภาพมากกว่าผลการค้นหาในพื้นที่ สํารวจองค์ประกอบ UI ที่พบบ่อยที่สุดของ Google Web Search ได้ในแกลเลอรีองค์ประกอบที่มองเห็น

Search Console อาจแจ้งว่ามีการจัดทําดัชนีหน้าเว็บแล้ว แต่คุณไม่เห็นหน้าดังกล่าวในผลการค้นหา ปัญหานี้อาจเกิดจากสาเหตุต่อไปนี้

แม้ว่าคู่มือนี้จะอธิบายวิธีการทํางานของ Search แต่เราพยายามปรับปรุงอัลกอริทึมอยู่เสมอ คุณติดตามการเปลี่ยนแปลงเหล่านี้ได้โดยไปที่บล็อก Google Search Central