วิธีการทํางานของ Search สําหรับเจ้าของเว็บไซต์

Google Search คือเครื่องมือค้นหาแบบอัตโนมัติโดยสมบูรณ์ซึ่งใช้ซอฟต์แวร์ที่เรียกว่าโปรแกรมรวบรวมข้อมูลเว็บในการสำรวจเว็บเป็นประจำเพื่อค้นหาหน้าเว็บที่จะเพิ่มไปยังดัชนีของเรา ในความเป็นจริง หน้าเว็บส่วนใหญ่ที่แสดงในผลการค้นหาไม่ได้ส่งข้อมูลมาให้รวมไว้ในดัชนี แต่ระบบค้นพบและเพิ่มหน้าเว็บเหล่านั้นโดยอัตโนมัติตอนที่โปรแกรมรวบรวมข้อมูลเว็บสำรวจเว็บ เอกสารฉบับนี้อธิบายขั้นตอนการทํางานของ Search ในบริบทของเว็บไซต์ การมีความรู้พื้นฐานนี้ช่วยให้คุณสามารถแก้ไขปัญหาการรวบรวมข้อมูล จัดทําดัชนีหน้าเว็บ และทราบวิธีปรับปรุงลักษณะที่เว็บไซต์ปรากฏใน Google Search

ข้อควรทราบก่อนที่เราจะเริ่ม

ก่อนที่เราจะลงรายละเอียดเกี่ยวกับวิธีการทํางานของ Search โปรดทราบว่า Google ไม่รับค่าตอบแทนในการรวบรวมข้อมูลเว็บไซต์ให้บ่อยขึ้นหรือจัดอันดับให้สูงขึ้น โปรดอย่าเชื่อผู้ที่บอกข้อมูลต่างจากนี้

Google ไม่รับประกันว่าจะรวบรวมข้อมูล จัดทําดัชนี หรือแสดงหน้าเว็บของคุณ แม้ว่าหน้าเว็บจะเป็นไปตามหลักเกณฑ์และนโยบายของ Google สําหรับเจ้าของเว็บไซต์ก็ตาม

การทํางานของ Google Search มี 3 ขั้นตอนต่อไปนี้ และหน้าเว็บบางหน้าอาจไม่ผ่านบางขั้นตอน

  1. การรวบรวมข้อมูล: Google ดาวน์โหลดข้อความ รูปภาพ และวิดีโอจากหน้าเว็บที่พบในอินเทอร์เน็ตด้วยโปรแกรมอัตโนมัติที่เรียกว่าโปรแกรมรวบรวมข้อมูล
  2. การจัดทําดัชนี: Google วิเคราะห์ข้อความ รูปภาพ และไฟล์วิดีโอในหน้าเว็บ แล้วจัดเก็บข้อมูลไว้ในดัชนีของ Google ซึ่งเป็นฐานข้อมูลขนาดใหญ่
  3. การแสดงผลการค้นหา: เมื่อผู้ใช้ค้นหาใน Google เราจะแสดงข้อมูลที่เกี่ยวข้องกับคําค้นหาของผู้ใช้

การรวบรวมข้อมูล

ขั้นตอนแรกคือการค้นหาหน้าเว็บที่มีอยู่ในอินเทอร์เน็ต เนื่องจากไม่มีรีจิสทรีส่วนกลางสำหรับหน้าเว็บทั้งหมด Google จึงต้องค้นหาหน้าเว็บใหม่และหน้าเว็บที่อัปเดตอย่างสม่ำเสมอ แล้วเพิ่มลงในรายการหน้าเว็บที่รู้จัก กระบวนการนี้เรียกว่า "การค้นพบ URL" Google รู้จักหน้าเว็บบางหน้าเพราะเคยไปที่หน้านั้นแล้ว และจะค้นพบหน้าเว็บบางส่วนเมื่อ Google ตามลิงก์จากหน้าเว็บที่รู้จักไปยังหน้าเว็บใหม่อย่างหน้าฮับ เช่น หน้าหมวดหมู่ ลิงก์ไปยังบล็อกโพสต์ใหม่ ส่วนหน้าอื่นๆ จะค้นพบเมื่อคุณส่งรายการหน้าเว็บ (แผนผังเว็บไซต์) ให้ Google รวบรวมข้อมูล

เมื่อค้นพบ URL ของหน้าเว็บ Google อาจไปที่ (หรือ "รวบรวมข้อมูล") หน้านั้นเพื่อดูสิ่งที่อยู่ในหน้า เราใช้คอมพิวเตอร์จำนวนมากชุดหนึ่งในการรวบรวมข้อมูลหน้าเว็บหลายพันล้านหน้า โปรแกรมที่ทำการดึงข้อมูลเรียกว่า Googlebot (หรือที่รู้จักกันในชื่อ โรบ็อต บ็อต หรือสไปเดอร์) Googlebot ใช้ขั้นตอนแบบอัลกอริทึมเพื่อระบุเว็บไซต์ที่จะรวบรวมข้อมูล ความถี่ และจำนวนหน้าเว็บที่จะดึงข้อมูลจากเว็บไซต์แต่ละแห่ง โปรแกรมรวบรวมข้อมูลของ Google ยังได้รับการกำหนดค่าไว้ไม่ให้รวบรวมข้อมูลเร็วเกินไปเพื่อหลีกเลี่ยงการรวมข้อมูลมากเกินไปด้วย กลไกนี้อิงตามการตอบสนองของเว็บไซต์ (เช่น ข้อผิดพลาด HTTP 500 หมายถึง "ช้าลง") และการตั้งค่าใน Search Console

อย่างไรก็ตาม Googlebot ไม่ได้รวบรวมข้อมูลหน้าเว็บทุกหน้าที่ค้นพบ เนื่องจากเจ้าของเว็บไซต์อาจไม่อนุญาตให้รวบรวมข้อมูล เข้าถึงไม่ได้หากไม่ลงชื่อเข้าสู่ระบบในเว็บไซต์ หรือซ้ำกับหน้าที่รวบรวมข้อมูลไว้ก่อนหน้านี้ ตัวอย่างเช่น เว็บไซต์จํานวนมากเข้าถึงได้ผ่านชื่อโดเมนเวอร์ชัน www (www.example.com) และที่ไม่ใช่ www (example.com) แม้ว่าเนื้อหาในทั้งสองเวอร์ชันจะเหมือนกัน

ในระหว่างการรวบรวมข้อมูล Google จะแสดงหน้าเว็บและเรียกใช้ JavaScript ที่พบโดยใช้ Chrome เวอร์ชันล่าสุด ซึ่งคล้ายกับวิธีที่เบราว์เซอร์แสดงผลหน้าเว็บที่คุณเข้าชม การแสดงผลเป็นขั้นตอนสําคัญเนื่องจากเว็บไซต์มักจะใช้ JavaScript ในการนําเสนอเนื้อหาบนหน้าเว็บ และ Google อาจไม่เห็นเนื้อหานั้นหากไม่แสดงผล

การรวบรวมข้อมูลขึ้นอยู่กับว่าโปรแกรมรวบรวมข้อมูลของ Google เข้าถึงเว็บไซต์ได้หรือไม่ ปัญหาที่พบได้ทั่วไปเกี่ยวกับการเข้าถึงเว็บไซต์ของ Googlebot ได้แก่

การจัดทำดัชนี

หลังจากรวบรวมข้อมูลหน้าเว็บแล้ว Google จะพยายามทำความเข้าใจเนื้อหาในหน้า ขั้นตอนนี้เรียกว่า "การจัดทําดัชนี" ซึ่งรวมถึงการประมวลผลและวิเคราะห์เนื้อหาที่เป็นข้อความ รวมถึงแท็กและแอตทริบิวต์ของเนื้อหาหลัก เช่น องค์ประกอบ <title> และแอตทริบิวต์ Alt, รูปภาพ, วิดีโอ และอื่นๆ

ในระหว่างกระบวนการจัดทําดัชนี Google จะพิจารณาว่าหน้าเว็บซ้ำกับหน้าอื่นในอินเทอร์เน็ตหรือเป็นหน้า Canonical ซึ่งก็คือหน้าที่อาจแสดงในผลการค้นหา ในการเลือกหน้า Canonical เราจะจัดหน้าเว็บที่พบในอินเทอร์เน็ตซึ่งมีเนื้อหาคล้ายกันก่อนไว้เป็นคลัสเตอร์ จากนั้นจึงเลือกหน้าที่เป็นตัวแทนของกลุ่มดังกล่าวได้ดีที่สุด ส่วนหน้าอื่นในกลุ่มจะเป็นเวอร์ชันทางเลือกที่อาจแสดงในบริบทต่างๆ เช่น ในกรณีที่ผู้ใช้ค้นหาจากอุปกรณ์เคลื่อนที่ หรือมองหาหน้าเว็บที่เจาะจงมากจากคลัสเตอร์นั้น

นอกจากนี้ Google ยังรวบรวมสัญญาณเกี่ยวกับหน้า Canonical และเนื้อหาในหน้า ซึ่งอาจใช้ในขั้นตอนถัดไปที่เราแสดงหน้าเว็บนั้นในผลการค้นหา ตัวอย่างสัญญาณ เช่น ภาษาของหน้าเว็บ ประเทศที่เนื้อหาอยู่ ความสามารถในการใช้งานของหน้าเว็บ และอื่นๆ

ข้อมูลที่รวบรวมไว้เกี่ยวกับหน้า Canonical และคลัสเตอร์อาจจัดเก็บไว้ในดัชนีของ Google ซึ่งเป็นฐานข้อมูลขนาดใหญ่ที่โฮสต์ในคอมพิวเตอร์หลายพันเครื่อง Google ไม่รับประกันการจัดทําดัชนี ซึ่งหมายความว่าเราไม่ได้จัดทําดัชนีหน้าเว็บทุกหน้าที่ประมวลผล

การจัดทําดัชนียังขึ้นอยู่กับเนื้อหาของหน้าเว็บและข้อมูลเมตาด้วย ปัญหาทั่วไปเกี่ยวกับการจัดทำดัชนี ได้แก่

การแสดงผลการค้นหา

เมื่อผู้ใช้ป้อนคำค้นหา เครื่องคอมพิวเตอร์ของเราจะค้นหาหน้าเว็บที่ตรงกันจากดัชนีแล้วแสดงผลลัพธ์ที่คิดว่ามีคุณภาพดีที่สุดและเกี่ยวข้องกับผู้ใช้มากที่สุด ความเกี่ยวข้องจะพิจารณาจากปัจจัยหลายร้อยรายการ ซึ่งอาจรวมถึงข้อมูล เช่น ตําแหน่ง ภาษา และอุปกรณ์ (เดสก์ท็อปหรือโทรศัพท์) ของผู้ใช้ ตัวอย่างเช่น การค้นหา "ร้านซ่อมจักรยาน" จะแสดงผลลัพธ์ที่แตกต่างกันแก่ผู้ใช้ในปารีสและผู้ใช้ในฮ่องกง

Search Console อาจแจ้งว่ามีการจัดทําดัชนีหน้าเว็บแล้ว แต่คุณไม่เห็นหน้าดังกล่าวในผลการค้นหา ปัญหานี้อาจเกิดจากสาเหตุต่อไปนี้

แม้ว่าคู่มือนี้จะอธิบายวิธีการทํางานของ Search แต่เราพยายามปรับปรุงอัลกอริทึมอยู่เสมอ คุณติดตามการเปลี่ยนแปลงเหล่านี้ได้โดยไปที่บล็อก Google Search Central