วันอังคารที่ 30 มีนาคม 2010
ปัจจุบันมีเนื้อหาจํานวนมากบนอินเทอร์เน็ต ในบางคราวอาจมีบางสิ่งไปโผล่บนโลกออนไลน์ซึ่งคุณอาจไม่อยากให้เป็นอย่างนั้น จะเป็นอะไรก็ได้ทั้งนั้นตั้งแต่บล็อกโพสต์แย่ๆ ที่ทำให้คุณรู้สึกเสียใจที่โพสต์ลงไป หรืออาจจะเป็นข้อมูลลับที่ถูกเปิดเผยโดยไม่ได้ตั้งใจ ในกรณีส่วนใหญ่ การลบหรือการจํากัดการเข้าถึงเนื้อหานี้จะทำให้เนื้อหาหายไปจากผลการค้นหาเมื่อเวลาผ่านไปสักพัก อย่างไรก็ตาม หากจําเป็นต้องลบเนื้อหาที่ไม่พึงประสงค์ซึ่ง Google จัดทำดัชนีไว้แล้วโดยเร็ว และคุณรอให้เนื้อหาหายไปเองไม่ได้ คุณสามารถใช้เครื่องมือนำ URL ออกเพื่อให้นำเนื้อหาออกได้เร็วขึ้นได้ ตราบใดที่เป็นไปตามเกณฑ์บางอย่าง (ซึ่งจะกล่าวถึงด้านล่าง)
เรามีบล็อกโพสต์จํานวนมากที่อธิบายถึงวิธีนำเนื้อหาประเภทต่างๆ ออก และข้อผิดพลาดทั่วไปที่สามารถหลีกเลี่ยงได้ ในโพสต์แรกนี้ ฉันจะอธิบายสถานการณ์พื้นฐาน 2-3 ข้อ ได้แก่ การนำ URL เดียวออก การนำออกทั้งไดเรกทอรีหรือเว็บไซต์ และการรวมเนื้อหาที่นำออกอีกครั้ง ฉันขอแนะนำเป็นอย่างยิ่งให้อ่านโพสต์ก่อนหน้าเกี่ยวกับการจัดการข้อมูลที่มีเกี่ยวกับตัวคุณทางออนไลน์
การนำ URL เดียวออก
โดยทั่วไปแล้ว การจะขอให้นำออกได้สำเร็จ เจ้าของ URL ที่เป็นปัญหาซึ่งอาจเป็นตัวคุณเองหรือผู้อื่นจะต้องระบุว่าให้นำเนื้อหาออกได้ สําหรับ URL รายการเดียว สามารถระบุข้อมูลนี้ได้ 3 วิธี ดังนี้
- บล็อกหน้าเว็บไม่ให้รวบรวมข้อมูลผ่านไฟล์ robots.txt
-
บล็อกหน้าเว็บจากการจัดทำดัชนีผ่านแท็ก
meta
noindex
-
ระบุว่าไม่มีหน้านั้นอยู่อีกต่อไปโดยแสดงรหัสสถานะ
404
หรือ410
ก่อนส่งคำขอนำออก คุณสามารถดูว่า URL ถูกบล็อกอย่างถูกต้องหรือไม่โดยทำดังนี้
- robots.txt: คุณตรวจสอบได้ว่า URL ดังกล่าวไม่ได้รับอนุญาตอย่างถูกต้องหรือไม่โดยใช้โปรแกรม Googlebot จําลองหรือทดสอบ robots.txt ในเครื่องมือของผู้ดูแลเว็บ
-
แท็ก
meta
noindex
: คุณสามารถใช้โปรแกรม Googlebot จําลองเพื่อตรวจสอบว่าแท็กmeta
ปรากฏที่ใดที่หนึ่งระหว่างแท็ก<head>
และ</head>
หากต้องการตรวจสอบหน้าเว็บที่ยืนยันไม่ได้ในเครื่องมือของผู้ดูแลเว็บ ให้เปิด URL ในเบราว์เซอร์ ไปที่ดู > แหล่งที่มาของหน้า และตรวจสอบว่าเห็นแท็กmeta
ระหว่างแท็ก<head>
และ</head>
-
รหัสสถานะ
404
และ410
: คุณสามารถใช้โปรแกรม Googlebot จําลองหรือเครื่องมืออย่างเช่น ส่วนหัว HTTP แบบสดหรือ web-sniffer.net เพื่อยืนยันว่า URL แสดงรหัสที่ถูกต้องจริงหรือไม่ บางครั้งหน้าที่ "ลบแล้ว" อาจบอกว่า "404" หรือ "ไม่พบ" ในหน้า แต่จริงๆ แล้วแสดงรหัสสถานะ200
ในส่วนหัวของหน้า ดังนั้นจึงควรใช้เครื่องมือตรวจสอบส่วนหัวที่เหมาะสมเพื่อความแน่นอน
หากมีการนำเนื้อหาที่ไม่ต้องการออกจากหน้าแล้ว แต่ไม่ได้บล็อกหน้าดังกล่าวด้วยวิธีใดวิธีหนึ่งข้างต้น คุณจะไม่สามารถนำ URL นั้นออกอย่างถาวรจากผลการค้นหาได้ กรณีเช่นนี้พบบ่อยที่สุดเมื่อคุณไม่ได้เป็นเจ้าของเว็บไซต์ที่โฮสต์เนื้อหานั้น เราจะพูดถึงสิ่งที่ต้องทำในสถานการณ์นี้ในโพสต์ต่อไปในตอนที่ 2 ของซีรีส์เรื่องการนำออก
หาก URL ตรงตามเกณฑ์ใดเกณฑ์หนึ่งข้างต้นก็นำออกได้โดยไปที่เครื่องมือนำออก จากนั้นป้อน URL ที่ต้องการนำออก แล้วเลือก "ผู้ดูแลเว็บบล็อกหน้าแล้ว" โปรดทราบว่าคุณควรป้อน URL ที่โฮสต์เนื้อหาอยู่ ไม่ใช่ URL ของ Google Search ที่แสดงเนื้อหาดังกล่าว เช่น ป้อน https://www.example.com/embarrassing-stuff.html
ไม่ใช่ https://www.google.com/search?q=embarrassing+stuff
บทความในศูนย์ช่วยเหลือมีรายละเอียดเพิ่มเติมเรื่องการป้อน URL ที่ถูกต้อง โปรดจำว่าหากคุณไม่บอก URL ที่ทำให้เกิดปัญหาอย่างถูกต้อง เราจะไม่สามารถนำเนื้อหาออกตามที่คุณคิดไว้ได้
การนำออกทั้งไดเรกทอรีหรือทั้งเว็บไซต์
เพื่อให้นำออกทั้งไดเรกทอรีหรือทั้งเว็บไซต์ถูกได้สำเร็จ ไดเรกทอรีหรือเว็บไซต์จะต้องระบุว่าไม่ได้รับอนุญาตในไฟล์ robots.txt ของเว็บไซต์ ตัวอย่างเช่น หากต้องการนำไดเรกทอรี https://www.example.com/secret/
ออก ไฟล์ robots.txt ต้องมีข้อมูลต่อไปนี้
User-agent: * Disallow: /secret/
ซึ่งไม่เพียงพอที่จะให้รากของไดเรกทอรีแสดงผลรหัสสถานะ 404
เนื่องจากเป็นไปได้ที่ไดเรกทอรีจะแสดงผล 404
แต่ยังคงแสดงไฟล์ที่อยู่ใต้ไดเรกทอรีนั้นด้วย
การใช้ robots.txt เพื่อบล็อกไดเรกทอรี (หรือทั้งเว็บไซต์) จะทำให้ URL ทั้งหมดภายใต้ไดเรกทอรีนั้น (หรือเว็บไซต์) ถูกบล็อกด้วย คุณสามารถทดสอบได้ว่าไดเรกทอรีถูกบล็อกอย่างถูกต้องหรือไม่ โดยใช้โปรแกรม Googlebot จําลองหรือทดสอบ robots.txt ใน Search Console
เฉพาะเจ้าของเว็บไซต์ที่ได้รับการยืนยันเท่านั้นที่สามารถส่งคำขอให้ลบทั้งเว็บไซต์หรือไดเรกทอรีในเครื่องมือของผู้ดูแลเว็บได้ หากต้องการขอให้นำไดเรกทอรีหรือเว็บไซต์ออก ให้คลิกเว็บไซต์ที่เป็นปัญหา แล้วไปที่ การกำหนดค่าเว็บไซต์> การอนุญาต Crawler> นำ URL ออก หากคุณป้อนรากของเว็บไซต์เป็น URL ที่ต้องการนำออก ระบบจะขอให้คุณยืนยันว่าคุณต้องการนำออกทั้งเว็บไซต์ หากคุณป้อนไดเรกทอรีย่อย ให้เลือกตัวเลือก "นำไดเรกทอรีออก" จากเมนูแบบเลื่อนลง
การรวมเนื้อหาอีกครั้ง
คุณยกเลิกคำขอนำเว็บไซต์ออกได้ทุกเมื่อ รวมถึงคำขอที่ผู้อื่นส่งมาด้วย โดยคุณต้องเป็นเจ้าของเว็บไซต์ที่ได้รับการยืนยันใน Search Console จึงจะดำเนินการดังกล่าวได้ เมื่อยืนยันการเป็นเจ้าของแล้ว ให้ไปที่ การกำหนดค่าเว็บไซต์ > การอนุญาต Crawler> นำ URL ออก> URL ที่ถูกนำออก (หรือ > ทำโดยผู้อื่น) และคลิก "ยกเลิก" ข้างคำขอที่ต้องการยกเลิก
หากยังมีข้อสงสัย คอยติดตามวิดีโอชุดอื่นๆ ของเราเกี่ยวกับการนำเนื้อหาออกจากผลการค้นหาของ Google หากคุณรอไม่ไหว ลองดูในฟอรัมความช่วยเหลือที่มีเรื่องเกี่ยวกับการนำ URL ออกอยู่จำนวนมาก รวมถึงการแก้ปัญหาของแต่ละกรณี หากยังมีข้อสงสัยใดๆ หลังจากอ่านประสบการณ์ของผู้อื่นแล้ว คุณก็สามารถถามต่อได้ โปรดทราบว่าในกรณีส่วนใหญ่ การให้คำแนะนำเกี่ยวกับการนำออกอย่างเจาะจงนั้นเป็นเรื่องยากหากไม่ทราบเว็บไซต์หรือ URL ที่เป็นปัญหา เราขอแนะนำให้แชร์ URL โดยใช้บริการย่อ URL เพื่อให้ URL ที่เกี่ยวข้องไม่ได้รับการจัดทำดัชนีในโพสต์ บริการย่อ URL บางที่ให้คุณปิดใช้ทางลัดในภายหลังได้ด้วยเมื่อคุณได้คำตอบแล้ว
โพสต์อื่นๆ ของซีรีส์นี้
- ส่วนที่ 2: การนำเนื้อหาที่แคชไว้ออกและการอัปเดต
- ส่วนที่ 3: การนำเนื้อหาที่คุณไม่ได้เป็นเจ้าของออก
- ส่วนที่ 4: การติดตามคำขอ สิ่งที่ไม่ควรนำออก
นอกจากนี้ คุณอาจสนใจอ่านการจัดการข้อมูลเกี่ยวกับตัวคุณที่มีอยู่ทางออนไลน์