ป้องกันไม่ให้ข้อมูลที่มีการปกปิดแสดงใน Google Search

เมื่อเผยแพร่เอกสารและรูปภาพในเว็บ คุณอาจเผยแพร่ข้อมูลที่มนุษย์ไม่อาจมองเห็นได้ทันทีโดยที่คุณไม่ได้ตั้งใจ โดยเฉพาะอย่างยิ่ง ข้อมูลที่คุณอาจมองไม่เห็นหรือที่ควรได้รับการปกปิดอาจรวมอยู่ในเอกสารบางรูปแบบและปรากฏต่อเครื่องมือค้นหาได้

เนื่องจากเครื่องมือค้นหาจะจัดทำดัชนีเนื้อหาสาธารณะในเว็บ ซึ่งรวมถึงรูปภาพ เนื้อหาที่ไม่ได้รับการปกปิดโดยสมบูรณ์อาจค้นพบได้ผ่านเครื่องมือค้นหา เทคโนโลยีความช่วยเหลือพิเศษอย่างเช่น โปรแกรมอ่านหน้าจอ อาจทำให้เนื้อหาที่ดูเหมือนว่า "ซ่อนอยู่" นี้มีการเข้าถึงได้ง่ายขึ้น และเทคนิคทั่วไปในการทำความเข้าใจรูปภาพ เช่น เทคโนโลยีการรู้จำอักขระด้วยแสง (OCR) ก็ทำให้ระบบค้นหาเนื้อหานี้ได้เช่นกัน

แม้ว่าคุณจะวางข้อความที่มีขนาดเล็กมาก ใช้สีแบบอักษรสีเดียวกับพื้นหลังของข้อความ หรือนำรูปภาพมาบดบังข้อความเพื่อไม่ให้คนมองเห็น โปรดทราบว่าวิธีเหล่านี้ไม่ได้เป็นวิธีปกปิดเนื้อหาที่สามารถป้องกันการจัดทำดัชนีและการทำให้ค้นพบเนื้อหานั้นได้จากเครื่องมือค้นหา

นอกจากนี้ เอกสารบางประเภทยังมีข้อมูลหลายรูปแบบที่ไม่ปรากฏให้เห็นทันที โดยอาจรวมถึงประวัติการเปลี่ยนแปลงของเอกสาร ซึ่งทำให้ผู้ใช้ดูข้อความที่มีการปกปิดหรือเปลี่ยนแปลงได้ หรืออาจเป็นรูปภาพเวอร์ชันเต็มที่มีข้อมูลที่ครอบตัดหรือปกปิดแล้ว รวมทั้งอาจมีข้อมูลเมตาที่รวมอยู่ในไฟล์ซึ่งไม่ปรากฏในทันที และอาจระบุรายชื่อของคนที่เข้าถึงหรือแก้ไขไฟล์ไว้ด้วย

ข้อมูลทั้งหมดนี้อาจจะยังคงปรากฏได้อยู่ แม้จะมีการส่งออกเอกสารหรือแปลงเอกสารไปเป็นรูปแบบอื่นแล้วก็ตาม หากต้องการนำข้อมูลออกจากไฟล์ คุณต้องนำข้อมูลนั้นออกจากไฟล์อย่างสมบูรณ์ก่อนที่จะเผยแพร่ไฟล์ต่อสาธารณะ

ต่อไปนี้เป็นแนวทางปฏิบัติแนะนำเกี่ยวกับวิธีปกปิดข้อมูลอย่างถูกต้องในเอกสารที่คุณไม่ต้องการให้มีการจัดทําดัชนีและค้นพบได้ผ่าน Google Search

แก้ไขและส่งออกรูปภาพก่อนที่จะฝังรูป

Google Search จะแสดงรูปภาพที่พบจากทั่วเว็บ ทั้งรูปที่อยู่ในหน้าเว็บหรือรูปที่ฝังอยู่ในเอกสารรูปแบบต่างๆ บางครั้งรูปภาพที่ฝังไว้มีการแก้ไขโดยใช้เครื่องมือแก้ไขของเอกสารที่มีรูปภาพนั้นอยู่เท่านั้น ซึ่งอาจทําให้การปกปิดไม่สำเร็จเมื่อมีการจัดทําดัชนีรูปภาพแยกจากเอกสาร ด้วยเหตุนี้ คุณจึงควรแก้ไขรูปภาพก่อนที่จะฝังลงในเอกสาร แทนที่จะแก้ไขหลังการฝัง โดยเฉพาะอย่างยิ่งฟีเจอร์ต่อไปนี้

  • ครอบตัดข้อมูลที่ไม่ต้องการออกจากรูปภาพก่อนฝังลงในเอกสาร เครื่องมือแก้ไขเอกสารบางอย่าง (เช่น โปรแกรมประมวลผลคำหรือเครื่องมือสร้างสไลด์) จะเก็บรักษารูปภาพที่ไม่ได้ผ่านการครอบตัดที่คุณใช้ในเอกสารเวอร์ชันสาธารณะ ดังนั้นโปรดอ่านเอกสารประกอบของเครื่องมือให้ละเอียด
  • ลบหรือปิดบังข้อความหรือส่วนอื่นใดของรูปภาพที่ไม่ต้องการเผยแพร่ต่อสาธารณะให้สมบูรณ์ เนื่องจากระบบ OCR อาจเปลี่ยนข้อความของรูปภาพที่เห็นเป็นข้อความที่ค้นหาได้
  • นำข้อมูลเมตาที่ไม่ต้องการออก

หลังจากทำตามคำแนะนำในเอกสารนี้แล้ว ให้ส่งออกหรือบันทึกรูปภาพที่อัปเดตนั้นเป็นไฟล์ภาพรูปแบบ Flatten หรือรูปแบบที่ไม่ใช่เวกเตอร์ เช่น PNG หรือ WEBP วิธีนี้จะช่วยป้องกันไม่ให้ส่วนเหล่านั้นของรูปภาพรวมอยู่ในเอกสารสาธารณะโดยไม่ตั้งใจ

แก้ไขหรือนําข้อความที่ไม่ต้องการออกก่อนที่จะเปลี่ยนไปใช้รูปแบบไฟล์สาธารณะ

ก่อนจะสร้างเอกสารสาธารณะ ให้นําข้อความที่คุณไม่ต้องการให้แสดงในไฟล์เวอร์ชันสุดท้ายออก เปลี่ยนไปใช้ไฟล์รูปแบบสาธารณะที่ไม่ได้เก็บประวัติการเปลี่ยนแปลงก่อนหน้านี้ไว้ ลองดูเคล็ดลับที่เจาะจงมากขึ้นที่ด้านล่าง

  • ใช้เครื่องมือการปกปิดเอกสารที่ถูกต้อง หากต้องมีการปกปิดข้อมูลในไฟล์ เช่น หลีกเลี่ยงการวางสี่เหลี่ยมสีดำทับข้อความเพื่อปกปิดข้อมูล เนื่องจากวิธีนี้อาจทำให้ข้อความยังรวมอยู่ในเอกสารสาธารณะ
  • ตรวจสอบข้อมูลเมตาของเอกสารในไฟล์สาธารณะอีกครั้ง
  • ปฏิบัติตามแนวทางปฏิบัติแนะนำในการปกปิดเอกสารสำหรับรูปแบบที่คุณใช้ (PDF, รูปภาพ ฯลฯ)
  • ตรวจสอบข้อมูลใน URL หรือในชื่อไฟล์ แม้ว่าส่วนหนึ่งของเว็บไซต์จะมีการบล็อกโดย robots.txt แต่ URL อาจได้รับการจัดทําดัชนีในการค้นหา (โดยไม่มีเนื้อหา) ใช้แฮชในพารามิเตอร์ของ URL แทนอีเมลหรือชื่อ
  • พิจารณาใช้การตรวจสอบสิทธิ์เพื่อจำกัดการเข้าถึงเนื้อหาที่ปกปิด แสดงหน้าการเข้าสู่ระบบที่ได้จากการดำเนินการข้างต้นด้วยแท็ก meta noindex ของ robots เพื่อบล็อกการจัดทำดัชนี
  • เมื่อเผยแพร่ โปรดตรวจสอบว่าเว็บไซต์ได้รับการยืนยันใน Google Search Console แล้ว เพราะจะทำให้คุณนำเนื้อหาออกได้อย่างรวดเร็ว หากจำเป็น
  1. นําเอกสารที่เผยแพร่อยู่ออกจากเว็บไซต์หรือตําแหน่งที่คุณเผยแพร่
  2. ใช้เครื่องมือนำออกสำหรับเว็บไซต์ที่ได้รับการยืนยันเพื่อนำเอกสารที่เป็นปัญหาออกจาก Search ใช้คํานําหน้า URL หากต้องการนําเอกสารออกเป็นจํานวนมาก สำหรับเว็บไซต์ที่ได้รับการยืนยัน โดยทั่วไปแล้วการนำ URL ออกจะใช้เวลาไม่ถึง 1 วัน วิธีนี้จะป้องกันไม่ให้เอกสารที่เป็นปัญหาปรากฏขึ้นเมื่อมีการค้นหาเนื้อหาที่ได้รับการปกปิด
  3. โฮสต์เอกสารที่มีการปกปิดอย่างเหมาะสมภายใต้ URL อื่น การดําเนินการนี้ทำให้เวอร์ชันที่จัดทําดัชนีใหม่เป็นเอกสารใหม่ ไม่ใช่เอกสารเวอร์ชันเก่า (เนื่องจากการรวบรวมข้อมูล URL ซ้ำและการอัปเดต URL ในดัชนีการค้นหาอาจใช้เวลาสักพัก) อัปเดตลิงก์ไปยังเอกสารเหล่านั้น
  4. ติดต่อเว็บไซต์อื่นๆ ที่อาจกำลังโฮสต์เอกสารที่ปกปิดอย่างไม่ถูกต้องและขอให้เว็บไซต์ลบเอกสารเหล่านั้นด้วย ขอให้เว็บไซต์ใช้เครื่องมือนำออกในบัญชี Search Console หรือคุณจะใช้เครื่องมือสำหรับเนื้อหาที่ล้าสมัยเพื่อขอให้ระบบของ Google อัปเดตผลการค้นหาก็ได้
  5. อนุญาตให้คำขอนำ URL ออกมีวันหมดอายุ (ซึ่งจะเกิดขึ้นหลังจากมีการอัปเดต URL ในดัชนี Google Search แล้วหรือหลังจากนั้นประมาณ 6 เดือน)