Ngăn thông tin bị loại bỏ xuất hiện trong Google Tìm kiếm

Khi xuất bản tài liệu và hình ảnh trên web, bạn có thể vô tình xuất bản những thông tin mà người dùng không thể nhìn thấy ngay. Cụ thể là có một số thông tin mà bạn có thể không nhìn thấy (hoặc định loại bỏ) có thể được đưa vào một số định dạng tài liệu và công cụ tìm kiếm có thể nhìn thấy những thông tin như vậy.

Do các công cụ tìm kiếm lập chỉ mục các tài liệu công khai trên web (bao gồm hình ảnh), nên có thể người dùng vẫn tìm được những nội dung chưa bị loại bỏ hoàn toàn trong các công cụ tìm kiếm. Các công nghệ hỗ trợ như trình đọc màn hình có thể khiến những nội dung dường như bị "ẩn" này trở nên dễ tiếp cận hơn. Tương tự như vậy, các kỹ thuật phân tích hình ảnh phổ biến như công nghệ nhận dạng ký tự quang học (OCR) có thể giúp người dùng tìm được những nội dung như vậy. 

Tuy một số nội dung có thể không nhìn được bằng mắt thường do bạn chọn phông chữ nhỏ, dùng màu phông chữ giống với màu nền văn bản hoặc che phủ văn bản bằng một hình ảnh, nhưng những phương pháp này không thực sự loại bỏ nội dung để ngăn chặn các công cụ tìm kiếm lập chỉ mục và hiển thị những nội dung đó trong kết quả tìm kiếm.

Tương tự như vậy, một số loại tài liệu chứa thông tin theo những cách khiến người dùng không thể nhìn thấy ngay. Những tài liệu như vậy có thể chứa thông tin về các lần thay đổi của chính tài liệu đó, cho phép người dùng xem những văn bản đã bị loại bỏ hoặc thay đổi. Những tài liệu này có thể giữ lại phiên bản đầy đủ của những hình ảnh chứa thông tin bị cắt hoặc bị loại bỏ. Ngoài ra, một tệp cũng có thể chứa những siêu dữ liệu mà người dùng không nhìn thấy ngay, trong đó có thể nêu tên của những người đã truy cập vào hoặc chỉnh sửa tệp.

Toàn bộ những thông tin như vậy có thể vẫn tồn tại ngay cả khi tài liệu đã được xuất hoặc chuyển đổi từ định dạng này sang định dạng khác. Nếu bạn cần xoá thông tin khỏi một tệp, quan trọng là bạn phải xoá hoàn toàn thông tin đó khỏi tệp trước khi đặt tệp đó ở chế độ hiển thị công khai.

Sau đây là một số phương pháp hay nhất về cách thức loại bỏ thông tin một cách thích hợp khỏi tài liệu mà bạn không muốn Google lập chỉ mục cũng như không muốn người khác tìm thấy qua Google Tìm kiếm.

Chỉnh sửa và xuất hình ảnh trước khi nhúng

Google Tìm kiếm liệt kê những hình ảnh mà chúng tôi tìm thấy trên web, trong đó có cả những hình ảnh trên các trang web hoặc hình ảnh được nhúng vào các định dạng tài liệu khác nhau. Hình ảnh dạng nhúng đôi khi chỉ chỉnh sửa được bằng các công cụ chỉnh sửa của tài liệu chứa hình ảnh. Vì thế, khi hình ảnh được lập chỉ mục ngoài phạm vi tài liệu ban đầu, phương thức loại bỏ này có thể không thành công. Đó là lý do bạn nên chỉnh sửa hình ảnh trước (thay vì sau) khi nhúng vào tài liệu. Cụ thể, bạn nên làm như sau:

  • Loại bỏ thông tin không mong muốn khỏi hình ảnh trước khi nhúng vào tài liệu. Một số công cụ chỉnh sửa tài liệu (chẳng hạn như trình xử lý văn bản hoặc công cụ tạo trang trình bày) sẽ giữ lại mọi hình ảnh chưa bị cắt mà bạn dùng trong phiên bản công khai của tài liệu, do đó, hãy nhớ xem kỹ tài liệu của công cụ đó.
  • Xoá hoàn toàn hoặc che khuất mọi văn bản hoặc các phần không công khai khác của hình ảnh, do các hệ thống OCR có thể chuyển đổi văn bản trong hình ảnh có thể thấy được thành văn bản có thể tìm kiếm được.
  • Xoá mọi siêu dữ liệu không mong muốn.

Sau khi làm theo nội dung đề xuất trong tài liệu này, hãy xuất hoặc lưu hình ảnh vừa cập nhật dưới các định dạng tệp hình ảnh không phải vectơ hoặc đã làm phẳng như PNG hoặc WEBP. Khi làm như vậy, những phần liên quan của hình ảnh sẽ không bị đưa nhầm vào tài liệu công khai.

Chỉnh sửa hoặc xoá văn bản không mong muốn trước khi chuyển sang một định dạng tệp công khai

Trước khi bạn tạo tài liệu công khai, hãy xoá mọi văn bản bạn không muốn hiển thị trong phiên bản cuối cùng của tệp. Hãy chuyển sang một định dạng công khai và đừng lưu những nội dung thay đổi trước đây của bạn. Sau đây là những mẹo cụ thể hơn:

  • Dùng những công cụ thích hợp để loại bỏ thông tin trong tài liệu nếu bạn cần loại bỏ thông tin trong một tệp. Ví dụ: Đừng loại bỏ thông tin bằng cách đặt các hình chữ nhật màu đen lên văn bản vì văn bản đó vẫn có thể bị đưa vào tài liệu công khai.
  • Kiểm tra kỹ siêu dữ liệu dạng tài liệu trong tệp công khai.
  • Làm theo các phương pháp hay nhất để loại bỏ thông tin dạng tài liệu cho định dạng mà bạn đang dùng (PDF, hình ảnh, v.v.)
  • Xem xét cả thông tin trong URL hoặc tên tệp. Ngay cả khi một phần trang web bị robots.txt chặn, Google vẫn có thể lập chỉ mục những URL đó trong kết quả tìm kiếm (không kèm theo nội dung trên những URL đó). Hãy dùng hàm băm trong tham số URL thay cho địa chỉ email hoặc tên.
  • Cân nhắc việc dùng tính năng xác thực để hạn chế quyền truy cập vào nội dung bị loại bỏ. Phân phát trang đăng nhập bằng một thẻ robotsmetanoindex để ngăn hoạt động lập chỉ mục.
  • Khi bạn xuất bản, hãy đảm bảo trang web đã được xác minh trong Google Search Console. Thao tác này giúp bạn nhanh chóng xoá thông tin khi cần.
  1. Xoá tài liệu đã xuất bản khỏi trang web hoặc vị trí xuất bản.
  2. Dùng Công cụ xoá cho trang web đã xác minh để xoá tài liệu liên quan khỏi Tìm kiếm. Hãy dùng một tiền tố URL nếu bạn cần xoá nhiều tài liệu. Đối với những trang web đã xác minh, quá trình xoá URL thường mất chưa đến một ngày. Thao tác này ngăn không cho tài liệu liên quan xuất hiện trong kết quả tìm kiếm cho nội dung bị loại bỏ. 
  3. Lưu trữ tài liệu đã loại bỏ thông tin đúng cách trong một URL khác. Khi đó, mọi phiên bản mới được lập chỉ mục đều là của tài liệu mới chứ không phải là một phiên bản cũ của tài liệu đó (do quá trình thu thập lại dữ liệu và cập nhật các URL trong chỉ mục tìm kiếm có thể mất một chút thời gian). Cập nhật mọi đường liên kết đến những tài liệu đó.
  4. Liên hệ với bất kỳ trang web nào khác có thể đang lưu trữ những tài liệu bị loại bỏ thông tin không đúng cách và yêu cầu họ gỡ cả những tài liệu đó xuống. Hãy yêu cầu họ dùng Công cụ xoá trong tài khoản Search Console của họ hoặc bạn có thể dùng Công cụ xoá nội dung đã lỗi thời để yêu cầu hệ thống của Google cập nhật kết quả tìm kiếm.
  5. Cho phép các yêu cầu xoá URL hết hạn sau một thời điểm nào đó (việc này xảy ra sau khi các URL đã được cập nhật trong chỉ mục của Google Tìm kiếm hoặc sau khoảng 6 tháng).