Sử dụng bộ sưu tập để sắp xếp ngăn nắp các trang
Lưu và phân loại nội dung dựa trên lựa chọn ưu tiên của bạn.
Ngăn thông tin bị loại bỏ xuất hiện trong Google Tìm kiếm
Khi xuất bản tài liệu và hình ảnh trên web, bạn có thể vô tình xuất bản những thông tin
mà người dùng không thể nhìn thấy ngay. Cụ thể là có một số thông tin mà bạn có thể
không nhìn thấy (hoặc định loại bỏ) có thể được đưa vào một số định dạng tài liệu và công cụ tìm kiếm
có thể nhìn thấy những thông tin như vậy.
Do các công cụ tìm kiếm lập chỉ mục các tài liệu công khai trên web (bao gồm hình ảnh),
nên có thể người dùng vẫn tìm được những nội dung chưa bị loại bỏ hoàn toàn trong các công cụ tìm kiếm. Các công nghệ hỗ trợ
như trình đọc màn hình có thể khiến những nội dung dường như bị "ẩn" này trở nên dễ tiếp cận hơn. Tương tự như vậy,
các kỹ thuật phân tích hình ảnh phổ biến như công nghệ nhận dạng ký tự quang học (OCR) có thể giúp người dùng
tìm được những nội dung như vậy.
Tuy một số nội dung có thể không nhìn được bằng mắt thường do bạn chọn phông chữ nhỏ, dùng màu phông chữ giống với màu nền
văn bản hoặc che phủ văn bản bằng một hình ảnh,
nhưng những phương pháp này không thực sự loại bỏ nội dung để ngăn chặn các công cụ tìm kiếm
lập chỉ mục và hiển thị những nội dung đó trong kết quả tìm kiếm.
Tương tự như vậy, một số loại tài liệu chứa thông tin theo những cách khiến
người dùng không thể nhìn thấy ngay. Những tài liệu như vậy có thể chứa thông tin về các lần thay đổi của chính tài liệu đó, cho phép người dùng xem những văn bản
đã bị loại bỏ hoặc thay đổi. Những tài liệu này có thể giữ lại phiên bản đầy đủ của những hình ảnh chứa thông tin bị cắt
hoặc bị loại bỏ. Ngoài ra, một tệp cũng có thể chứa những siêu dữ liệu mà người dùng
không nhìn thấy ngay, trong đó có thể nêu tên của những người đã truy cập vào hoặc chỉnh sửa tệp.
Toàn bộ những thông tin như vậy có thể vẫn tồn tại ngay cả khi tài liệu đã được xuất hoặc chuyển đổi từ
định dạng này sang định dạng khác. Nếu bạn cần xoá thông tin khỏi một tệp, quan trọng là bạn phải xoá hoàn toàn
thông tin đó khỏi tệp trước khi đặt tệp đó ở chế độ hiển thị công khai.
Sau đây là một số phương pháp hay nhất về cách thức loại bỏ thông tin một cách thích hợp khỏi tài liệu mà bạn không muốn Google lập chỉ mục cũng như không muốn người khác tìm thấy qua Google Tìm kiếm.
Chỉnh sửa và xuất hình ảnh trước khi nhúng
Google Tìm kiếm liệt kê những hình ảnh mà chúng tôi tìm thấy trên web, trong đó có cả những hình ảnh trên các trang web hoặc
hình ảnh được nhúng vào các định dạng tài liệu khác nhau. Hình ảnh dạng nhúng đôi khi chỉ chỉnh sửa được
bằng các công cụ chỉnh sửa của tài liệu chứa hình ảnh. Vì thế, khi hình ảnh được lập chỉ mục ngoài phạm vi tài liệu ban đầu,
phương thức loại bỏ này có thể không thành công. Đó là lý do bạn nên chỉnh sửa hình ảnh trước (thay vì sau) khi
nhúng vào tài liệu. Cụ thể, bạn nên làm như sau:
Loại bỏ thông tin không mong muốn khỏi hình ảnh trước khi nhúng vào tài liệu. Một số
công cụ chỉnh sửa tài liệu (chẳng hạn như trình xử lý văn bản hoặc công cụ tạo trang trình bày) sẽ giữ lại mọi
hình ảnh chưa bị cắt mà bạn dùng trong phiên bản công khai của tài liệu, do đó, hãy nhớ xem kỹ
tài liệu của công cụ đó.
Xoá hoàn toàn hoặc che khuất mọi văn bản hoặc các phần không công khai khác của hình ảnh, do các hệ thống OCR
có thể chuyển đổi văn bản trong hình ảnh có thể thấy được thành văn bản có thể tìm kiếm được.
Xoá mọi siêu dữ liệu không mong muốn.
Sau khi làm theo nội dung đề xuất trong tài liệu này, hãy xuất hoặc lưu hình ảnh vừa cập nhật dưới các định dạng tệp hình ảnh không phải vectơ hoặc đã làm phẳng như PNG hoặc WEBP. Khi làm như vậy, những phần liên quan của hình ảnh
sẽ không bị đưa nhầm vào tài liệu công khai.
Chỉnh sửa hoặc xoá văn bản không mong muốn trước khi chuyển sang một định dạng tệp công khai
Trước khi bạn tạo tài liệu công khai, hãy xoá mọi văn bản bạn không muốn hiển thị trong
phiên bản cuối cùng của tệp. Hãy chuyển sang một định dạng công khai và đừng lưu những nội dung thay đổi trước đây của bạn. Sau đây là những mẹo cụ thể hơn:
Dùng những công cụ thích hợp để loại bỏ thông tin trong tài liệu nếu bạn cần loại bỏ thông tin trong một tệp. Ví
dụ: Đừng loại bỏ thông tin bằng cách đặt các hình chữ nhật màu đen lên văn bản vì
văn bản đó vẫn có thể bị đưa vào tài liệu công khai.
Kiểm tra kỹ siêu dữ liệu dạng tài liệu trong tệp công khai.
Xem xét cả thông tin trong URL hoặc tên tệp. Ngay cả khi một phần trang web
bị robots.txt chặn, Google vẫn có thể lập chỉ mục
những URL đó trong kết quả tìm kiếm (không kèm theo nội dung trên những URL đó). Hãy dùng hàm băm trong tham số URL thay cho
địa chỉ email hoặc tên.
Cân nhắc việc dùng tính năng xác thực để hạn chế quyền truy cập vào nội dung bị loại bỏ. Phân phát
trang đăng nhập bằng một
thẻ robotsmetanoindex
để ngăn hoạt động lập chỉ mục.
Những việc cần làm nếu những tài liệu chưa loại bỏ thông tin hoặc được loại bỏ không đúng cách xuất hiện trong chỉ mục của Tìm kiếm
Xóa tài liệu đã xuất bản khỏi trang web hoặc vị trí xuất bản.
Dùng Công cụ xoá
cho trang web đã xác minh để xoá tài liệu liên quan khỏi Tìm kiếm. Hãy dùng một tiền tố URL nếu
bạn cần xoá nhiều tài liệu. Đối với những trang web đã xác minh, quá trình xoá URL thường mất
chưa đến một ngày. Thao tác này ngăn không cho tài liệu liên quan xuất hiện trong kết quả tìm kiếm cho
nội dung bị loại bỏ.
Lưu trữ tài liệu đã loại bỏ thông tin đúng cách trong một URL khác. Khi đó, mọi phiên bản mới
được lập chỉ mục đều là của tài liệu mới chứ không phải là một phiên bản cũ của tài liệu đó (do
quá trình thu thập lại dữ liệu và cập nhật các URL trong chỉ mục tìm kiếm có thể mất một chút thời gian). Cập nhật mọi
đường liên kết đến những tài liệu đó.
Liên hệ với bất kỳ trang web nào khác có thể đang lưu trữ những tài liệu bị loại bỏ thông tin không đúng cách và yêu cầu
họ gỡ cả những tài liệu đó xuống. Hãy yêu cầu họ dùng Công cụ xoá trong tài khoản Search Console của họ
hoặc bạn có thể dùng
Công cụ xoá nội dung đã lỗi thời
để yêu cầu hệ thống của Google cập nhật kết quả tìm kiếm.
Cho phép các yêu cầu xoá URL hết hạn sau một thời điểm nào đó (việc này xảy ra sau khi các URL đã được cập nhật trong
chỉ mục của Google Tìm kiếm hoặc sau khoảng 6 tháng).
[[["Dễ hiểu","easyToUnderstand","thumb-up"],["Giúp tôi giải quyết được vấn đề","solvedMyProblem","thumb-up"],["Khác","otherUp","thumb-up"]],[["Thiếu thông tin tôi cần","missingTheInformationINeed","thumb-down"],["Quá phức tạp/quá nhiều bước","tooComplicatedTooManySteps","thumb-down"],["Đã lỗi thời","outOfDate","thumb-down"],["Vấn đề về bản dịch","translationIssue","thumb-down"],["Vấn đề về mẫu/mã","samplesCodeIssue","thumb-down"],["Khác","otherDown","thumb-down"]],["Cập nhật lần gần đây nhất: 2025-08-04 UTC."],[[["\u003cp\u003eAvoid unintentionally publishing sensitive information hidden within documents or images, as search engines can index this data.\u003c/p\u003e\n"],["\u003cp\u003eEmploy proper redaction techniques like cropping, obscuring, or removing sensitive content before publishing files, rather than relying on visual concealment methods.\u003c/p\u003e\n"],["\u003cp\u003eEdit images and remove unwanted text before embedding them into documents to prevent unintended exposure of redacted content.\u003c/p\u003e\n"],["\u003cp\u003eUse the Google Search Console's removal tools if improperly redacted documents are indexed to quickly remove them from search results.\u003c/p\u003e\n"]]],["To keep information out of Google Search, properly redact documents before publishing. Edit images before embedding them, cropping unwanted parts, removing text, and deleting metadata. Remove unwanted text from documents, using redaction tools instead of merely covering text. Export images in non-vector formats. For indexed, improperly redacted content, remove the live document, use Google Search Console's Removals tool, host a properly redacted version under a new URL, and contact other hosts to remove the documents.\n"],null,["# Keep Redacted Information out of Google | Google Search Central\n\nKeep redacted information out of Google Search\n==============================================\n\n\nWhen publishing documents and images on the web, you may unintentionally publish information\nbeyond what is immediately visible to the human eye. In particular, information that you might\nnot see, or that was intended to be redacted, might be included in some document formats and\nvisible to search engines.\n\nBecause search engines index public material on the web, including images, content that is\nnot completely redacted can potentially be findable in search engines. Assistive technologies\nlike screen readers can make this seemingly \"hidden\" content more easily accessible, and\ncommon image understanding techniques like optical character recognition (OCR) similarly make\nit possible to search for this content.\n\nEven though putting text in a tiny font, using a font color that's the same as the background\nthe text is on, or covering text with an image may make something invisible to the human eye,\nthese methods don't actually redact material in a way that prevents search engines from\nindexing it and making it findable.\n\n\nSimilarly, some document types include information in various ways that aren't immediately\nvisible. They might include the document's change history, allowing users to see text that has\nbeen redacted or altered. They might retain the full versions of images that contain cropped\nor redacted information. There might also be metadata that's included in a file, which is not\nimmediately visible, that may list the names of people who accessed or edited the file.\n\n\nAll of this information can remain even when a document is exported or converted from one\nformat to another. If you need to remove information from a file, it's critical that the\ninformation is removed completely from the file before that file is made public.\n\n\nHere are some best practices for how to appropriately redact information from documents that\nyou don't want to be indexed and made discoverable via Google Search.\n\nEdit and export images before embedding them\n--------------------------------------------\n\n\nGoogle Search lists images that it finds across the web, both those that are on web pages or\nthose that are embedded into various document formats. Embedded images are sometimes edited\nusing only the containing document's editing tools. This can cause this redaction to fail when\nan image is indexed apart from the document. That is why it's best to edit images before\nembedding them into a document, not after. In particular:\n\n- Crop out unwanted information from images before embedding them into documents. Some document editing tools (such as word processors or slide creation tools) will maintain any uncropped images that you use in the public version of the document, so be sure to review the tool's documentation thoroughly.\n- Completely remove or obscure any text or other non-public parts of the image, as OCR systems may turn any image text seen into searchable text.\n- Remove any undesired metadata.\n\n\nAfter following the suggestions in this document, export or save the updated images as non-vector or\nflattened image file formats such as PNG or WEBP. This prevents those parts of the images from\nbeing inadvertently included in a public document.\n\nEdit or remove unwanted text before moving to a public file format\n------------------------------------------------------------------\n\n\nBefore you generate the public document, remove any text that you don't want displayed in the\nfinal version of the file. Move to a public format that does not keep your previous change\nhistory. Here are more specific tips:\n\n- Use proper document redacting tools if a file needs to have information redacted. For example, avoid placing black rectangles over text as a redaction method, as this can result in the text still being included in the public document.\n- Double-check the document metadata in the public file.\n- Follow the [document redaction best practices](https://www.google.com/search?q=document+redaction+best+practices) for the format that you are using (PDF, image, etc).\n- Consider information in the URL or file name itself. Even if a part of a website is [blocked by robots.txt](/search/docs/crawling-indexing/robots/intro), the URLs may be indexed in search (without their content). Use hashes in URL parameters instead of email addresses or names.\n- Consider using authentication to limit access to the redacted content. Serve the resulting login page with a [`noindex` robots `meta` tag](/search/docs/crawling-indexing/block-indexing) to block indexing.\n- When publishing, make sure that the website is [verified in Google Search Console](https://support.google.com/webmasters/answer/9008080). This allows quick removal action, if needed.\n\nWhat to do if unredacted or improperly redacted documents are indexed in Search\n-------------------------------------------------------------------------------\n\n1. Remove the live document from the website or location where you published it.\n2. Use the [Removals tool](https://support.google.com/webmasters/answer/9689846) for the verified site to remove the documents in question from Search. Use a URL prefix if you need to remove many documents. For verified sites, a URL removal generally takes less than a day. This prevents the document in question from appearing for any searches for redacted content.\n3. Host the properly redacted document under a different URL. This makes sure that any newly indexed version is of the new document, and not an older version of the document (since recrawling of URLs and updating them in a search index can take a bit of time). Update any links to those documents.\n4. Contact any other site that may also be hosting the improperly redacted documents and ask them to take them down as well. Ask them to use the Removals tool in their Search Console account, or you can use the [Outdated Content tool](https://support.google.com/webmasters/answer/7041154) to ask Google's systems to update the search results.\n5. Allow the URL removal requests to expire (this happens after the URLs were either updated in the Google Search index, or after about 6 months)."]]