Giải thích về tính năng xoá URL, Phần II: Xoá văn bản nhạy cảm khỏi một trang
Sử dụng bộ sưu tập để sắp xếp ngăn nắp các trang
Lưu và phân loại nội dung dựa trên lựa chọn ưu tiên của bạn.
Thứ Sáu, ngày 6 tháng 8 năm 2010
Luôn có thể xảy ra thay đổi – đôi khi, như chúng ta nhận thấy trong bài đăng trước về việc xoá URL, bạn có thể chặn hoặc xoá hoàn toàn một trang khỏi trang web của mình. Cũng có lúc có thể bạn chỉ thay đổi các phần của một trang hoặc xoá một số đoạn văn bản. Tuỳ thuộc vào tần suất thu thập dữ liệu trên một trang, có thể mất chút thời gian trước khi các thay đổi này được phản ánh trong kết quả tìm kiếm của chúng tôi. Trong bài đăng này trên blog, chúng ta sẽ tìm hiểu các bước bạn có thể thực hiện nếu nội dung cũ và đã bị xoá vẫn xuất hiện trong kết quả tìm kiếm dưới dạng "đoạn trích" hoặc trên trang lưu trong bộ nhớ đệm được liên kết đến từ kết quả tìm kiếm. Việc này là hợp lý khi nội dung cũ chứa thông tin nhạy cảm cần được xoá nhanh chóng. Nhưng bạn không cần làm vậy nếu chỉ cập nhật trang web như bình thường.
Để lấy ví dụ, hãy xem kết quả tìm kiếm giả tưởng sau đây:
Walter E. Coyote
< Tiêu đề
Chief Development Officer at Acme Corp 1948-2003: worked on the top
secret velocitus incalculii capturing device which has shown potential...
< Đoạn trích
www.example.com/about/waltercoyote – Được lưu trong bộ nhớ đệm
< URL + đường liên kết đến trang lưu trong bộ nhớ đệm
Để thay đổi nội dung xuất hiện trong đoạn trích (hoặc trên trang được liên kết đã lưu trong bộ nhớ đệm), trước tiên, bạn cần thay đổi nội dung trên trang thực tế (trực tiếp). Các quy trình tự động của Google sẽ tiếp tục cho thấy các phần của nội dung gốc trong kết quả tìm kiếm nếu bạn không thay đổi nội dung xuất hiện công khai trên trang.
Sau khi thay đổi nội dung của trang, bạn có một số cách để những thay đổi đó xuất hiện trong kết quả tìm kiếm:
Chờ Googlebot thu thập lại dữ liệu và lập chỉ mục lại trang: Đây là phương pháp tự nhiên để cập nhật hầu hết nội dung tại Google. Đôi khi, có thể mất khá nhiều thời gian, tuỳ thuộc vào tần suất Googlebot thu thập dữ liệu trên trang đó. Khi chúng tôi đã thu thập lại dữ liệu và lập chỉ mục lại trang, nội dung cũ thường sẽ không xuất hiện do được thay thế bằng nội dung hiện tại. Miễn là Googlebot không bị chặn thu thập dữ liệu trên trang được đề cập (bằng tệp robots.txt hoặc không thể truy cập vào máy chủ theo đúng cách), thì bạn không cần phải làm gì đặc biệt. Thường thì bạn không thể đẩy nhanh quá trình thu thập dữ liệu và lập chỉ mục vì các quá trình này diễn ra hoàn toàn tự động và phụ thuộc vào nhiều yếu tố bên ngoài.
Sử dụng Công cụ xoá URL công khai của Google để yêu cầu xoá nội dung đã bị xoá khỏi trang web của người khác. Khi sử dụng công cụ này, bạn cần nhập URL chính xác của trang đã được sửa đổi, chọn tuỳ chọn "Nội dung đã bị xoá khỏi trang" rồi chỉ định một hoặc nhiều từ đã bị xoá hoàn toàn khỏi trang đó.
Xin lưu ý rằng không từ nào trong số các từ bạn nhập có thể xuất hiện trên trang; ngay cả khi một từ đã bị xoá khỏi một phần của trang, yêu cầu của bạn sẽ bị từ chối nếu từ đó vẫn xuất hiện trên một phần khác của trang. Hãy nhớ chọn một từ (hoặc các từ) không còn xuất hiện ở bất cứ đâu trên trang. Trong ví dụ trên, nếu đã xoá "top secret velocitus incalculii capturing device", bạn nên gửi những từ đó thay vì gửi "tên dự án của tôi". Tuy nhiên, nếu từ "top" hoặc "device" vẫn tồn tại ở bất kỳ vị trí nào trên trang, thì yêu cầu sẽ bị từ chối. Để tăng tối đa cơ hội thành công, bạn thường chỉ cần nhập một từ mà bạn chắc chắn rằng không còn xuất hiện ở bất cứ đâu trên trang.
Sau khi xử lý xong yêu cầu của bạn và nhận thấy (các) từ đã gửi không còn xuất hiện trên trang, kết quả tìm kiếm sẽ không còn cho thấy đoạn trích và trang đã lưu trong bộ nhớ đệm nữa. Tiêu đề và URL của trang sẽ vẫn hiển thị và có thể mục đó vẫn xuất hiện trong kết quả tìm kiếm cho những nội dung tìm kiếm liên quan đến nội dung đã bị xoá (chẳng hạn như nội dung tìm kiếm velocitus incalculii), ngay cả khi những từ đó không còn xuất hiện trong đoạn trích. Tuy nhiên, sau khi trang được thu thập lại dữ liệu và lập chỉ mục lại, đoạn trích mới và trang lưu trong bộ nhớ đệm có thể xuất hiện trong kết quả tìm kiếm của chúng tôi.
Xin lưu ý rằng chúng tôi cần xác minh việc xoá (các) từ này bằng cách xem trang đó. Nếu trang không còn tồn tại và máy chủ đang trả về một mã kết quả HTTP 404 hoặc 410 thích hợp khiến chúng tôi không thể xem trang đó, có lẽ bạn nên yêu cầu xoá trang hoàn toàn.
Hãy sử dụng Công cụ xoá URL của Công cụ quản trị trang web của Google để yêu cầu xoá thông tin trên một trang khỏi trang web của bạn. Nếu có quyền truy cập vào trang web có liên quan và đã xác minh quyền sở hữu đối với trang web đó trong Công cụ quản trị trang web của Google, bạn có thể sử dụng công cụ xoá URL tại đó (trong phần Cấu hình trang web > Truy cập của trình thu thập dữ liệu) để yêu cầu xoá đoạn trích và trang lưu trong bộ nhớ đệm cho đến khi thu thập lại dữ liệu trên trang. Để sử dụng công cụ này, bạn chỉ cần gửi URL chính xác của trang (bạn không cần chỉ định bất kỳ từ nào đã bị xoá). Sau khi xử lý xong yêu cầu của bạn, chúng tôi sẽ xoá đoạn trích và trang đã lưu trong bộ nhớ đệm khỏi kết quả tìm kiếm. Tiêu đề và URL của trang sẽ vẫn xuất hiện và có thể trang đó vẫn được xếp hạng trong kết quả tìm kiếm cho những cụm từ tìm kiếm liên quan đến nội dung đã bị xoá. Sau khi Google thu thập lại dữ liệu và lập chỉ mục lại trang, kết quả tìm kiếm có chứa một đoạn trích đã cập nhật và trang đã lưu trong bộ nhớ đệm (dựa trên nội dung mới) có thể xuất hiện.
Google lập chỉ mục và xếp hạng các mục không chỉ dựa trên nội dung của trang mà còn dựa trên các yếu tố bên ngoài khác, chẳng hạn như các đường liên kết đến URL đó. Do đó, URL có thể tiếp tục xuất hiện trong kết quả tìm kiếm cho nội dung không còn tồn tại trên trang, ngay cả sau khi trang đó đã được thu thập lại dữ liệu và lập chỉ mục lại. Tuy công cụ xoá URL có thể xoá đoạn trích và trang đã lưu trong bộ nhớ đệm khỏi kết quả tìm kiếm, nhưng công cụ này sẽ không thay đổi hay xoá tiêu đề của kết quả tìm kiếm, thay đổi URL xuất hiện hoặc ngăn trang đó xuất hiện cho cụm từ tìm kiếm dựa trên nội dung bất kỳ hiện tại hoặc trước đây. Nếu điều này quan trọng đối với bạn thì bạn nên đảm bảo rằng URL đáp ứng các yêu cầu để xoá hoàn toàn kết quả tìm kiếm của chúng tôi.
Xoá nội dung không phải HTML
Nếu nội dung đã thay đổi không có trong (X)HTML (ví dụ: nếu hình ảnh, tệp Flash hoặc tệp PDF đã bị thay đổi), thì bạn sẽ không thể dùng công cụ xoá nội dung trong bộ nhớ đệm. Vì vậy, nếu nội dung cũ không còn xuất hiện trong kết quả tìm kiếm, thì giải pháp nhanh nhất là thay đổi URL của tệp để URL cũ trả về mã kết quả HTTP 404 và sử dụng công cụ xoá URL để xoá URL cũ. Còn nếu bạn chọn cho phép Google tự động làm mới thông tin của mình, hãy lưu ý rằng bản xem trước của nội dung không phải HTML (chẳng hạn như đường liên kết Quick View cho tệp PDF) có thể mất nhiều thời gian để cập nhật sau khi thu thập lại dữ liệu so với các trang HTML thông thường.
Chủ động ngăn sự xuất hiện của đoạn trích hoặc phiên bản lưu trong bộ nhớ đệm
Là quản trị viên trang web, bạn có thể sử dụng
thẻ meta robots
để ngăn chặn việc hiện đoạn trích hoặc phiên bản trong bộ nhớ đệm mà không cần dùng
công cụ xoá. Tuy bạn không nên coi cách này là phương pháp mặc định (đoạn trích có thể giúp người dùng nhận ra kết quả tìm kiếm liên quan nhanh hơn) và trang lưu trong bộ nhớ đệm cho phép họ xem nội dung của bạn ngay cả trong trường hợp không truy cập được máy chủ có thể bất ngờ xảy ra), bạn có thể dùng thẻ meta robots "nosnippet" để ngăn hiện đoạn trích hoặc dùng thẻ metarobots "noarchive" để tắt tính năng lưu vào bộ nhớ đệm cho một trang. Hãy lưu ý rằng nếu thay đổi này diễn ra trên các trang hiện có và đã biết, Googlebot sẽ cần thu thập lại dữ liệu và lập chỉ mục lại các trang đó trước khi thay đổi này thể hiện trong kết quả tìm kiếm.
Chúng tôi hy vọng bài đăng này trên blog giúp bạn nắm rõ hơn một số quy trình phía sau công cụ xoá URL cho các trang được cập nhật. Trong bài đăng tiếp theo trên blog của chúng tôi, chúng ta sẽ xem xét các cách yêu cầu xoá nội dung mà bạn không sở hữu; hãy chú ý theo dõi!
[[["Dễ hiểu","easyToUnderstand","thumb-up"],["Giúp tôi giải quyết được vấn đề","solvedMyProblem","thumb-up"],["Khác","otherUp","thumb-up"]],[["Thiếu thông tin tôi cần","missingTheInformationINeed","thumb-down"],["Quá phức tạp/quá nhiều bước","tooComplicatedTooManySteps","thumb-down"],["Đã lỗi thời","outOfDate","thumb-down"],["Vấn đề về bản dịch","translationIssue","thumb-down"],["Vấn đề về mẫu/mã","samplesCodeIssue","thumb-down"],["Khác","otherDown","thumb-down"]],[],[[["\u003cp\u003eGoogle's search results may display outdated content even after a webpage has been updated.\u003c/p\u003e\n"],["\u003cp\u003eTo update Google's search results, you can wait for Google to recrawl the page, or request removal of the outdated content through Google's URL removal tool.\u003c/p\u003e\n"],["\u003cp\u003eIf you own the website, use Google Webmaster Tools to remove the snippet and cached page until Google recrawls the updated page.\u003c/p\u003e\n"],["\u003cp\u003eGoogle's URL removal tool does not prevent a page from ranking based on previous content, so for complete removal, consider the requirements for removal from search results altogether.\u003c/p\u003e\n"],["\u003cp\u003eTo prevent snippets or cached versions from appearing, use robots meta tags, but it's generally recommended to keep them for user experience.\u003c/p\u003e\n"]]],["To update outdated content in Google search results, first modify the live page. Then, either wait for Googlebot to re-crawl and re-index or use Google's URL removal tools. There are two options for URL removals: removing content from others' pages by specifying removed words or removing information from your own page via Google Webmaster Tools, without specifying removed words. For non-HTML content, change the file's URL. Lastly, webmasters can proactively prevent snippets and cached versions using robots meta tags.\n"],null,["# URL removals explained, part II: Removing sensitive text from a page\n\nFriday, August 06, 2010\n\n\nChange can happen---sometimes, as we saw in our\n[previous post on URL removals](/search/blog/2010/03/url-removal-explained-part-i-urls),\nyou may completely block or remove a page from your site. Other times you might only change parts\nof a page, or remove certain pieces of text. Depending on how frequently a page is being crawled,\nit can take some time before these changes get reflected in our search results. In this blog post\nwe'll look at the steps you can take if we're still showing old, removed content in our search\nresults, either in the form of a \"snippet\" or on the cached page that's linked to from the search\nresult. Doing this makes sense when the old content contains sensitive information that needs to\nbe removed quickly---it's not necessary to do this when you just update a website normally.\n\nAs an example, let's look at the following fictitious search result:\n\n|---------------------------------------------------------------------------------------------------------------------------------------------------|------------------------------|\n| **Walter** E. **Coyote** | \\\u003c Title |\n| Chief Development Officer at Acme Corp 1948-2003: worked on the top secret velocitus incalculii capturing device which has shown potential**...** | \\\u003c Snippet |\n| www.example.com/about/**waltercoyote** - Cached | \\\u003c URL + link to cached page |\n\n\nTo change the content shown in the snippet (or on the linked cached page),\n**you'll first need to change the content on the actual (live) page**. Unless a page's publicly\nvisible content is changed, Google's automatic processes will continue to show parts of the\noriginal content in our search results.\n\n\nOnce the page's content has been changed, there are several options available to make those\nchanges visible in our search results:\n\n1.\n **Wait for Googlebot to re-crawl and re-index the page**: This is the natural method for\n how most content is updated at Google. Sometimes it can take a fairly long time, depending on\n how frequently Googlebot currently crawls the page in question. Once we've re-crawled and\n re-indexed the page, the old content will usually not be visible as it'll be replaced by the\n current content. Provided Googlebot is not blocked from crawling the page in question (either\n by robots.txt or by not being able to access the server properly), you don't have to do\n anything special for this to take place. It's generally not possible to speed up crawling and\n indexing, as these processes are fully automated and depend on many external factors.\n\n2.\n Use\n [Google's public URL removal tool](https://www.google.com/webmasters/tools/removals)\n to **request removal of content that has been removed from someone else's webpage** . Using\n this tool, it's necessary to enter the\n [exact URL of the page](https://www.google.com/support/webmasters/bin/answer.py?answer=63758)\n that has been modified, select the \"Content has been removed from the page\" option, and then\n specify one or more words that have been completely removed from that page.\n\n\n Note that *none* of the words you enter can appear on the page; even if a word has been\n removed from one part of the page, your request will be denied if that word still appears on\n another part of the page. Be sure to choose a word (or words) that no longer appear\n *anywhere* on the page. If, in the above example, you removed\n \"top secret velocitus incalculii capturing device\", you should\n submit those words and not something like \"my project.\" However, if the word\n \"top\" or \"device\" still exists\n anywhere on the page, the request would be denied. To maximize your chances of success, it's\n often easiest to just enter one word that you're sure no longer appears anywhere on the page.\n\n\n Once your request has been processed and it's found that the submitted word(s) no longer\n appear on the page, the search result will no longer show a snippet, nor will the cached page\n be available. The title and the URL of the page will still be visible, and the entry may still\n appear in search results for searches related to the content that has been removed (such as\n searches for\n [velocitus incalculii](https://www.google.com/search?q=velocitus+incalculii)),\n even if those words no longer appear in the snippet. However, once the page has been\n re-crawled and re-indexed, the new snippet and cached page can be visible in our search\n results.\n\n\n Keep in mind that we will need to verify removal of the word(s) by viewing the page. If the\n page no longer exists and the server is returning a proper\n [`404` or `410` HTTP result code](https://en.wikipedia.org/wiki/List_of_HTTP_status_codes),\n making us unable to view the page, you may be better off\n [requesting removal of the page](/search/blog/2010/03/url-removal-explained-part-i-urls)\n altogether.\n3. Use Google Webmaster Tools URL removal tool to **request removal of information on a page from your website** . If you have access to the website in question and have verified ownership of it in [Google Webmaster Tools](https://search.google.com/search-console), you can use the URL removal tool there (under *Site Configuration \\\u003e Crawler access* ) to request that the snippet and the cached page be removed until the page has been re-crawled. To use this tool, you only need to submit the [exact URL of the page](https://www.google.com/support/webmasters/bin/answer.py?answer=63758) (you won't need to specify any removed words). Once your request has been processed, we'll remove the snippet and the cached page from search results. The title and the URL of the page will still be visible, and the page may also continue to rank in search results for queries related to content that has been removed. After the page has been re-crawled and re-indexed, the search result with an updated snippet and cached page (based on the new content) can be visible.\n\n\nGoogle indexes and ranks items based not only on the content of a page, but also on other external\nfactors, such as the inbound links to the URL. Because of this, it's possible for a URL to\ncontinue to appear in search results for content that no longer exists on the page, even after\nthe page has been re-crawled and re-indexed. While the URL removal tool can remove the snippet\nand the cached page from a search result, it will not change or remove the title of the search\nresult, change the URL that is shown, or prevent the page from being shown for searches based on\nany current or previous content. If this is important to you, you should make sure that the URL\nfulfills the requirements for a\n[complete removal from our search results](/search/blog/2010/03/url-removal-explained-part-i-urls).\n\nRemoving non-HTML content\n-------------------------\n\n\nIf the changed content is not in (X)HTML (for example if an image, a Flash file or a PDF file has\nbeen changed), you won't be able to use the cache removal tool. So if it's important that the old\ncontent no longer be visible in search results, the fastest solution would be to change the URL\nof the file so that the old URL returns a `404` HTTP result code and use the URL\nremoval tool to remove the old URL. Otherwise, if you chose to allow Google to naturally refresh\nyour information, know that previews of non-HTML content (such as\n[Quick View links for PDF files](https://googleblog.blogspot.com/2009/10/quickly-view-formatted-pdfs-in-your.html))\ncan take longer to update after recrawling than normal HTML pages would.\n\nProactively preventing the appearance of snippets or cached versions\n--------------------------------------------------------------------\n\n\nAs a webmaster, you have the option to use robots\n[`meta` tags](/search/docs/advanced/crawling/special-tags)\nto proactively prevent the appearance of snippets or cached versions without using our removal\ntools. While we don't recommend this as a default approach (the snippet can help users recognize a\nrelevant search result faster, and a cached page gives them the ability to view your content even\nin the unexpected event of your server not being available), you can use the \"nosnippet\" robots\n`meta` tag to\n[prevent showing of a snippet](/search/docs/crawling-indexing/robots-meta-tag#nosnippet),\nor the \"noarchive\" robots `meta` tag to disable caching of a page. Note that if this is changed on\nexisting and known pages, Googlebot will need to re-crawl and re-index those pages before this\nchange becomes visible in search results.\n\n\nWe hope this blog post helps to make some of the processes behind the URL removal tool for updated\npages a bit clearer. In our next blog post we'll look at ways to request removal of content that\nyou don't own; stay tuned!\n\n\nAs always, we welcome your feedback and questions in our\n[Webmaster Help Forum](https://support.google.com/webmasters/community/label?lid=5489e59697a233d7).\n\nOther posts of this series\n--------------------------\n\n- [Part I: Removing URLs and directories](/search/blog/2010/03/url-removal-explained-part-i-urls)\n- [Part II: Removing and updating cached content](/search/blog/2010/04/url-removals-explained-part-ii-removing)\n- [Part III: Removing content you don't own](/search/blog/2010/04/url-removal-explained-part-iii-removing)\n- [Part IV: Tracking requests, what not to remove](/search/blog/2010/05/url-removal-explained-part-iv-tracking)\n\n\nFinally, you might be also interested to read about\n[managing what information is available about you online](/search/blog/2009/10/managing-your-reputation-through-search).\n\n\nPosted by\n[John Mueller](https://twitter.com/JohnMu),\nWebmaster Trends Analyst, Google Switzerland"]]