Explicação sobre a remoção de URLs, parte II: remoção de texto confidencial de uma página
Mantenha tudo organizado com as coleções
Salve e categorize o conteúdo com base nas suas preferências.
Sexta-feira, 6 de agosto de 2010
Às vezes, mudanças podem acontecer. Como discutimos na
postagem anterior sobre remoções de URLs,
você pode bloquear ou remover completamente uma página do seu site. Outras vezes, você pode mudar apenas partes
de uma página ou remover determinados trechos de texto. Dependendo da frequência com que uma página é rastreada,
pode levar algum tempo para que essas mudanças sejam refletidas nos resultados da pesquisa. Nesta postagem do blog, veremos as etapas que você pode seguir se ainda mostrarmos conteúdo antigo e removido nos resultados
da pesquisa, seja na forma de um "snippet" ou na página em cache vinculada ao resultado da pesquisa. Isso é útil quando o conteúdo antigo contém informações sensíveis que precisam ser
removidas rapidamente. Não é necessário fazer isso ao atualizar um site normalmente.
Como exemplo, veja o seguinte resultado de pesquisa fictício:
Walter E. Coyote
< Título
Diretor de desenvolvimento da Acme Corp 1948-2003: trabalhou no
dispositivo secreto velocitus incalculii que demonstrou potencial...
< Snippet
www.example.com/about/waltercoyote - Em cache
< URL + link para a página em cache
Para mudar o conteúdo exibido no snippet (ou na página em cache vinculada),
primeiro você precisa alterar o conteúdo na página real (ativa). A menos que o conteúdo publicamente visível de uma página seja alterado, os processos automáticos do Google vão continuar mostrando partes do conteúdo original nos resultados da pesquisa.
Depois que o conteúdo da página for alterado, há várias opções disponíveis para tornar essas
mudanças visíveis nos nossos resultados da pesquisa:
Espere o Googlebot rastrear e indexar novamente a página: esse é o método natural de
como a maior parte do conteúdo é atualizada no Google. Às vezes, isso pode demorar bastante, dependendo da
frequência em que o Googlebot rastreia a página em questão. Depois de rastrear e
indexar novamente a página, o conteúdo antigo geralmente não ficará visível, porque será substituído pelo
conteúdo atual. Desde que o Googlebot não esteja bloqueado para rastrear a página em questão (por
robots.txt ou por não conseguir acessar o servidor corretamente), você não precisará fazer
nada especial para que isso aconteça. Geralmente, não é possível acelerar o rastreamento e
a indexação, porque esses processos são totalmente automatizados e dependem de muitos fatores externos.
Use a
Ferramenta de remoção de URL público do Google
para solicitar a remoção de conteúdo que foi removido da página da Web de outra pessoa. Usando
essa ferramenta, é necessário inserir o
URL exato da página
que foi modificada, selecionar a opção "O conteúdo foi removido da página" e depois
especificar uma ou mais palavras que foram completamente removidas dessa página.
Nenhuma das palavras que você inserir vai aparecer na página. Mesmo que uma palavra tenha sido
removida de uma parte da página, sua solicitação vai ser negada se essa palavra ainda aparecer em
outra parte da página. Escolha uma ou mais palavras que não aparecem mais em nenhum lugar da página. No exemplo acima, se você removeu
"top secret velocitus incalculii capturing device", envie
essas palavras e não algo como "meu projeto". No entanto, se a palavra "top" ou "device" ainda existir em algum lugar da página, a solicitação vai ser negada. Para aumentar as suas chances de sucesso, muitas vezes é mais fácil inserir apenas uma palavra que você tem certeza de que não aparece mais em nenhum lugar da página.
Uma vez que sua solicitação tenha sido processada e for verificado que as palavras enviadas não aparecem mais na página, o resultado de pesquisa não vai mostrar mais um snippet e a página em cache não vai estar mais disponível. O título e o URL da página ainda vão ficar visíveis, e talvez a entrada ainda apareça nos resultados das pesquisas relacionadas ao conteúdo que foi removido (como pesquisas por velocitus incalculii), mesmo se essas palavras não aparecerem mais no snippet. No entanto, assim que a página for
rastreada e indexada novamente, o novo snippet e a página em cache vão ficar visíveis nos resultados
da pesquisa.
Lembre-se que precisaremos verificar a remoção das palavras visualizando a página. Se a
página não existir mais e o servidor estiver retornando um
código de resultado HTTP
404 ou 410 adequado,
o que nos impede de ver a página, talvez seja melhor
solicitar a remoção da página
completamente.
Use a Ferramenta de remoção de URL das Ferramentas do Google para webmasters para
solicitar a remoção de informações em uma página do seu site. Se você tiver acesso ao
site em questão e tiver confirmado a propriedade dele nas
Ferramentas do Google para webmasters,
poderá usar a ferramenta de remoção de URL (em
Configuração do site > Acesso do rastreador) para solicitar que o snippet e a página em cache sejam removidos até que a página seja rastreada novamente. Para usar essa
ferramenta, basta enviar o
URL exato da página
(não é necessário especificar palavras removidas). Quando o pedido for processado,
removeremos o snippet e a página em cache dos resultados da pesquisa. O título e o URL da página
ainda ficarão visíveis, e a página poderá continuar sendo classificada nos resultados das pesquisas
relacionadas ao conteúdo removido. Depois que a página for rastreada e indexada novamente,
o resultado da pesquisa com um snippet atualizado e uma página em cache (com base no novo conteúdo) poderá
ficar visível.
Além do conteúdo da página, o Google também considera fatores externos
ao indexar e classificar itens, como os links de entrada para o URL. Por isso, é possível que um URL
continue a aparecer nos resultados da pesquisa para conteúdo que não exista mais na página, mesmo depois
de ela ser rastreada e indexada novamente. Embora a ferramenta de remoção de URL possa remover o snippet e a página em cache de um resultado de pesquisa, ele não altera ou remove o título do resultado, não modifica o URL exibido nem impede que a página seja mostrada em pesquisas baseadas
em qualquer conteúdo atual ou anterior. Caso isso seja importante para você, confira se o URL
atende aos requisitos para uma
remoção completa dos nossos resultados da pesquisa.
Como remover conteúdo não HTML
Se o conteúdo alterado não estiver em (X)HTML (por exemplo, se uma imagem, um arquivo Flash ou um arquivo PDF tiver sido
alterado), você não vai poder usar a ferramenta de remoção de cache. Portanto, se for importante que o conteúdo antigo não esteja mais visível nos resultados da pesquisa, a solução mais rápida é mudar o URL do arquivo para que o URL antigo retorne um código de resultado HTTP 404 e usar a Ferramenta de remoção de URL para removê-lo. Caso você tenha permitido que o Google atualize
naturalmente suas informações, as visualizações de conteúdo não HTML (como
links de visualização rápida para arquivos PDF)
podem demorar mais tempo para atualizar após um novo rastreamento do que as páginas HTML normais.
Prevenção proativa de exibição de snippets ou versões em cache
Como webmaster, você tem a opção de usar
tags robots meta
para evitar a exibição de snippets ou versões em cache sem usar nossas ferramentas de
remoção. Você pode usar a tag robots "nosnippet" meta para impedir a exibição de um snippet ou a tag "noarchive" robotsmeta para desativar o armazenamento em cache de uma página. No entanto, essa abordagem não é recomendada como padrão, porque o snippet pode ajudar os usuários a reconhecer um resultado da pesquisa relevante mais rapidamente e a página em cache permite visualizar o conteúdo mesmo no evento inesperado do seu servidor não estar disponível. Se isso for alterado em
páginas existentes e conhecidas, o Googlebot vai precisa rastrear e indexar novamente essas páginas antes que essa mudança se torne visível nos resultados da pesquisa.
Esperamos que esta postagem do blog ajude a esclarecer alguns dos processos por trás da ferramenta de remoção de URL para páginas atualizadas. Na próxima postagem, veremos maneiras de solicitar a remoção de conteúdo que não é seu. Aguarde!
[[["Fácil de entender","easyToUnderstand","thumb-up"],["Meu problema foi resolvido","solvedMyProblem","thumb-up"],["Outro","otherUp","thumb-up"]],[["Não contém as informações de que eu preciso","missingTheInformationINeed","thumb-down"],["Muito complicado / etapas demais","tooComplicatedTooManySteps","thumb-down"],["Desatualizado","outOfDate","thumb-down"],["Problema na tradução","translationIssue","thumb-down"],["Problema com as amostras / o código","samplesCodeIssue","thumb-down"],["Outro","otherDown","thumb-down"]],[],[[["\u003cp\u003eGoogle's search results may display outdated content even after a webpage has been updated.\u003c/p\u003e\n"],["\u003cp\u003eTo update Google's search results, you can wait for Google to recrawl the page, or request removal of the outdated content through Google's URL removal tool.\u003c/p\u003e\n"],["\u003cp\u003eIf you own the website, use Google Webmaster Tools to remove the snippet and cached page until Google recrawls the updated page.\u003c/p\u003e\n"],["\u003cp\u003eGoogle's URL removal tool does not prevent a page from ranking based on previous content, so for complete removal, consider the requirements for removal from search results altogether.\u003c/p\u003e\n"],["\u003cp\u003eTo prevent snippets or cached versions from appearing, use robots meta tags, but it's generally recommended to keep them for user experience.\u003c/p\u003e\n"]]],["To update outdated content in Google search results, first modify the live page. Then, either wait for Googlebot to re-crawl and re-index or use Google's URL removal tools. There are two options for URL removals: removing content from others' pages by specifying removed words or removing information from your own page via Google Webmaster Tools, without specifying removed words. For non-HTML content, change the file's URL. Lastly, webmasters can proactively prevent snippets and cached versions using robots meta tags.\n"],null,["# URL removals explained, part II: Removing sensitive text from a page\n\nFriday, August 06, 2010\n\n\nChange can happen---sometimes, as we saw in our\n[previous post on URL removals](/search/blog/2010/03/url-removal-explained-part-i-urls),\nyou may completely block or remove a page from your site. Other times you might only change parts\nof a page, or remove certain pieces of text. Depending on how frequently a page is being crawled,\nit can take some time before these changes get reflected in our search results. In this blog post\nwe'll look at the steps you can take if we're still showing old, removed content in our search\nresults, either in the form of a \"snippet\" or on the cached page that's linked to from the search\nresult. Doing this makes sense when the old content contains sensitive information that needs to\nbe removed quickly---it's not necessary to do this when you just update a website normally.\n\nAs an example, let's look at the following fictitious search result:\n\n|---------------------------------------------------------------------------------------------------------------------------------------------------|------------------------------|\n| **Walter** E. **Coyote** | \\\u003c Title |\n| Chief Development Officer at Acme Corp 1948-2003: worked on the top secret velocitus incalculii capturing device which has shown potential**...** | \\\u003c Snippet |\n| www.example.com/about/**waltercoyote** - Cached | \\\u003c URL + link to cached page |\n\n\nTo change the content shown in the snippet (or on the linked cached page),\n**you'll first need to change the content on the actual (live) page**. Unless a page's publicly\nvisible content is changed, Google's automatic processes will continue to show parts of the\noriginal content in our search results.\n\n\nOnce the page's content has been changed, there are several options available to make those\nchanges visible in our search results:\n\n1.\n **Wait for Googlebot to re-crawl and re-index the page**: This is the natural method for\n how most content is updated at Google. Sometimes it can take a fairly long time, depending on\n how frequently Googlebot currently crawls the page in question. Once we've re-crawled and\n re-indexed the page, the old content will usually not be visible as it'll be replaced by the\n current content. Provided Googlebot is not blocked from crawling the page in question (either\n by robots.txt or by not being able to access the server properly), you don't have to do\n anything special for this to take place. It's generally not possible to speed up crawling and\n indexing, as these processes are fully automated and depend on many external factors.\n\n2.\n Use\n [Google's public URL removal tool](https://www.google.com/webmasters/tools/removals)\n to **request removal of content that has been removed from someone else's webpage** . Using\n this tool, it's necessary to enter the\n [exact URL of the page](https://www.google.com/support/webmasters/bin/answer.py?answer=63758)\n that has been modified, select the \"Content has been removed from the page\" option, and then\n specify one or more words that have been completely removed from that page.\n\n\n Note that *none* of the words you enter can appear on the page; even if a word has been\n removed from one part of the page, your request will be denied if that word still appears on\n another part of the page. Be sure to choose a word (or words) that no longer appear\n *anywhere* on the page. If, in the above example, you removed\n \"top secret velocitus incalculii capturing device\", you should\n submit those words and not something like \"my project.\" However, if the word\n \"top\" or \"device\" still exists\n anywhere on the page, the request would be denied. To maximize your chances of success, it's\n often easiest to just enter one word that you're sure no longer appears anywhere on the page.\n\n\n Once your request has been processed and it's found that the submitted word(s) no longer\n appear on the page, the search result will no longer show a snippet, nor will the cached page\n be available. The title and the URL of the page will still be visible, and the entry may still\n appear in search results for searches related to the content that has been removed (such as\n searches for\n [velocitus incalculii](https://www.google.com/search?q=velocitus+incalculii)),\n even if those words no longer appear in the snippet. However, once the page has been\n re-crawled and re-indexed, the new snippet and cached page can be visible in our search\n results.\n\n\n Keep in mind that we will need to verify removal of the word(s) by viewing the page. If the\n page no longer exists and the server is returning a proper\n [`404` or `410` HTTP result code](https://en.wikipedia.org/wiki/List_of_HTTP_status_codes),\n making us unable to view the page, you may be better off\n [requesting removal of the page](/search/blog/2010/03/url-removal-explained-part-i-urls)\n altogether.\n3. Use Google Webmaster Tools URL removal tool to **request removal of information on a page from your website** . If you have access to the website in question and have verified ownership of it in [Google Webmaster Tools](https://search.google.com/search-console), you can use the URL removal tool there (under *Site Configuration \\\u003e Crawler access* ) to request that the snippet and the cached page be removed until the page has been re-crawled. To use this tool, you only need to submit the [exact URL of the page](https://www.google.com/support/webmasters/bin/answer.py?answer=63758) (you won't need to specify any removed words). Once your request has been processed, we'll remove the snippet and the cached page from search results. The title and the URL of the page will still be visible, and the page may also continue to rank in search results for queries related to content that has been removed. After the page has been re-crawled and re-indexed, the search result with an updated snippet and cached page (based on the new content) can be visible.\n\n\nGoogle indexes and ranks items based not only on the content of a page, but also on other external\nfactors, such as the inbound links to the URL. Because of this, it's possible for a URL to\ncontinue to appear in search results for content that no longer exists on the page, even after\nthe page has been re-crawled and re-indexed. While the URL removal tool can remove the snippet\nand the cached page from a search result, it will not change or remove the title of the search\nresult, change the URL that is shown, or prevent the page from being shown for searches based on\nany current or previous content. If this is important to you, you should make sure that the URL\nfulfills the requirements for a\n[complete removal from our search results](/search/blog/2010/03/url-removal-explained-part-i-urls).\n\nRemoving non-HTML content\n-------------------------\n\n\nIf the changed content is not in (X)HTML (for example if an image, a Flash file or a PDF file has\nbeen changed), you won't be able to use the cache removal tool. So if it's important that the old\ncontent no longer be visible in search results, the fastest solution would be to change the URL\nof the file so that the old URL returns a `404` HTTP result code and use the URL\nremoval tool to remove the old URL. Otherwise, if you chose to allow Google to naturally refresh\nyour information, know that previews of non-HTML content (such as\n[Quick View links for PDF files](https://googleblog.blogspot.com/2009/10/quickly-view-formatted-pdfs-in-your.html))\ncan take longer to update after recrawling than normal HTML pages would.\n\nProactively preventing the appearance of snippets or cached versions\n--------------------------------------------------------------------\n\n\nAs a webmaster, you have the option to use robots\n[`meta` tags](/search/docs/advanced/crawling/special-tags)\nto proactively prevent the appearance of snippets or cached versions without using our removal\ntools. While we don't recommend this as a default approach (the snippet can help users recognize a\nrelevant search result faster, and a cached page gives them the ability to view your content even\nin the unexpected event of your server not being available), you can use the \"nosnippet\" robots\n`meta` tag to\n[prevent showing of a snippet](/search/docs/crawling-indexing/robots-meta-tag#nosnippet),\nor the \"noarchive\" robots `meta` tag to disable caching of a page. Note that if this is changed on\nexisting and known pages, Googlebot will need to re-crawl and re-index those pages before this\nchange becomes visible in search results.\n\n\nWe hope this blog post helps to make some of the processes behind the URL removal tool for updated\npages a bit clearer. In our next blog post we'll look at ways to request removal of content that\nyou don't own; stay tuned!\n\n\nAs always, we welcome your feedback and questions in our\n[Webmaster Help Forum](https://support.google.com/webmasters/community/label?lid=5489e59697a233d7).\n\nOther posts of this series\n--------------------------\n\n- [Part I: Removing URLs and directories](/search/blog/2010/03/url-removal-explained-part-i-urls)\n- [Part II: Removing and updating cached content](/search/blog/2010/04/url-removals-explained-part-ii-removing)\n- [Part III: Removing content you don't own](/search/blog/2010/04/url-removal-explained-part-iii-removing)\n- [Part IV: Tracking requests, what not to remove](/search/blog/2010/05/url-removal-explained-part-iv-tracking)\n\n\nFinally, you might be also interested to read about\n[managing what information is available about you online](/search/blog/2009/10/managing-your-reputation-through-search).\n\n\nPosted by\n[John Mueller](https://twitter.com/JohnMu),\nWebmaster Trends Analyst, Google Switzerland"]]