Spiegazione sulla rimozione degli URL, parte II: rimozione del testo sensibile da una pagina
Mantieni tutto organizzato con le raccolte
Salva e classifica i contenuti in base alle tue preferenze.
Venerdì 6 agosto 2010
Le cose possono cambiare. A volte, come abbiamo visto nel post precedente sulla rimozione degli URL, potete bloccare o rimuovere completamente una pagina dal vostro sito. Altre volte potreste cambiare soltanto parti di una pagina o rimuovere alcuni frammenti di testo. A seconda della frequenza di scansione di una pagina, potrebbe trascorrere del tempo prima che le modifiche vengano riportate nei nostri risultati di ricerca. In questo post del blog esamineremo la procedura che potete svolgere se stiamo ancora visualizzando nei nostri risultati di ricerca contenuti obsoleti che sono stati rimossi, sotto forma di "snippet" o nella copia cache della pagina a cui rimanda il risultato di ricerca. Questa procedura ha senso se i contenuti obsoleti comprendono informazioni delicate che devono essere rimosse rapidamente; non è pertanto necessaria nel caso del semplice aggiornamento di un sito web.
Come esempio, prendiamo in considerazione il seguente risultato di ricerca fittizio:
Walter E. Coyote
< Titolo
Direttore generale dello sviluppo presso Acme Corp 1948-2003: ha lavorato al dispositivo di acquisizione
velocitus incalculi top secret che ha rivelato un potenziale…
< Snippet
www.example.com/about/waltercoyote - Copia cache
< URL + link alla pagina memorizzata nella cache
Per modificare i contenuti visualizzati nello snippet (o nella versione cache della pagina a cui rimanda il risultato), dovrete innanzitutto modificare i contenuti nella pagina effettiva (pubblicata). Se non vengono modificati i contenuti di una pagina pubblicamente visibili, i processi automatici di Google continueranno a visualizzare nei risultati di ricerca parti dei contenuti originali.
Dopo avere modificato i contenuti della pagina, sono a disposizione diverse soluzioni per rendere visibili le modifiche apportate nei risultati di ricerca, spiegate di seguito.
Attendere che Googlebot esegua di nuovo la scansione e l'indicizzazione della pagina:
questa è la normale modalità di aggiornamento di Google della maggior parte dei contenuti. A volte per l'aggiornamento potrebbe occorrere molto tempo, a seconda della frequenza di scansione della pagina in questione da parte di Googlebot. In seguito alla nuova scansione e indicizzazione della pagina, generalmente i vecchi contenuti non sono più visibili perché vengono sostituiti dai contenuti correnti. Se a Googlebot non viene impedito di eseguire la scansione della pagina in questione (tramite il file robots.txt o l'impossibilità di accedere in modo adeguato al server), non dovete fare nulla di speciale perché ciò avvenga. Generalmente non è possibile velocizzare la scansione e l'indicizzazione perché questi processi sono completamente automatici e dipendono da molti fattori esterni.
Utilizzare lo
strumento di rimozione degli URL pubblici di Google
per richiedere la rimozione dei contenuti che sono stati rimossi dalla pagina web di qualcun altro. Se si utilizza questo strumento è necessario inserire
l'URL esatto della pagina
modificata, selezionare l'opzione "I contenuti sono stati rimossi dalla pagina", quindi specificare una o più parole che sono state completamente rimosse dalla pagina.
Tenete presente che nessuna delle parole specificate può essere presente nella pagina; se una parola è stata rimossa da una parte della pagina, ma è ancora presente in un altro punto della stessa pagina, la richiesta verrà rifiutata. Assicuratevi di scegliere una o più parole che non sono più presenti in nessun punto della pagina. Se, nell'esempio sopra, avete rimosso "top secret velocitus incalculii capturing device", dovreste inviare queste parole e non qualcosa del tipo "il mio progetto". Tuttavia, se la parola "top" o "device" esiste ancora in qualsiasi punto della pagina, la richiesta verrebbe rifiutata. Per aumentare al massimo le vostre possibilità di successo, spesso la soluzione più facile è inserire semplicemente una parola che sicuramente non è più visualizzata in altri punti della pagina.
Quando la richiesta sarà stata evasa e sarà emerso che la parola inviata non è più visualizzata nella pagina, il risultato di ricerca non mostrerà più uno snippet e la copia cache della pagina non sarà più disponibile. Il titolo e l'URL della pagina saranno ancora visibili e la voce potrebbe continuare a essere visualizzata nei risultati di ricerca relativi alle ricerche correlate ai contenuti che sono stati rimossi (ad esempio, ricerche per
velocitus incalculii),
anche se queste parole non sono più visualizzate nello snippet. Tuttavia, una volta che la pagina sarà stata nuovamente sottoposta a scansione e indicizzazione, lo snippet aggiornato e la pagina memorizzata nella cache potranno essere visibili nei nostri risultati di ricerca.
Tenete presente che dovremo verificare la rimozione delle parole visualizzando la pagina. Se la pagina non esiste più e il server restituisce un codice risultato HTTP 404 o 410 appropriato che ci rende impossibile visualizzare la pagina, potrebbe essere meglio richiedere la rimozione di tutta la pagina.
Utilizza lo strumento per la rimozione degli URL di Strumenti per i Webmaster di Google per richiedere la rimozione di informazioni su una pagina dal vostro sito web. Se avete accesso al sito web in questione e ne avete verificato la proprietà in Strumenti per i Webmaster di Google, potete utilizzare lo strumento per la rimozione degli URL al suo interno (in Configurazione del sito > Accesso del crawler) per richiedere la rimozione dello snippet e della pagina memorizzata nella cache fino alla nuova scansione della pagina. Per utilizzare questo strumento dovete inviare soltanto l'URL esatto della pagina (non occorre specificare parole rimosse). Una volta che la vostra richiesta sarà stata evasa, rimuoveremo lo snippet e la copia cache della pagina dai risultati di ricerca. Il titolo e l'URL della pagina saranno ancora visibili e la pagina potrebbe continuare a essere posizionata nei risultati di ricerca per le query relative ai contenuti rimossi. Dopo la nuova scansione e indicizzazione della pagina il risultato di ricerca con lo snippet e la copia cache della pagina aggiornati (basati sui nuovi contenuti) potrà essere visibile.
Google indicizza e posiziona le voci non soltanto in base ai contenuti di una pagina ma anche in base ad altri fattori esterni quali i link in ingresso che rimandano all'URL. Per questo motivo è possibile che un URL continui a essere visualizzato nei risultati di ricerca per contenuti che non esistono più nella pagina anche dopo la nuova scansione e indicizzazione della pagina. Lo strumento per la rimozione di URL consente di rimuovere lo snippet e la copia cache della pagina da un risultato di ricerca, ma non consente di modificare o rimuovere il titolo del risultato di ricerca, di modificare l'URL visualizzato o di impedire la visualizzazione della pagina per ricerche basate su contenuti attuali o precedenti. Se questo è importante per voi, dovreste verificare che l'URL soddisfi i requisiti per la rimozione completa dai risultati di ricerca.
Rimozione di contenuti in formato diverso da HTML
Se i contenuti modificati non sono in formato (X)HTML (ad esempio se l'elemento modificato è un'immagine, un file Flash o un file PDF), non potrete utilizzare lo strumento per la rimozione dalla cache. Di conseguenza, se è importante che i vecchi contenuti non siano più visibili nei risultati di ricerca, la soluzione più veloce sarebbe modificare l'URL del file in modo che l'URL precedente restituisca un codice risultato HTTP 404 e utilizzare lo strumento per le rimozioni di URL per rimuovere il vecchio URL. Se invece avete scelto di consentire a Google di aggiornare naturalmente le vostre informazioni, dovete sapere che l'aggiornamento delle anteprime dei contenuti in formato diverso da HTML (come i link Anteprima per i file PDF) dopo la nuova scansione potrebbe richiedere più tempo rispetto all'aggiornamento delle normali pagine HTML.
Impedire preventivamente la visualizzazione di snippet o versioni cache
I webmaster possono utilizzare i tagmeta robots per impedire preventivamente la visualizzazione di snippet o versioni cache senza utilizzare il nostro strumento per le rimozioni. Non consigliamo di adottare questa soluzione come approccio predefinito (lo snippet può consentire agli utenti di riconoscere più velocemente un risultato di ricerca pertinente, mentre la copia cache della pagina consente loro di visualizzare i contenuti anche nel caso in cui il server non sia disponibile), ma potete utilizzare il tag meta robots "nosnippet" per impedire la visualizzazione di uno snippet oppure il tag metarobots "noarchive" per disattivare la memorizzazione nella cache di una pagina. Tenete presente che se apportate modifiche per pagine esistenti e note, Googlebot dovrà eseguire nuovamente la scansione e l'indicizzazione di queste pagine perché le modifiche diventino visibili nei risultati di ricerca.
Ci auguriamo che questo post del blog serva a rendere un po' più chiari alcuni dei processi legati allo strumento per le rimozioni degli URL per le pagine aggiornate. Nel nostro prossimo post del blog esamineremo i metodi disponibili per la richiesta di rimozione di contenuti non di vostra proprietà, quindi continuate a seguirci.
[[["Facile da capire","easyToUnderstand","thumb-up"],["Il problema è stato risolto","solvedMyProblem","thumb-up"],["Altra","otherUp","thumb-up"]],[["Mancano le informazioni di cui ho bisogno","missingTheInformationINeed","thumb-down"],["Troppo complicato/troppi passaggi","tooComplicatedTooManySteps","thumb-down"],["Obsoleti","outOfDate","thumb-down"],["Problema di traduzione","translationIssue","thumb-down"],["Problema relativo a esempi/codice","samplesCodeIssue","thumb-down"],["Altra","otherDown","thumb-down"]],[],[[["\u003cp\u003eGoogle's search results may display outdated content even after a webpage has been updated.\u003c/p\u003e\n"],["\u003cp\u003eTo update Google's search results, you can wait for Google to recrawl the page, or request removal of the outdated content through Google's URL removal tool.\u003c/p\u003e\n"],["\u003cp\u003eIf you own the website, use Google Webmaster Tools to remove the snippet and cached page until Google recrawls the updated page.\u003c/p\u003e\n"],["\u003cp\u003eGoogle's URL removal tool does not prevent a page from ranking based on previous content, so for complete removal, consider the requirements for removal from search results altogether.\u003c/p\u003e\n"],["\u003cp\u003eTo prevent snippets or cached versions from appearing, use robots meta tags, but it's generally recommended to keep them for user experience.\u003c/p\u003e\n"]]],["To update outdated content in Google search results, first modify the live page. Then, either wait for Googlebot to re-crawl and re-index or use Google's URL removal tools. There are two options for URL removals: removing content from others' pages by specifying removed words or removing information from your own page via Google Webmaster Tools, without specifying removed words. For non-HTML content, change the file's URL. Lastly, webmasters can proactively prevent snippets and cached versions using robots meta tags.\n"],null,["# URL removals explained, part II: Removing sensitive text from a page\n\nFriday, August 06, 2010\n\n\nChange can happen---sometimes, as we saw in our\n[previous post on URL removals](/search/blog/2010/03/url-removal-explained-part-i-urls),\nyou may completely block or remove a page from your site. Other times you might only change parts\nof a page, or remove certain pieces of text. Depending on how frequently a page is being crawled,\nit can take some time before these changes get reflected in our search results. In this blog post\nwe'll look at the steps you can take if we're still showing old, removed content in our search\nresults, either in the form of a \"snippet\" or on the cached page that's linked to from the search\nresult. Doing this makes sense when the old content contains sensitive information that needs to\nbe removed quickly---it's not necessary to do this when you just update a website normally.\n\nAs an example, let's look at the following fictitious search result:\n\n|---------------------------------------------------------------------------------------------------------------------------------------------------|------------------------------|\n| **Walter** E. **Coyote** | \\\u003c Title |\n| Chief Development Officer at Acme Corp 1948-2003: worked on the top secret velocitus incalculii capturing device which has shown potential**...** | \\\u003c Snippet |\n| www.example.com/about/**waltercoyote** - Cached | \\\u003c URL + link to cached page |\n\n\nTo change the content shown in the snippet (or on the linked cached page),\n**you'll first need to change the content on the actual (live) page**. Unless a page's publicly\nvisible content is changed, Google's automatic processes will continue to show parts of the\noriginal content in our search results.\n\n\nOnce the page's content has been changed, there are several options available to make those\nchanges visible in our search results:\n\n1.\n **Wait for Googlebot to re-crawl and re-index the page**: This is the natural method for\n how most content is updated at Google. Sometimes it can take a fairly long time, depending on\n how frequently Googlebot currently crawls the page in question. Once we've re-crawled and\n re-indexed the page, the old content will usually not be visible as it'll be replaced by the\n current content. Provided Googlebot is not blocked from crawling the page in question (either\n by robots.txt or by not being able to access the server properly), you don't have to do\n anything special for this to take place. It's generally not possible to speed up crawling and\n indexing, as these processes are fully automated and depend on many external factors.\n\n2.\n Use\n [Google's public URL removal tool](https://www.google.com/webmasters/tools/removals)\n to **request removal of content that has been removed from someone else's webpage** . Using\n this tool, it's necessary to enter the\n [exact URL of the page](https://www.google.com/support/webmasters/bin/answer.py?answer=63758)\n that has been modified, select the \"Content has been removed from the page\" option, and then\n specify one or more words that have been completely removed from that page.\n\n\n Note that *none* of the words you enter can appear on the page; even if a word has been\n removed from one part of the page, your request will be denied if that word still appears on\n another part of the page. Be sure to choose a word (or words) that no longer appear\n *anywhere* on the page. If, in the above example, you removed\n \"top secret velocitus incalculii capturing device\", you should\n submit those words and not something like \"my project.\" However, if the word\n \"top\" or \"device\" still exists\n anywhere on the page, the request would be denied. To maximize your chances of success, it's\n often easiest to just enter one word that you're sure no longer appears anywhere on the page.\n\n\n Once your request has been processed and it's found that the submitted word(s) no longer\n appear on the page, the search result will no longer show a snippet, nor will the cached page\n be available. The title and the URL of the page will still be visible, and the entry may still\n appear in search results for searches related to the content that has been removed (such as\n searches for\n [velocitus incalculii](https://www.google.com/search?q=velocitus+incalculii)),\n even if those words no longer appear in the snippet. However, once the page has been\n re-crawled and re-indexed, the new snippet and cached page can be visible in our search\n results.\n\n\n Keep in mind that we will need to verify removal of the word(s) by viewing the page. If the\n page no longer exists and the server is returning a proper\n [`404` or `410` HTTP result code](https://en.wikipedia.org/wiki/List_of_HTTP_status_codes),\n making us unable to view the page, you may be better off\n [requesting removal of the page](/search/blog/2010/03/url-removal-explained-part-i-urls)\n altogether.\n3. Use Google Webmaster Tools URL removal tool to **request removal of information on a page from your website** . If you have access to the website in question and have verified ownership of it in [Google Webmaster Tools](https://search.google.com/search-console), you can use the URL removal tool there (under *Site Configuration \\\u003e Crawler access* ) to request that the snippet and the cached page be removed until the page has been re-crawled. To use this tool, you only need to submit the [exact URL of the page](https://www.google.com/support/webmasters/bin/answer.py?answer=63758) (you won't need to specify any removed words). Once your request has been processed, we'll remove the snippet and the cached page from search results. The title and the URL of the page will still be visible, and the page may also continue to rank in search results for queries related to content that has been removed. After the page has been re-crawled and re-indexed, the search result with an updated snippet and cached page (based on the new content) can be visible.\n\n\nGoogle indexes and ranks items based not only on the content of a page, but also on other external\nfactors, such as the inbound links to the URL. Because of this, it's possible for a URL to\ncontinue to appear in search results for content that no longer exists on the page, even after\nthe page has been re-crawled and re-indexed. While the URL removal tool can remove the snippet\nand the cached page from a search result, it will not change or remove the title of the search\nresult, change the URL that is shown, or prevent the page from being shown for searches based on\nany current or previous content. If this is important to you, you should make sure that the URL\nfulfills the requirements for a\n[complete removal from our search results](/search/blog/2010/03/url-removal-explained-part-i-urls).\n\nRemoving non-HTML content\n-------------------------\n\n\nIf the changed content is not in (X)HTML (for example if an image, a Flash file or a PDF file has\nbeen changed), you won't be able to use the cache removal tool. So if it's important that the old\ncontent no longer be visible in search results, the fastest solution would be to change the URL\nof the file so that the old URL returns a `404` HTTP result code and use the URL\nremoval tool to remove the old URL. Otherwise, if you chose to allow Google to naturally refresh\nyour information, know that previews of non-HTML content (such as\n[Quick View links for PDF files](https://googleblog.blogspot.com/2009/10/quickly-view-formatted-pdfs-in-your.html))\ncan take longer to update after recrawling than normal HTML pages would.\n\nProactively preventing the appearance of snippets or cached versions\n--------------------------------------------------------------------\n\n\nAs a webmaster, you have the option to use robots\n[`meta` tags](/search/docs/advanced/crawling/special-tags)\nto proactively prevent the appearance of snippets or cached versions without using our removal\ntools. While we don't recommend this as a default approach (the snippet can help users recognize a\nrelevant search result faster, and a cached page gives them the ability to view your content even\nin the unexpected event of your server not being available), you can use the \"nosnippet\" robots\n`meta` tag to\n[prevent showing of a snippet](/search/docs/crawling-indexing/robots-meta-tag#nosnippet),\nor the \"noarchive\" robots `meta` tag to disable caching of a page. Note that if this is changed on\nexisting and known pages, Googlebot will need to re-crawl and re-index those pages before this\nchange becomes visible in search results.\n\n\nWe hope this blog post helps to make some of the processes behind the URL removal tool for updated\npages a bit clearer. In our next blog post we'll look at ways to request removal of content that\nyou don't own; stay tuned!\n\n\nAs always, we welcome your feedback and questions in our\n[Webmaster Help Forum](https://support.google.com/webmasters/community/label?lid=5489e59697a233d7).\n\nOther posts of this series\n--------------------------\n\n- [Part I: Removing URLs and directories](/search/blog/2010/03/url-removal-explained-part-i-urls)\n- [Part II: Removing and updating cached content](/search/blog/2010/04/url-removals-explained-part-ii-removing)\n- [Part III: Removing content you don't own](/search/blog/2010/04/url-removal-explained-part-iii-removing)\n- [Part IV: Tracking requests, what not to remove](/search/blog/2010/05/url-removal-explained-part-iv-tracking)\n\n\nFinally, you might be also interested to read about\n[managing what information is available about you online](/search/blog/2009/10/managing-your-reputation-through-search).\n\n\nPosted by\n[John Mueller](https://twitter.com/JohnMu),\nWebmaster Trends Analyst, Google Switzerland"]]