Suppression d'URL (partie II) : suppression de texte à caractère sensible sur une page
Restez organisé à l'aide des collections
Enregistrez et classez les contenus selon vos préférences.
Vendredi 6 août 2010
Tout le monde peut changer d'avis. Il arrive, comme nous l'avons vu dans notre message précédent concernant les suppressions d'URL, que vous décidiez de bloquer ou de supprimer l'intégralité d'une page sur votre site. À d'autres moments, vous pouvez avoir envie de ne modifier qu'une partie d'une page ou de supprimer certaines portions de texte. L'apparition de ces modifications dans nos résultats de recherche peut prendre un certain temps, en fonction de la fréquence à laquelle la page est explorée. Dans ce message, nous vous présenterons la marche à suivre si un contenu obsolète ou inexistant s'affiche toujours dans nos résultats de recherche, que ce soit sous la forme d'un "extrait" ou par l'intermédiaire d'un lien menant à une page en cache. Cette procédure est utile lorsque les anciennes données contiennent des informations confidentielles devant être supprimées sur-le-champ. En revanche, vous n'êtes pas tenu de l'appliquer si vous devez simplement mettre à jour un site Web.
Prenons comme exemple un résultat de recherche fictif :
VilCoyote
< Titre
Responsable du développement chez Tartampion (1948 - 2003) : a travaillé sur le dispositif top secret pour la capture du Velocitus Incalculii, qui a montré tout son potentiel en matière de...
< Extrait
www.example.com/about/vilcoyote - En cache
< URL + lien vers la page cache
Pour modifier le texte affiché dans l'extrait (ou sur la page en cache proposée en lien), vous devez d'abord modifier le contenu figurant sur la page disponible en ligne. Sinon, des portions du texte d'origine continueront d'apparaître automatiquement dans les résultats de recherche Google.
Après avoir modifié le contenu de la page, vous avez le choix entre différentes options pour faire apparaître les changements dans nos résultats de recherche :
Attendez que Googlebot explore et réindexe la page. Il s'agit de la méthode la plus naturelle pour mettre à jour la plupart des contenus Google. Elle peut prendre un certain temps, en fonction de la fréquence à laquelle Googlebot explore la page en question. Une fois que nous avons de nouveau exploré et indexé la page, l'ancien contenu est remplacé par le nouveau et n'est donc plus visible. Si l'exploration de la page par Googlebot n'est pas bloquée (que ce soit par un fichier robots.txt ou en raison d'un problème d'accès au serveur), vous n'avez rien à faire de particulier. Il est généralement impossible d'accélérer l'exploration et l'indexation, car ces processus entièrement automatisés dépendent de nombreux facteurs externes.
Utilisez l'outil public de demande de suppression d'URL de Google pour demander la suppression d'un contenu qui a été retiré de la page Web d'une autre personne. Avec cet outil, vous devez saisir l'URL exacte de la page qui a été modifiée, sélectionner l'option "Le contenu a déjà été supprimé de la page", puis indiquer un ou plusieurs termes ayant déjà été supprimés sur la page.
Notez qu'aucun des termes que vous indiquez ne doit figurer sur la page. Même si un terme a été supprimé dans une partie de la page, s'il apparaît ailleurs sur cette même page, votre demande sera refusée. Veillez à choisir un ou plusieurs termes qui ne figurent plus du tout sur la page. Si, dans l'exemple ci-dessus, vous avez supprimé "top secret velocitus incalculii capturing device", vous devez utiliser ces mots et non "mon projet". Toutefois, si le mot "top" ou "device" existe toujours n'importe où sur la page, la requête sera refusée. Pour optimiser vos chances de réussite, il est parfois plus simple de ne saisir qu'un seul mot, si vous êtes certain qu'il ne figure plus sur la page.
À l'issue du traitement de votre demande et après vérification de la suppression des termes indiqués sur la page, le résultat de recherche ne proposera plus d'extrait et la page en cache ne sera pas disponible. Le titre et l'URL de la page restent visibles. Ils peuvent par ailleurs s'afficher dans les résultats de recherche si un internaute effectue une recherche sur le contenu supprimé (velocitus incalculii, par exemple), même si les termes qu'il saisit ne figurent plus dans l'extrait. Toutefois, dès que la page aura été explorée et indexée de nouveau, les mises à jour de l'extrait et du cache seront visibles dans les résultats de recherche.
N'oubliez pas que pour vérifier la suppression des termes de votre page, nous avons besoin de l'afficher. Si la page n'existe plus et si le serveur renvoie un code d'état HTTP 404 ou 410, ce qui signifie que la page ne peut pas être affichée, nous vous conseillons de demander à supprimer l'intégralité de la page.
Utilisez l'outil de demande de suppression d'URL dans les outils Google pour les webmasters pour demander la suppression d'informations sur une page de votre site Web. Si vous avez accès au site Web concerné et avez confirmé que vous en êtes le propriétaire dans les outils Google pour les webmasters, vous pouvez utiliser l'outil de demande de suppression d'URL, disponible sous Configuration du site > Accès du robot d'exploration. Vous pourrez ainsi demander la suppression de l'extrait et de la page en cache, jusqu'à ce que la page soit de nouveau explorée. Pour utiliser cet outil, il vous suffit d'indiquer l'URL exacte de la page (vous n'avez pas besoin de spécifier les termes supprimés). Une fois votre demande traitée, nous supprimons l'extrait et la page en cache des résultats de recherche. Le titre et l'URL de la page resteront visibles, et pourront apparaître dans les résultats de recherche si un internaute effectue une recherche sur le contenu supprimé. Dès que la page aura été explorée et indexée à nouveau, les mises à jour de l'extrait et de la page en cache, effectuées sur la base du nouveau contenu, seront visibles dans les résultats de recherche.
Google indexe et classe les éléments en fonction du contenu d'une page, mais aussi en tenant compte d'autres facteurs externes, tels que les liens entrants vers l'URL de la page. Par conséquent, il est possible qu'une URL continue d'apparaître dans les résultats de recherche alors que le contenu ne figure plus sur la page, même après que celle-ci a été explorée et indexée à nouveau. L'outil de demande de suppression d'URL peut supprimer l'extrait et la page en cache associés à un résultat de recherche. En revanche, il ne permet pas de modifier/supprimer le titre d'un résultat de recherche, de modifier l'URL affichée ni d'empêcher l'affichage d'une page dans le cadre de recherches basées sur l'ancien contenu ou sur le contenu actuel. Si vous souhaitez procéder à la suppression complète d'une URL de nos résultats de recherche, vous devez vous assurer que celle-ci respecte les critères applicables.
Supprimer du contenu au format autre que HTML
Si le contenu modifié n'est pas au format (X)HTML (en cas de modification d'une image, d'un fichier Flash ou d'un fichier PDF, par exemple), vous ne serez pas en mesure d'utiliser l'outil de suppression des pages en cache. Par conséquent, si vous tenez réellement à ce que l'ancien contenu ne soit plus visible dans les résultats de recherche, la solution la plus rapide consiste à modifier l'URL du fichier de sorte que l'ancienne URL renvoie un code d'état HTTP 404, puis à utiliser l'outil de demande de suppression d'URL pour supprimer l'ancienne URL. Si vous choisissez de laisser Google actualiser naturellement vos informations, sachez que la mise à jour des aperçus du contenu au format autre que HTML (les liens Quick View pour les fichiers PDF, par exemple) après une nouvelle exploration peut prendre plus de temps que pour les pages HTML normales.
Empêcher, de manière proactive, l'affichage des extraits ou des versions en cache
En tant que webmaster, vous avez la possibilité d'utiliser des balises meta pour les robots afin d'empêcher, de manière proactive, l'affichage des extraits ou des versions en cache et ce, sans faire appel à nos outils de suppression. Toutefois, nous ne recommandons pas d'utiliser cette méthode par défaut. En effet, l'extrait peut aider les internautes à identifier plus rapidement un résultat de recherche pertinent, et la version en cache d'une page peut leur permettre de voir votre contenu même si votre serveur est indisponible. Vous pouvez utiliser la balise meta robots "nosnippet" pour empêcher l'affichage d'un extrait ou la balise meta "noarchive" robots pour désactiver la mise en cache d'une page. Notez que si vous modifiez ainsi des pages existantes déjà indexées, Googlebot devra les explorer et les indexer à nouveau pour que les modifications soient visibles dans les résultats de recherche.
Nous espérons que ce message vous aura éclairé sur certains des processus utilisés par l'outil de demande de suppression d'URL pour les pages mises à jour. Dans notre prochain message, nous étudierons les différentes manières de demander la suppression d'un contenu dont vous n'êtes pas le propriétaire. N'hésitez pas à consulter régulièrement ce blog.
Comme toujours, vous pouvez nous faire part de vos commentaires et poser vos questions sur notre Forum d'aide pour les webmasters.
Publié par John Mueller, analyste des tendances pour les webmasters chez Google Suisse
Sauf indication contraire, le contenu de cette page est régi par une licence Creative Commons Attribution 4.0, et les échantillons de code sont régis par une licence Apache 2.0. Pour en savoir plus, consultez les Règles du site Google Developers. Java est une marque déposée d'Oracle et/ou de ses sociétés affiliées.
[[["Facile à comprendre","easyToUnderstand","thumb-up"],["J'ai pu résoudre mon problème","solvedMyProblem","thumb-up"],["Autre","otherUp","thumb-up"]],[["Il n'y a pas l'information dont j'ai besoin","missingTheInformationINeed","thumb-down"],["Trop compliqué/Trop d'étapes","tooComplicatedTooManySteps","thumb-down"],["Obsolète","outOfDate","thumb-down"],["Problème de traduction","translationIssue","thumb-down"],["Mauvais exemple/Erreur de code","samplesCodeIssue","thumb-down"],["Autre","otherDown","thumb-down"]],[],[[["\u003cp\u003eGoogle's search results may display outdated content even after a webpage has been updated.\u003c/p\u003e\n"],["\u003cp\u003eTo update Google's search results, you can wait for Google to recrawl the page, or request removal of the outdated content through Google's URL removal tool.\u003c/p\u003e\n"],["\u003cp\u003eIf you own the website, use Google Webmaster Tools to remove the snippet and cached page until Google recrawls the updated page.\u003c/p\u003e\n"],["\u003cp\u003eGoogle's URL removal tool does not prevent a page from ranking based on previous content, so for complete removal, consider the requirements for removal from search results altogether.\u003c/p\u003e\n"],["\u003cp\u003eTo prevent snippets or cached versions from appearing, use robots meta tags, but it's generally recommended to keep them for user experience.\u003c/p\u003e\n"]]],["To update outdated content in Google search results, first modify the live page. Then, either wait for Googlebot to re-crawl and re-index or use Google's URL removal tools. There are two options for URL removals: removing content from others' pages by specifying removed words or removing information from your own page via Google Webmaster Tools, without specifying removed words. For non-HTML content, change the file's URL. Lastly, webmasters can proactively prevent snippets and cached versions using robots meta tags.\n"],null,["# URL removals explained, part II: Removing sensitive text from a page\n\nFriday, August 06, 2010\n\n\nChange can happen---sometimes, as we saw in our\n[previous post on URL removals](/search/blog/2010/03/url-removal-explained-part-i-urls),\nyou may completely block or remove a page from your site. Other times you might only change parts\nof a page, or remove certain pieces of text. Depending on how frequently a page is being crawled,\nit can take some time before these changes get reflected in our search results. In this blog post\nwe'll look at the steps you can take if we're still showing old, removed content in our search\nresults, either in the form of a \"snippet\" or on the cached page that's linked to from the search\nresult. Doing this makes sense when the old content contains sensitive information that needs to\nbe removed quickly---it's not necessary to do this when you just update a website normally.\n\nAs an example, let's look at the following fictitious search result:\n\n|---------------------------------------------------------------------------------------------------------------------------------------------------|------------------------------|\n| **Walter** E. **Coyote** | \\\u003c Title |\n| Chief Development Officer at Acme Corp 1948-2003: worked on the top secret velocitus incalculii capturing device which has shown potential**...** | \\\u003c Snippet |\n| www.example.com/about/**waltercoyote** - Cached | \\\u003c URL + link to cached page |\n\n\nTo change the content shown in the snippet (or on the linked cached page),\n**you'll first need to change the content on the actual (live) page**. Unless a page's publicly\nvisible content is changed, Google's automatic processes will continue to show parts of the\noriginal content in our search results.\n\n\nOnce the page's content has been changed, there are several options available to make those\nchanges visible in our search results:\n\n1.\n **Wait for Googlebot to re-crawl and re-index the page**: This is the natural method for\n how most content is updated at Google. Sometimes it can take a fairly long time, depending on\n how frequently Googlebot currently crawls the page in question. Once we've re-crawled and\n re-indexed the page, the old content will usually not be visible as it'll be replaced by the\n current content. Provided Googlebot is not blocked from crawling the page in question (either\n by robots.txt or by not being able to access the server properly), you don't have to do\n anything special for this to take place. It's generally not possible to speed up crawling and\n indexing, as these processes are fully automated and depend on many external factors.\n\n2.\n Use\n [Google's public URL removal tool](https://www.google.com/webmasters/tools/removals)\n to **request removal of content that has been removed from someone else's webpage** . Using\n this tool, it's necessary to enter the\n [exact URL of the page](https://www.google.com/support/webmasters/bin/answer.py?answer=63758)\n that has been modified, select the \"Content has been removed from the page\" option, and then\n specify one or more words that have been completely removed from that page.\n\n\n Note that *none* of the words you enter can appear on the page; even if a word has been\n removed from one part of the page, your request will be denied if that word still appears on\n another part of the page. Be sure to choose a word (or words) that no longer appear\n *anywhere* on the page. If, in the above example, you removed\n \"top secret velocitus incalculii capturing device\", you should\n submit those words and not something like \"my project.\" However, if the word\n \"top\" or \"device\" still exists\n anywhere on the page, the request would be denied. To maximize your chances of success, it's\n often easiest to just enter one word that you're sure no longer appears anywhere on the page.\n\n\n Once your request has been processed and it's found that the submitted word(s) no longer\n appear on the page, the search result will no longer show a snippet, nor will the cached page\n be available. The title and the URL of the page will still be visible, and the entry may still\n appear in search results for searches related to the content that has been removed (such as\n searches for\n [velocitus incalculii](https://www.google.com/search?q=velocitus+incalculii)),\n even if those words no longer appear in the snippet. However, once the page has been\n re-crawled and re-indexed, the new snippet and cached page can be visible in our search\n results.\n\n\n Keep in mind that we will need to verify removal of the word(s) by viewing the page. If the\n page no longer exists and the server is returning a proper\n [`404` or `410` HTTP result code](https://en.wikipedia.org/wiki/List_of_HTTP_status_codes),\n making us unable to view the page, you may be better off\n [requesting removal of the page](/search/blog/2010/03/url-removal-explained-part-i-urls)\n altogether.\n3. Use Google Webmaster Tools URL removal tool to **request removal of information on a page from your website** . If you have access to the website in question and have verified ownership of it in [Google Webmaster Tools](https://search.google.com/search-console), you can use the URL removal tool there (under *Site Configuration \\\u003e Crawler access* ) to request that the snippet and the cached page be removed until the page has been re-crawled. To use this tool, you only need to submit the [exact URL of the page](https://www.google.com/support/webmasters/bin/answer.py?answer=63758) (you won't need to specify any removed words). Once your request has been processed, we'll remove the snippet and the cached page from search results. The title and the URL of the page will still be visible, and the page may also continue to rank in search results for queries related to content that has been removed. After the page has been re-crawled and re-indexed, the search result with an updated snippet and cached page (based on the new content) can be visible.\n\n\nGoogle indexes and ranks items based not only on the content of a page, but also on other external\nfactors, such as the inbound links to the URL. Because of this, it's possible for a URL to\ncontinue to appear in search results for content that no longer exists on the page, even after\nthe page has been re-crawled and re-indexed. While the URL removal tool can remove the snippet\nand the cached page from a search result, it will not change or remove the title of the search\nresult, change the URL that is shown, or prevent the page from being shown for searches based on\nany current or previous content. If this is important to you, you should make sure that the URL\nfulfills the requirements for a\n[complete removal from our search results](/search/blog/2010/03/url-removal-explained-part-i-urls).\n\nRemoving non-HTML content\n-------------------------\n\n\nIf the changed content is not in (X)HTML (for example if an image, a Flash file or a PDF file has\nbeen changed), you won't be able to use the cache removal tool. So if it's important that the old\ncontent no longer be visible in search results, the fastest solution would be to change the URL\nof the file so that the old URL returns a `404` HTTP result code and use the URL\nremoval tool to remove the old URL. Otherwise, if you chose to allow Google to naturally refresh\nyour information, know that previews of non-HTML content (such as\n[Quick View links for PDF files](https://googleblog.blogspot.com/2009/10/quickly-view-formatted-pdfs-in-your.html))\ncan take longer to update after recrawling than normal HTML pages would.\n\nProactively preventing the appearance of snippets or cached versions\n--------------------------------------------------------------------\n\n\nAs a webmaster, you have the option to use robots\n[`meta` tags](/search/docs/advanced/crawling/special-tags)\nto proactively prevent the appearance of snippets or cached versions without using our removal\ntools. While we don't recommend this as a default approach (the snippet can help users recognize a\nrelevant search result faster, and a cached page gives them the ability to view your content even\nin the unexpected event of your server not being available), you can use the \"nosnippet\" robots\n`meta` tag to\n[prevent showing of a snippet](/search/docs/crawling-indexing/robots-meta-tag#nosnippet),\nor the \"noarchive\" robots `meta` tag to disable caching of a page. Note that if this is changed on\nexisting and known pages, Googlebot will need to re-crawl and re-index those pages before this\nchange becomes visible in search results.\n\n\nWe hope this blog post helps to make some of the processes behind the URL removal tool for updated\npages a bit clearer. In our next blog post we'll look at ways to request removal of content that\nyou don't own; stay tuned!\n\n\nAs always, we welcome your feedback and questions in our\n[Webmaster Help Forum](https://support.google.com/webmasters/community/label?lid=5489e59697a233d7).\n\nOther posts of this series\n--------------------------\n\n- [Part I: Removing URLs and directories](/search/blog/2010/03/url-removal-explained-part-i-urls)\n- [Part II: Removing and updating cached content](/search/blog/2010/04/url-removals-explained-part-ii-removing)\n- [Part III: Removing content you don't own](/search/blog/2010/04/url-removal-explained-part-iii-removing)\n- [Part IV: Tracking requests, what not to remove](/search/blog/2010/05/url-removal-explained-part-iv-tracking)\n\n\nFinally, you might be also interested to read about\n[managing what information is available about you online](/search/blog/2009/10/managing-your-reputation-through-search).\n\n\nPosted by\n[John Mueller](https://twitter.com/JohnMu),\nWebmaster Trends Analyst, Google Switzerland"]]