Как исключить из Google Поиска информацию, удаленную из документов
Публикуя документы и изображения в интернете, вы можете случайно оставить в них информацию, не предназначенную для широкой аудитории. Например, в документах некоторых форматов хранятся данные, которые не видны при открытии файла, но считываются поисковыми системами.
Поисковые системы индексируют размещенные в интернете общедоступные материалы, включая изображения, поэтому контент, не удаленный полностью, может присутствовать в результатах поиска. Технологии специальных возможностей (например, программы чтения с экрана) и системы оптического распознавания символов или других объектов позволяют находить контент, который вы считали скрытым.
Текст может быть невидимым для обычных пользователей, если закрыть его изображением, выбрать очень мелкий шрифт, сделать шрифт одинакового с фоном цвета и т. д. Однако с помощью таких приемов нельзя скрыть контент от поисковых систем, которые его все равно проиндексируют и отобразят в результатах поиска.
Кроме того, документы некоторых форматов содержат информацию, наличие которой неочевидно. Например, история изменений позволяет увидеть удаленный или измененный текст. Иногда в документах доступны исходные версии изображений, которые были обрезаны или отредактированы с целью удалить определенные сведения. Некоторые файлы также включают в себя метаданные, которые не видны при просмотре документа, но могут содержать имена пользователей, открывавших или изменявших его.
Такого рода информация зачастую сохраняется даже при экспорте или конвертации документа в другие форматы. Если вы хотите удалить данные из файла, это необходимо сделать до того, как файл будет опубликован в интернете.
Ниже приведены рекомендации по удалению из документов сведений, которые не нужно индексировать и показывать в Google Поиске.
Добавляйте изображения в документ уже после их редактирования и экспорта
Google Поиск индексирует изображения, обнаруженные не только на веб-страницах, но и в документах различных форматов. При этом пользователи часто редактируют встроенные изображения непосредственно в документе. Удаление информации с изображений в этом случае может оказаться бесполезным, если изображение будет проиндексировано отдельно от документа. Поэтому лучше сначала удалять информацию из графических файлов, а уже потом куда-либо их встраивать. Вот несколько рекомендаций:
- Вырезайте фрагменты изображения с нежелательной информацией до того, как встраивать его в документ. Некоторые приложения для работы с текстом или слайдами сохраняют в документах исходные версии изображений помимо отредактированных, и эти версии остаются доступными после публикации контента. Проверьте наличие такой особенности по справочным материалам, которые относятся к нужному приложению.
- Полностью удаляйте или скрывайте части изображения, не предназначенные для широкой аудитории, поскольку содержащийся в них текст может быть считан системами оптического распознавания символов и проиндексирован.
- Удаляйте лишние метаданные.
После выполнения рекомендаций из этого документа экспортируйте или сохраните изображение в растровом формате, например PNG или WEBP, чтобы удаленные и скрытые фрагменты не попали в опубликованный документ.
Переносите в предназначенный для публикации файл уже отредактированный текст
Прежде чем создавать общедоступную версию документа, удалите из текста все ненужные фрагменты. Отредактированный текст перенесите в файл, формат которого не предполагает сохранения истории изменений из предыдущего файла. Более подробные рекомендации:
- Используйте для удаления сведений подходящие средства. Например, не пытайтесь закрыть текст черными прямоугольниками, поскольку в результате он может остаться доступным в опубликованном документе.
- Тщательно проверьте метаданные в публикуемом файле.
- Следуйте советам по удалению текста из документов выбранного формата (например, PDF).
- Обратите внимание на информацию в URL или названии файла. Даже если вы с помощью файла robots.txt запретили поисковым роботам сканировать некоторые страницы сайта, их URL все равно могут быть добавлены в поисковый индекс (без контента). Хешируйте параметры URL, чтобы скрыть содержащиеся в них адреса электронной почты и имена.
-
Для ограничения доступа к удаленным материалам можно использовать аутентификацию. Чтобы заблокировать индексирование страницы входа, которая будет показываться вместо таких материалов, добавьте на нее метатег robots с директивой
noindex
. - Перед публикацией убедитесь, что вы подтвердили право собственности на сайт в Google Search Console. Такое подтверждение позволяет при необходимости быстро удалить нежелательную информацию.
Что можно предпринять, если нежелательная информация попала в индекс Google Поиска
- Удалите опубликованный документ с сайта или ресурса, на котором вы его разместили.
- Если вы подтвердили право собственности на сайт, используйте инструмент удаления URL, чтобы исключить документ из Google Поиска. Для удаления нескольких документов укажите общую начальную часть их URL (префикс). URL сайтов, на которые подтверждено право собственности, обычно удаляются менее чем за сутки. После этого те же самые документы больше не показываются в результатах поиска по запросам, содержащим удаленные фрагменты текста.
- Разместите окончательную версию документа по другому URL. Тогда в следующий раз будет проиндексирована новая версия документа, а не старая (поскольку повторное сканирование URL и их обновление в поисковом индексе обычно занимает некоторое время). Измените все ссылки на документ в соответствии с новым URL.
- Попросите представителей других сайтов удалить размещенные у них прежние версии ваших документов. Предложите им использовать инструмент удаления URL в аккаунте Search Console. Вы также можете подать в Google запрос на обновление результатов поиска при помощи инструмента удаления устаревшего контента.
- Дождитесь, пока запросы на удаление URL перестанут быть действительными (это происходит после обновления URL в индексе Google или по истечении шести месяцев).