Feedfetcher

Мы используем агент пользователя Feedfetcher, чтобы сканировать фиды RSS или Atom для Google Подкастов, Google Новостей и PubSubHubbub. Feedfetcher сохраняет и периодически обновляет фиды, которые запрашивают пользователи определенного сервиса или приложения. В Google Поиске индексируются только фиды подкастов. При этом проиндексированы могут быть даже фиды, не соответствующие спецификации Atom или RSS. Ниже приведены ответы на часто задаваемые вопросы об агенте пользователя Feedfetcher.

Как запретить роботам Google обрабатывать какие-либо (или все) фиды на моем сайте?

Когда пользователь добавляет сервис или приложение, которое использует данные Feedfetcher, этот робот пытается скачать содержание фида, чтобы показать его. Поскольку запросы робота Feedfetcher являются результатом действий пользователей, а не отправляются согласно алгоритму индексирования, Feedfetcher не соблюдает инструкции, указанные в файле robots.txt.

Если ваш фид общедоступен, Google не может ограничить пользователям доступ к нему. Попробуйте настроить сервер так, чтобы он выдавал агенту пользователя Feedfetcher-Google сообщения об ошибках 404, 410 и т. п.

Если фид предоставляется сервисом хостинга блогов или сайтов, то информацию об ограничении доступа к нему можно получить у представителей этого сервиса.

Часто ли Feedfetcher извлекает мои фиды?

Обычно не чаще, чем один раз в час. Если сайт обновляется очень часто, временные промежутки могут быть меньше. Кроме того, из-за задержек в сети иногда может казаться, что Feedfetcher извлекает данные с более короткими промежутками, хотя на самом деле это не так.

Feedfetcher извлекает фиды по запросам сервисов и приложений, установленных пользователями. Возможно, в одном из таких запросов указан несуществующий URL.

Почему Feedfetcher скачивает информацию с моего секретного веб-сервера?

Feedfetcher извлекает фиды по запросам сервисов и приложений, установленных пользователями. Возможно, запросы приходят от пользователя, который знает про ваш секретный сервер или указал его по ошибке.

Почему Feedfetcher игнорирует мой файл robots.txt?

Feedfetcher получает фид после того, как пользователь запрашивает данные фида через специальный сервис или приложение. Feedfetcher действует как агент настоящих пользователей, а не как обычный робот, поэтому он не учитывает записи в файле robots.txt. При этом Feedfetcher экономит трафик сервера, поскольку запрашивает фиды в основных форматах от лица всех заинтересованных пользователей сразу, а не каждого в отдельности (то есть один раз вместо нескольких). Основными форматами считаются RSS и Atom.

Если вы не хотите, чтобы робот Feedfetcher заходил на ваш сайт, настройте сервер так, чтобы он выдавал агенту пользователя Feedfetcher-Google сообщения об ошибках 404, 410 и т. п.

Почему обращения идут с нескольких компьютеров в домене google.com и у всех в качестве агента пользователя указан Feedfetcher?

Feedfetcher предназначен для распределенной работы на нескольких компьютерах. Это обеспечивает эффективность и масштабирование системы по мере роста числа сайтов в интернете. В целях сокращения трафика используемые компьютеры часто размещают в сети рядом с сайтами, с которых они получают данные.

Могу ли я узнать IP-адреса, с которых Feedfetcher выполняет запросы, чтобы отфильтровать их в журналах?

IP-адреса, которые использует Feedfetcher, время от времени меняются. Лучший способ идентифицировать запросы Feedfetcher – по агенту пользователя Feedfetcher-Google.

Почему Feedfetcher скачивает с сайта одну и ту же страницу несколько раз?

Как правило, Feedfetcher при получении фида скачивает с сайта одну копию каждого файла. Но в редких случаях, при отключении и перезагрузке компьютеров, может наблюдаться повторное скачивание одних и тех же страниц.

В отличие от обычных поисковых роботов, Feedfetcher не переходит по ссылкам. Вместо этого он выполняет запросы, которые были созданы пользователями сервиса или приложения, использующего Feedfetcher.

В этой статье нет ответа на мой вопрос о Feedfetcher. Как его найти?

Посетите наш справочный форум.