Аннотации: определение сайтов для поиска

На этой странице описано, как определить охват вашей поисковой системы с помощью файла аннотаций XML.

  1. Обзор
  2. Использование формата XML программируемого поиска
  3. Улучшение охвата поиска
  4. Ограничения аннотаций

Обзор

Управление большой коллекцией сайтов может быть утомительным, если вы создаете большую поисковую систему. Вместо этого вы можете добавлять множество сайтов и управлять ими, перечислив их в файле аннотаций и загрузив его. Кроме того, файлы аннотаций дают вам гораздо больший контроль над рейтингом результатов поиска.

Файл аннотаций — это просто список аннотаций. Каждая аннотация состоит из двух компонентов: сайта и связанных с ним меток. Метка сообщает Программируемой поисковой системе, как обращаться с сайтом; то есть, следует ли включить, исключить, повысить или понизить сайт. В файле контекста вы определяете метки; в файле аннотаций вы помечаете сайты соответствующими метками.

Когда вы начнете редактировать файл аннотаций, начните с небольшого количества аннотаций. Проще протестировать и устранить неполадки вашей поисковой системы с помощью нескольких аннотаций. Когда вы получите ожидаемые результаты, постепенно добавляйте больше аннотаций.

Вы можете загрузить файл аннотаций в Панель управления. Подробную информацию об ограничениях на файлы см. в разделе «Ограничения на аннотации» .

Вернуться наверх

Использование формата XML программируемого поиска

Если вы хотите воспользоваться всеми функциями, доступными в файле конфигурации программируемой поисковой системы, вам подойдет XML.

XML-аннотации

Ниже приведен пример аннотаций XML. Этот файл аннотаций сообщает Программируемой поисковой системе включить все, что находится в разделе www.webmd.com/hw/*, но исключить все, что находится в разделе www.webmd.com/hw/cancer/*.

<Annotations>
  <Annotation about="www.cancer.gov/cancertopics/types/liver/*">
    <Label name="_include_"/>
    <Comment>government site</Comment>
  </Annotation>
  <Annotation about="www.medicinenet.com/liver_cancer/">
    <Label name="_exclude_"/>
    <Comment>site on symptoms</Comment>
  </Annotation>
  <Annotation about="www.webmd.com/hw/*">
    <Label name="_include_"/>
    <Comment>great sites for patients!</Comment>
  </Annotation>
  <Annotation about="www.webmd.com/hw/cancer/*">
    <Label name="_exclude_"/>
    <Comment>great sites for patients!</Comment>
  </Annotation>
  <Annotation about="www.oncologychannel.com/*/treatment">
    <Label name="_exclude_"/>
  </Annotation>
</Annotations>

Файл аннотаций состоит из четырех элементов в следующей иерархии:

  • Annotations (корневой элемент)
    • Annotation
      • Label
      • Comment (необязательно)

Вернуться наверх

Создание внешних аннотаций

Чтобы составить список сайтов, которые ваша поисковая система должна охватить, выполните следующие действия:

  1. Запустите файл с корневым элементом <Annotations></Annotations> .
  2. Создайте аннотацию, добавив теги <Annotation></Annotation> , а затем определите атрибут about с шаблоном URL-адреса сайта.
    <Annotations>
       <Annotation about="www.webmd.com/hw/cancer/*">
       </Annotation>
       </Annotations>
  3. Свяжите сайт с поисковой системой с помощью тега <Label name=" "/> и укажите, как поисковая система должна обрабатывать этот сайт. Вы можете получить ярлыки для своей поисковой системы из файла контекста поисковой системы. Вы найдете две метки: одну для добавления сайтов в вашу программируемую поисковую систему, а другую для исключения сайтов из нее. Если вы не изменили имя метки поисковой системы в файле контекста, метка включения сайтов имеет форму _include_ , а метка исключения сайтов — форму _exclude_ . Чтобы избежать ошибок, скопируйте и вставьте эти метки, а не вводите их вручную.
       <Annotations>
       <Annotation about="http://www.solarenergy.org/*">
         <Label name="_include_"/>
       </Annotation>
    </Annotations>

    С одним сайтом может быть связано несколько ярлыков.

    Если вы изменили имя метки в файле контекста, не забудьте обновить значения Label name в файле аннотаций.

  4. Чтобы добавить больше сайтов, создайте и определите еще один элемент Annotation .
  5. Сохраните XML-файл.

Вернуться наверх

Улучшение охвата поиска

Программируемая поисковая система построена на основе индекса Google. Это означает, что веб-страницы, находящиеся в индексе Google, доступны вашей поисковой системе; и наоборот, веб-страницы, которые не были просканированы Google, не будут отображаться в результатах поиска. Если вы хотите, чтобы ваша программируемая поисковая система включала сайты, которых в настоящее время нет в индексе Google, отправьте файл Sitemap в консоль поиска Google .

Карта сайта включает в себя список страниц вашего сайта, а также информацию о частоте обновления веб-страниц и их важности относительно друг друга. Отправка файла Sitemap поможет Google обнаружить ваши веб-страницы и улучшить график сканирования. Дополнительную информацию о файлах Sitemap см. в Справочном центре для веб-мастеров и в разделах «Использование протокола Sitemap» . Если вы заинтересованы в создании более интересных файлов Sitemap, посетите http://www.sitemaps.org/protocol.php .

Отправка файлов Sitemap особенно полезна, если на вашем сайте имеется следующее:

  • Динамический контент
  • Веб-страницы, которые с трудом обнаруживает робот Googlebot (веб-сканер Google), например страницы с богатыми функциями AJAX или Flash.
  • Несколько сайтов, ссылающихся на него.

    Робот Googlebot сканирует Интернет, переходя по ссылкам с одной страницы на другую, поэтому, если на вашем сайте нет хороших ссылок, сканеру будет сложно его обнаружить. Если ваш веб-сайт новый, вероятно, на него ссылаются не многие веб-сайты.

  • Большой архив страниц с контентом, не имеющий сильной сети перекрестных ссылок.

Google может индексировать только те страницы, к которым у него есть доступ. Поэтому, если вы используете файл robots.txt или метатеги robots на своих веб-страницах, убедитесь, что эти страницы не блокируют сканеры.

Улучшение охвата не происходит мгновенно, поскольку сканирование и индексирование страниц занимает некоторое время. Но как только ваши веб-страницы попадут в индекс, они смогут появиться как в поиске Google, так и в вашей программируемой поисковой системе.

Вернуться наверх

Ограничения аннотаций

В следующей таблице перечислены ограничения на файлы аннотаций, загружаемые в программируемую поисковую систему:

Примечание. Внимательно следите за ограничениями; если вы превысите их, ваша поисковая система может не показать результаты.

Аспект Лимит
Размер файла (файлы контекста или аннотаций) 30 КБ
Максимальное количество аннотаций на одну поисковую систему 5000

Совет. Если вы обнаружите, что ваша поисковая система превышает лимит в 5000 сайтов, рассмотрите возможность объединения отдельных URL-адресов в шаблоны URL-адресов .

Вернуться наверх