На этой странице описано, как определить охват вашей поисковой системы с помощью файла аннотаций XML.
- Обзор
- Использование формата XML программируемого поиска
- Улучшение охвата поиска
- Ограничения аннотаций
Обзор
Управление большой коллекцией сайтов может быть утомительным, если вы создаете большую поисковую систему. Вместо этого вы можете добавлять множество сайтов и управлять ими, перечислив их в файле аннотаций и загрузив его. Кроме того, файлы аннотаций дают вам гораздо больший контроль над рейтингом результатов поиска.
Файл аннотаций — это просто список аннотаций. Каждая аннотация состоит из двух компонентов: сайта и связанных с ним меток. Метка сообщает Программируемой поисковой системе, как обращаться с сайтом; то есть, следует ли включить, исключить, повысить или понизить сайт. В файле контекста вы определяете метки; в файле аннотаций вы помечаете сайты соответствующими метками.
Когда вы начнете редактировать файл аннотаций, начните с небольшого количества аннотаций. Проще протестировать и устранить неполадки вашей поисковой системы с помощью нескольких аннотаций. Когда вы получите ожидаемые результаты, постепенно добавляйте больше аннотаций.
Вы можете загрузить файл аннотаций в Панель управления. Подробную информацию об ограничениях на файлы см. в разделе «Ограничения на аннотации» .
Использование формата XML программируемого поиска
Если вы хотите воспользоваться всеми функциями, доступными в файле конфигурации программируемой поисковой системы, вам подойдет XML.
XML-аннотации
Ниже приведен пример аннотаций XML. Этот файл аннотаций сообщает Программируемой поисковой системе включить все, что находится в разделе www.webmd.com/hw/*, но исключить все, что находится в разделе www.webmd.com/hw/cancer/*.
<Annotations> <Annotation about="www.cancer.gov/cancertopics/types/liver/*"> <Label name="_include_"/> <Comment>government site</Comment> </Annotation> <Annotation about="www.medicinenet.com/liver_cancer/"> <Label name="_exclude_"/> <Comment>site on symptoms</Comment> </Annotation> <Annotation about="www.webmd.com/hw/*"> <Label name="_include_"/> <Comment>great sites for patients!</Comment> </Annotation> <Annotation about="www.webmd.com/hw/cancer/*"> <Label name="_exclude_"/> <Comment>great sites for patients!</Comment> </Annotation> <Annotation about="www.oncologychannel.com/*/treatment"> <Label name="_exclude_"/> </Annotation> </Annotations>
Файл аннотаций состоит из четырех элементов в следующей иерархии:
-
Annotations
(корневой элемент)-
Annotation
-
Label
-
Comment
(необязательно)
-
-
Создание внешних аннотаций
Чтобы составить список сайтов, которые ваша поисковая система должна охватить, выполните следующие действия:
- Запустите файл с корневым элементом
<Annotations></Annotations>
. - Создайте аннотацию, добавив теги
<Annotation></Annotation>
, а затем определите атрибутabout
с шаблоном URL-адреса сайта.<Annotations> <Annotation about="www.webmd.com/hw/cancer/*"> </Annotation> </Annotations>
- Свяжите сайт с поисковой системой с помощью тега
<Label name=" "/>
и укажите, как поисковая система должна обрабатывать этот сайт. Вы можете получить ярлыки для своей поисковой системы из файла контекста поисковой системы. Вы найдете две метки: одну для добавления сайтов в вашу программируемую поисковую систему, а другую для исключения сайтов из нее. Если вы не меняли имя метки поисковой системы в файле контекста, метка включения сайтов имеет форму_include_
, а метка исключения сайтов — форму_exclude_
. Чтобы избежать ошибок, скопируйте и вставьте эти метки, а не вводите их вручную.<Annotations> <Annotation about="http://www.solarenergy.org/*"> <Label name="_include_"/> </Annotation> </Annotations>
С одним сайтом может быть связано несколько ярлыков.
Если вы изменили имя метки в файле контекста, не забудьте обновить значения
Label name
в файле аннотаций. - Чтобы добавить больше сайтов, создайте и определите еще один элемент
Annotation
. - Сохраните XML-файл.
Улучшение охвата поиска
Программируемая поисковая система построена на основе индекса Google. Это означает, что веб-страницы, находящиеся в индексе Google, доступны вашей поисковой системе; и наоборот, веб-страницы, которые не были просканированы Google, не будут отображаться в результатах поиска. Если вы хотите, чтобы ваша программируемая поисковая система включала сайты, которых в настоящее время нет в индексе Google, отправьте файл Sitemap в консоль поиска Google .
Карта сайта включает в себя список страниц вашего сайта, а также информацию о частоте обновления веб-страниц и их важности относительно друг друга. Отправка файла Sitemap помогает Google обнаружить ваши веб-страницы и улучшить график сканирования. Дополнительную информацию о файлах Sitemap см. в Справочном центре для веб-мастеров и в разделах «Использование протокола Sitemap» . Если вы заинтересованы в создании более интересных файлов Sitemap, посетите http://www.sitemaps.org/protocol.php .
Отправка файлов Sitemap особенно полезна, если на вашем сайте имеется следующее:
- Динамический контент
- Веб-страницы, которые с трудом обнаруживается роботом Googlebot (веб-сканером Google), например страницы с богатыми функциями AJAX или Flash.
- Несколько сайтов, ссылающихся на него.
Робот Googlebot сканирует Интернет, переходя по ссылкам с одной страницы на другую, поэтому, если на вашем сайте нет хороших ссылок, сканеру будет сложно его обнаружить. Если ваш веб-сайт новый, вероятно, на него ссылаются не многие веб-сайты.
- Большой архив страниц с контентом, не имеющий сильной сети перекрестных ссылок.
Google может индексировать только те страницы, к которым у него есть доступ. Поэтому, если вы используете файл robots.txt или метатеги robots на своих веб-страницах, убедитесь, что эти страницы не блокируют сканеры.
Улучшение охвата не происходит мгновенно, поскольку сканирование и индексирование страниц занимает некоторое время. Но как только ваши веб-страницы попадут в индекс, они смогут появиться как в поиске Google, так и в вашей программируемой поисковой системе.
Ограничения аннотаций
В следующей таблице перечислены ограничения на файлы аннотаций, загружаемые в программируемую поисковую систему:
Примечание. Внимательно следите за ограничениями; если вы превысите их, ваша поисковая система может не показать результаты.
Аспект | Лимит |
---|---|
Размер файла (файлы контекста или аннотаций) | 30 КБ |
Максимальное количество аннотаций на одну поисковую систему | 5000 Совет. Если вы обнаружите, что ваша поисковая система превышает лимит в 5000 сайтов, рассмотрите возможность объединения отдельных URL-адресов в шаблоны URL-адресов . |