このページでは、XML アノテーション ファイルを使用して検索エンジンの適用範囲を定義する方法について説明します。
概要
大規模な検索エンジンを構築する場合は、大量のサイトを管理するのは面倒な場合があります。代わりに、多数のサイトをまとめてアノテーション ファイルに記述し、アップロードすることで追加、管理できます。また、アノテーション ファイルを使用すると、検索結果のランキングをより詳細に制御できます。
アノテーション ファイルは、アノテーションのリストです。各アノテーションには、サイトとそれに関連するラベルという 2 つのコンポーネントがあります。このラベルは、プログラム可能検索エンジンにサイトの処理方法を指示します。つまり、サイトを追加、除外、昇格、降格のいずれにするかを指定します。コンテキスト ファイルでは、ラベルを定義します。アノテーション ファイルで、サイトに適切なラベルのタグを付けます。
アノテーション ファイルの編集を開始する際に、まずは少数のアノテーションから始めます。少数のアノテーションを使用すると、検索エンジンのテストやトラブルシューティングが容易になります。期待どおりの結果が得られたら、徐々にアノテーションを追加します。
コントロール パネルにアノテーション ファイルをアップロードできます。ファイルの制限について詳しくは、アノテーションの制限のセクションをご覧ください。
Programmable Search の XML 形式の使用
プログラム可能検索エンジンの設定ファイルにあるすべての機能を利用するには、XML を使用するのがよいでしょう。
XML アノテーション
XML アノテーションの例を次に示します。このアノテーション ファイルは、www.webmd.com/hw/* 以下のすべての項目を含め、www.webmd.com/hw/cancer/* 以下の項目をすべて除外するようにプログラム可能検索エンジンに指示します。
<Annotations> <Annotation about="www.cancer.gov/cancertopics/types/liver/*"> <Label name="_include_"/> <Comment>government site</Comment> </Annotation> <Annotation about="www.medicinenet.com/liver_cancer/"> <Label name="_exclude_"/> <Comment>site on symptoms</Comment> </Annotation> <Annotation about="www.webmd.com/hw/*"> <Label name="_include_"/> <Comment>great sites for patients!</Comment> </Annotation> <Annotation about="www.webmd.com/hw/cancer/*"> <Label name="_exclude_"/> <Comment>great sites for patients!</Comment> </Annotation> <Annotation about="www.oncologychannel.com/*/treatment"> <Label name="_exclude_"/> </Annotation> </Annotations>
アノテーション ファイルには、次の階層の 4 つの要素があります。
-
Annotations
(ルート要素) <ph type="x-smartling-placeholder">- </ph>
Annotation
Label
Comment
(省略可)
外部アノテーションを作成する
検索エンジンの対象とするサイトのリストを表示する手順は次のとおりです。
<Annotations></Annotations>
ルート要素からファイルを開始します。<Annotation></Annotation>
タグを追加してアノテーションを作成し、サイトの URL パターンを使用してabout
属性を定義します。<Annotations> <Annotation about="www.webmd.com/hw/cancer/*"> </Annotation> </Annotations>
<Label name=" "/>
タグを使用してサイトを検索エンジンに関連付け、検索エンジンでのサイトの処理方法を指定します。検索エンジンのラベルは、検索エンジンのコンテキスト ファイルから取得できます。プログラム可能検索エンジンにサイトを追加するためのラベルと、プログラム可能検索エンジンからサイトを除外するためのラベルが表示されます。コンテキスト ファイルの検索エンジン ラベルの名前を変更していない場合、サイトを含める場合は_include_
、サイトを除外するラベルは_exclude_
の形式になります。エラーを防ぐには、これらのラベルを手作業で入力するのではなく、コピーして貼り付けてください。<Annotations> <Annotation about="http://www.solarenergy.org/*"> <Label name="_include_"/> </Annotation> </Annotations>
1 つのサイトに複数のラベルを関連付けることも
コンテキスト ファイルでラベルの名前を変更した場合は、アノテーション ファイル内の
Label name
値を忘れずに更新してください。- サイトを追加するには、別の
Annotation
要素を作成して定義します。 - XML ファイルを保存します。
検索カバレッジの改善
プログラム可能検索エンジンは Google インデックスを基に構築されています。つまり、Google インデックスに登録されているウェブページを検索エンジンが認識できるということです。逆に、Google がクロールしていないウェブページは検索結果に表示されません。現在 Google インデックスに登録されていないサイトをプログラム可能検索エンジンに含めるには、Google Search Console にサイトマップを送信します。
サイトマップには、サイト内のページのリストのほか、ウェブページの更新頻度と相対的な重要度に関する情報が含まれます。サイトマップを送信すると、Google がウェブページを検出し、クロール スケジュールを改善するのに役立ちます。サイトマップの詳細については、ウェブマスター ヘルプセンターとサイトマップ プロトコルの使用をご覧ください。より高度なサイトマップを作成したい場合は、http://www.sitemaps.org/protocol.php をご覧ください。
サイトマップの送信は、サイトに次のような内容がある場合に特に便利です。
- 動的コンテンツ
- Googlebot(Google のウェブ クローラー)が簡単に検出できないウェブページ(AJAX や Flash の豊富な機能を備えたページなど)
- リンクしているウェブサイトはほとんどありません。
Googlebot は、あるページから別のページからリンクをたどることによってウェブをクロールします。そのため、サイトが適切にリンクされていないと、クローラーがサイトを発見することは困難です。ウェブサイトが新しい場合、そのサイトを参照しているウェブサイトは多くないでしょう。
- 相互リンクの強固なネットワークが存在しない、大量のコンテンツ ページのアーカイブ
Google は、アクセス可能なページのみをインデックスに登録できます。そのため、ウェブページで robots.txt ファイルや robots メタタグを使用している場合は、そのページでクローラがブロックされていないことを確認してください。
ページがクロールされてインデックスに登録されるまでには時間がかかるため、カバレッジは即座に改善されるわけではなく、ただし、ウェブページがインデックスに登録されると、Google 検索とプログラム可能検索エンジンの両方に表示される可能性があります。
アノテーションの制限
次の表に、プログラム可能検索エンジンにアップロードするアノテーション ファイルの上限を示します。
注: 上限に厳密に従ってください。上限を超えると、検索エンジンに結果が表示されない場合があります。
Aspect | 上限 |
---|---|
ファイルサイズ(コンテキスト ファイルまたはアノテーション ファイル) | 30KB |
検索エンジンごとのアノテーションの最大数 | 5,000 人
ヒント: 検索エンジンがサイト数の上限(5,000 件)を超えている場合は、個々の URL を URL パターンに統合することを検討してください。 |