Anotações: como definir sites para pesquisa

Esta página descreve como definir a cobertura do seu mecanismo de pesquisa usando um arquivo de anotações XML.

  1. Visão geral
  2. Como usar o formato XML da Pesquisa programável
  3. Como melhorar a cobertura da pesquisa
  4. Limites de anotações

Visão geral

Gerenciar um grande conjunto de sites pode ser tedioso se você estiver criando um grande mecanismo de pesquisa. Em vez disso, você pode adicionar e gerenciar vários sites listando-os em um arquivo de anotações e fazendo upload dele. Além disso, os arquivos de anotações oferecem um controle muito maior sobre a classificação dos resultados de pesquisa.

Um arquivo de anotações é simplesmente uma lista de anotações. Cada anotação tem dois componentes: o site e seus rótulos associados. O rótulo informa ao Mecanismo de Pesquisa Programável como lidar com um site. ou seja, se um site deve ser incluído, excluído, promovido ou rebaixado. No arquivo de contexto, você define rótulos. no arquivo de anotações, marque os sites com os rótulos apropriados.

Quando começar a editar seu arquivo de anotações, comece com um pequeno número de anotações. É mais fácil testar e resolver problemas do seu mecanismo de pesquisa com um punhado de anotações. Quando tiver os resultados esperados, adicione mais anotações de forma incremental.

Você pode fazer upload do arquivo de anotações no Painel de controle. Para detalhes sobre limites de arquivo, consulte a seção Limites de anotações.

Voltar ao início

Como usar o formato XML da Pesquisa programável

Se você quer aproveitar todos os recursos disponíveis no arquivo de configuração do Mecanismo de Pesquisa Programável, o XML é a melhor opção.

Anotações XML

Veja a seguir um exemplo de anotações XML. Esse arquivo de anotações diz ao Mecanismo de Pesquisa Programável para incluir tudo em www.webmd.com/hw/*, mas excluir tudo em www.webmd.com/hw/cancer/*.

<Annotations>
  <Annotation about="www.cancer.gov/cancertopics/types/liver/*">
    <Label name="_include_"/>
    <Comment>government site</Comment>
  </Annotation>
  <Annotation about="www.medicinenet.com/liver_cancer/">
    <Label name="_exclude_"/>
    <Comment>site on symptoms</Comment>
  </Annotation>
  <Annotation about="www.webmd.com/hw/*">
    <Label name="_include_"/>
    <Comment>great sites for patients!</Comment>
  </Annotation>
  <Annotation about="www.webmd.com/hw/cancer/*">
    <Label name="_exclude_"/>
    <Comment>great sites for patients!</Comment>
  </Annotation>
  <Annotation about="www.oncologychannel.com/*/treatment">
    <Label name="_exclude_"/>
  </Annotation>
</Annotations>

O arquivo de anotações tem quatro elementos na seguinte hierarquia:

  • Annotations (elemento raiz)
    • Annotation
      • Label
      • Comment (opcional)

Voltar ao início

Como criar anotações externas

Para listar os sites a serem cobertos pelo mecanismo de pesquisa, faça o seguinte:

  1. Inicie o arquivo com o elemento raiz <Annotations></Annotations>.
  2. Crie uma anotação adicionando as tags <Annotation></Annotation> e defina o atributo about com o padrão do URL do site.
    <Annotations>
       <Annotation about="www.webmd.com/hw/cancer/*">
       </Annotation>
       </Annotations>
    
  3. Associe o site ao mecanismo de pesquisa usando a tag <Label name=" "/> e especifique como o site será tratado. Você pode acessar os marcadores do seu mecanismo de pesquisa no arquivo de contexto dele. Você vai encontrar dois rótulos: um para adicionar sites ao Mecanismo de Pesquisa Programável e outro para excluir sites dele. Se você não mudou o nome do marcador do mecanismo de pesquisa no arquivo de contexto, o marcador para incluir sites está na forma de _include_ e o marcador para excluir sites está no formato _exclude_. Para evitar erros, copie e cole esses marcadores em vez de digitá-los manualmente.
       <Annotations>
       <Annotation about="http://www.solarenergy.org/*">
         <Label name="_include_"/>
       </Annotation>
    </Annotations>
    

    Um único site pode ter vários marcadores associados a ele.

    Se você mudou o nome do rótulo no arquivo de contexto, atualize os valores Label name no arquivo de anotação.

  4. Para adicionar mais sites, crie e defina outro elemento Annotation.
  5. Salve o arquivo XML.

Voltar ao início

Como melhorar a cobertura de pesquisa

O Mecanismo de Pesquisa Programável é criado com base no índice do Google. Isso significa que as páginas da Web que estão no índice do Google estão disponíveis para seu mecanismo de pesquisa. pelo contrário, as páginas da Web que não foram rastreadas pelo Google não vão aparecer nos resultados. Se você quiser que o Mecanismo de Pesquisa Programável inclua sites que não estão no índice do Google, envie um sitemap para o Google Search Console.

Um Sitemap inclui uma lista de páginas do site, bem como informações sobre a frequência de atualização das páginas da Web e sua importância em relação umas às outras. O envio de um sitemap ajuda o Google a descobrir suas páginas da Web e melhorar a programação de rastreamento. Para saber mais sobre sitemaps, consulte a Central de Ajuda para webmasters e Como usar o protocolo de sitemap. Se você estiver interessado em criar sitemaps mais elaborados, consulte http://www.sitemaps.org/protocol.php.

O envio de sitemaps será especialmente útil se o seu site tiver o seguinte:

  • Conteúdo dinâmico
  • Páginas da Web que não são facilmente descobertas pelo Googlebot (o rastreador da Web do Google), como páginas com recursos avançados de AJAX ou Flash.
  • Poucos sites com links para ele.

    O Googlebot rastreia a Web seguindo os links de uma página para outra. Portanto, se o site não estiver bem vinculado, o rastreador terá dificuldade para detectá-lo. Se o seu site for novo, provavelmente não há muitos sites que o direcionam.

  • Um arquivo grande de páginas de conteúdo sem uma rede forte de links cruzados

O Google só indexa as páginas que pode acessar. Por isso, se você usa o arquivo robots.txt ou metatags robots nas suas páginas da Web, verifique se elas não bloqueiam rastreadores.

A cobertura aprimorada não é instantânea, porque leva algum tempo para as páginas serem rastreadas e indexadas. No entanto, assim que suas páginas da Web estiverem no índice, elas poderão aparecer na Pesquisa Google e no Mecanismo de Pesquisa Programável.

Voltar ao início

Limites de anotações

A tabela a seguir lista os limites para arquivos de anotações que são enviados para o Mecanismo de Pesquisa Programável:

Observação:siga os limites com atenção. se elas forem excedidas, o mecanismo de pesquisa poderá não exibir resultados.

Aspecto Limite
Tamanho do arquivo (arquivos de contexto ou de anotações) 30KB
Número máximo de anotações por mecanismo de pesquisa 5.000

Dica:se você achar que seu mecanismo de pesquisa está ultrapassando o limite de 5.000 sites, consolide os URLs individuais em padrões de URL.

Voltar ao início