Anotaciones: definición de sitios para buscar

En esta página, se describe cómo definir la cobertura de tu motor de búsqueda mediante un archivo de anotaciones XML.

  1. Descripción general
  2. Usa el formato XML de Programmable Search
  3. Cómo mejorar la cobertura en la Búsqueda
  4. Límites de anotaciones

Descripción general

Administrar una gran colección de sitios puede ser tedioso si creas un motor de búsqueda grande. En su lugar, puedes agregar y administrar muchos sitios. Para ello, haz una lista de ellos en un archivo de anotaciones y súbelos. Además, los archivos de anotaciones te brindan un mayor control sobre la clasificación de los resultados de la búsqueda.

Un archivo de anotaciones es simplemente una lista de anotaciones. Cada anotación tiene dos componentes: el sitio y sus etiquetas asociadas. La etiqueta le indica al Motor de Búsqueda Programable cómo controlar un sitio. es decir, si un sitio se debe incluir, excluir, promocionar o descender de nivel. En el archivo de contexto, defines las etiquetas. en el archivo de anotaciones, debes etiquetar los sitios con las etiquetas adecuadas.

Cuando comiences a editar tu archivo de anotaciones, empieza con una pequeña cantidad de anotaciones. Es más fácil probar tu motor de búsqueda y solucionar sus problemas con un puñado de anotaciones. Cuando obtengas los resultados esperados, agrega más anotaciones de forma incremental.

Puedes subir el archivo de anotaciones al Panel de control. Para obtener detalles sobre los límites de los archivos, consulta la sección Límites de anotaciones.

Volver al principio

Usa el formato XML de Programmable Search

Si desea aprovechar todas las funciones disponibles en el archivo de configuración del Motor de Búsqueda Programable, XML es la mejor opción.

Anotaciones XML

El siguiente es un ejemplo de anotaciones XML. Este archivo de anotaciones le indica al Motor de Búsqueda Programable que incluya todo lo que se encuentra en www.webmd.com/hw/*, pero que excluya todo lo que está en www.webmd.com/hw/cancer/*.

<Annotations>
  <Annotation about="www.cancer.gov/cancertopics/types/liver/*">
    <Label name="_include_"/>
    <Comment>government site</Comment>
  </Annotation>
  <Annotation about="www.medicinenet.com/liver_cancer/">
    <Label name="_exclude_"/>
    <Comment>site on symptoms</Comment>
  </Annotation>
  <Annotation about="www.webmd.com/hw/*">
    <Label name="_include_"/>
    <Comment>great sites for patients!</Comment>
  </Annotation>
  <Annotation about="www.webmd.com/hw/cancer/*">
    <Label name="_exclude_"/>
    <Comment>great sites for patients!</Comment>
  </Annotation>
  <Annotation about="www.oncologychannel.com/*/treatment">
    <Label name="_exclude_"/>
  </Annotation>
</Annotations>

El archivo de anotaciones tiene cuatro elementos en la siguiente jerarquía:

  • Annotations (elemento raíz)
    • Annotation
      • Label
      • Comment (opcional)

Volver al principio

Crear anotaciones externas

Para enumerar los sitios que quieres que cubra tu motor de búsqueda, haz lo siguiente:

  1. Inicia el archivo con el elemento raíz <Annotations></Annotations>.
  2. Para crear una anotación, agrega las etiquetas <Annotation></Annotation> y, luego, define el atributo about con el patrón de URL del sitio.
    <Annotations>
       <Annotation about="www.webmd.com/hw/cancer/*">
       </Annotation>
       </Annotations>
    
  3. Asocia el sitio al motor de búsqueda usando la etiqueta <Label name=" "/> y especifica la manera en que el motor de búsqueda debería tratar ese sitio. Puedes obtener las etiquetas para tu motor de búsqueda desde el archivo de contexto del motor de búsqueda. Encontrarás dos etiquetas: una para agregar sitios a tu Motor de Búsqueda Programable y otra para excluir sitios en él. Si no cambiaste el nombre de la etiqueta del motor de búsqueda en el archivo de contexto, la etiqueta para incluir sitios tendrá el formato _include_, y la etiqueta para excluir sitios tendrá el formato _exclude_. Para evitar errores, copia y pega estas etiquetas en lugar de escribirlas a mano.
       <Annotations>
       <Annotation about="http://www.solarenergy.org/*">
         <Label name="_include_"/>
       </Annotation>
    </Annotations>
    

    Un solo sitio puede tener varias etiquetas asociadas.

    Si cambiaste el nombre de la etiqueta en el archivo de contexto, recuerda actualizar los valores de Label name en el archivo de anotación.

  4. Para agregar más sitios, crea y define otro elemento Annotation.
  5. Guarda el archivo en formato XML.

Volver al principio

Mejora la cobertura en la Búsqueda

El Motor de Búsqueda Programable se basa en el índice de Google. Esto significa que las páginas web que están en el índice de Google están disponibles para tu motor de búsqueda. por el contrario, las páginas web que Google no haya rastreado no aparecerán en los resultados de la búsqueda. Si deseas que tu Motor de Búsqueda Programable incluya sitios que actualmente no están en el índice de Google, envía un mapa del sitio a Google Search Console.

Un mapa del sitio incluye una lista de páginas de tu sitio, así como información sobre la frecuencia de actualización de las páginas web y su importancia en relación con las demás. Al enviar un mapa del sitio, Google puede descubrir tus páginas web y mejorar la programación de rastreo. Para obtener más información sobre los mapas del sitio, consulte el Centro de ayuda para webmasters y Cómo usar el protocolo de mapas del sitio. Si te interesa crear mapas del sitio más detallados, consulta http://www.sitemaps.org/protocol.php.

Enviar mapas del sitio es particularmente útil si tu sitio cuenta con lo siguiente:

  • Contenido dinámico
  • Páginas web que Googlebot (el rastreador web de Google) no puede descubrir fácilmente, como páginas con funciones avanzadas de AJAX o Flash
  • Pocos sitios web tienen vínculos a ella.

    Googlebot rastrea la Web siguiendo los vínculos de una página a otra. Por lo tanto, si tu sitio no está bien vinculado, el rastreador tendrá dificultades para descubrirlo. Si tu sitio web es nuevo, es probable que no haya muchos sitios web que dirijan a él.

  • Un gran archivo de páginas de contenido que no cuenta con una red sólida de vínculos cruzados

Google solo puede indexar páginas a las que tiene acceso. Por lo tanto, si usas el archivo robots.txt o metaetiquetas de robots en tus páginas web, asegúrate de que esas páginas no bloqueen a los rastreadores.

Una cobertura mejorada no es instantánea, ya que las páginas demoran un tiempo en rastrearse e indexarse. Sin embargo, una vez que tus páginas web estén en el índice, podrían aparecer tanto en la Búsqueda de Google como en tu Motor de Búsqueda Programable.

Volver al principio

Límites de anotaciones

En la siguiente tabla, se indican los límites de los archivos de anotaciones que se suben a Motor de Búsqueda Programable:

Nota: Sigue los límites minuciosamente. si los excedes, es posible que tu motor de búsqueda no muestre resultados.

Aspecto Límite
Tamaño del archivo (archivos de contexto o de anotaciones) 30KB
Cantidad máxima de anotaciones por motor de búsqueda 5,000

Sugerencia: Si descubres que tu motor de búsqueda supera el límite extenso de 5,000 sitios, considera consolidar las URLs individuales en patrones de URL.

Volver al principio