Contenido duplicado debido a scrapers

martes, 10 de febrero de 2009

Teniendo en cuenta que el contenido duplicado es un tema candente entre los webmasters, pensamos que es un buen momento para tratar preguntas que nos hacen con regularidad en las conferencias y en el Foro de ayuda para webmasters de Google.

Antes de entrar de lleno en ellas me gustaría referirme rápidamente a un tema que preocupa a los webmasters: en la mayoría de casos un webmaster no tiene ninguna influencia sobre el contenido que terceras partes copian y redistribuyen sin permiso del webmaster. Nos damos cuenta de que no es culpa del webmaster en cuestión, lo que significa que un contenido idéntico se mostrará a la vez en varios sitios web aunque no se considerará en sí una violación de nuestras directrices para webmasters . Esto simplemente lleva a otro proceso con el que se intenta determinar la fuente original del contenido, algo en lo que Google es bastante bueno ya que en la mayoría de casos el contenido original puede ser correctamente identificado y sin tener efectos negativos para el sitio web que ha originado el contenido.

Generalmente, podemos diferenciar entre dos situaciones relacionadas con contenido duplicado:
  • Contenido duplicado en tu propio dominio, por ejemplo contenido idéntico que aparece involuntariamente en más de un lugar en tu sitio web.
  • Contenido duplicado en varios dominios, por ejemplo contenido idéntico el cual aparece, de nuevo involuntariamente, en diferentes sitios web.
En el primer caso, puedes tomar partido y evitar que Google indexe el contenido duplicado de tus sitios web. Échale un vistazo a este artículo de Adam Lasnik, " Deftly dealing with duplicate content " [inglés] y este otro de Vanessa Fox, " Duplicate content summit at SMX Advanced " [inglés] . Ambos ofrecen buenos trucos sobre cómo resolver problemas con el contenido duplicado en tu sitio web. Otro truco más que te puede ayudar a evitar que el contenido de tu página web sea rastreada como contenido duplicado es incluir la URL de la versión que prefiramos en el archivo de sitemap. Esto nos puede ayudar a aumentar las probabilidades de ofrecer la versión que el usuario prefiere cuando encontramos diferentes páginas con el mismo contenido. En el Centro de asistencia se puede encontrar este artículo con información adicional sobre el contenido duplicado.

En el segundo caso, quizás se de la situación en la que alguien está copiando tu contenido y poniéndolo en un sitio web diferente y a menudo sacándole partido económicamente. Es además normal que muchos proxys en Internet indexen partes de los sitios web a los que se han accedido desde el mismo proxy. Si nos encontramos este contenido duplicado en diferentes sitios web, miramos las diferentes señales para determinar cuál es el sitio original, que por regla general suele funcionar muy bien. Así que no deberías estar preocupado por los efectos negativos de la presencia de contenido copiado de tu sitio web en Google.

Si se da el caso que estas distribuyendo tu contenido pero además quieres estar seguro de que tu sitio se identifica como fuente original, es muy útil pedirle a tus "distribuidores" de contenido que incluyan un enlace de vuelta al contenido original. Puedes encontrar más información sobre cómo tratar este tipo de contenido en un artículo de Vanessa Fox, " Ranking as the original source for content you syndicate " [inglés] .

Algunos webmasters han preguntado qué puede originar que un contenido copiado tenga una mejor posicionamiento que la fuente original. Este no debería pasar a menudo, pero si te sucediese:
  • Comprueba si tu contenido es accesible a nuestros robots. Puede que sin querer hayas bloqueado el acceso a parte de tu contenido a través de tu archivo robots.txt.
  • Puedes mirar en el archivo Sitemap por si hubieses hecho cambios en ese contenido que ha sido copiado.
  • Comprueba que tu sitio web siga las Directrices para webmasters de Google.
Por último me gustaría señalar que en la mayoría de casos, tener contenido duplicado no tiene efectos negativos en la presencia de tu sitio web en el índice de Google, ya que este se filtra. Si te fijas en algunos de los consejos mencionados más arriba, lo que estás aprendiendo es a controlar mejor lo que rastreamos e indexamos, así como las versiones que tienen más probabilidades de aparecer en el índice. Solo cuando hay señales que apuntan a un uso deliberado y malintencionado, puede ocurrir que consideremos que el contenido duplicado está violando las directrices para webmasters.

Si deseas comentar algo sobre este tema no dudes en visitar nuestro Foro de ayuda para webmasters .