Cómo consolidar URL duplicadas

Si tienes una página a la que se puede acceder mediante varias URL, o bien distintas páginas con contenido similar (por ejemplo, una página con una versión para dispositivos móviles y otra para computadoras de escritorio), Google considerará que la página está duplicada. Por lo tanto, elegirá una URL como versión canónica, que es la que rastreará, y marcará las otras URL como versiones duplicadas, es decir que las rastreará con menor frecuencia.

Si no indicas explícitamente qué URL es la canónica, Google la seleccionará por ti. También es posible que considere que todas tienen la misma importancia, lo que podría generar un comportamiento no deseado, tal como se explica en la sección Motivos para elegir una URL canónica.

Cómo Googlebot indexa y selecciona la URL canónica

Cuando Googlebot indexa un sitio, intenta determinar el contenido principal de cada página. Si detecta que el contenido de varias páginas de un mismo sitio es muy similar, seleccionará como canónica la que considere más completa y útil. Esta página se rastreará con mayor frecuencia que las versiones duplicadas a fin de reducir la carga del rastreo de Google en tu sitio.

Google selecciona una página canónica según diferentes factores (o indicadores); por ejemplo, si la página se publica mediante HTTP o HTTPS, la calidad de la página, la presencia de la URL en un mapa del sitio y cualquier etiqueta rel=canonical. Si bien puedes usar esas técnicas para indicarle a Google tus preferencias, es posible que elija una página canónica distinta por diversos motivos.

Las versiones en diferentes idiomas de una página se consideran duplicadas solo si el contenido principal está en el mismo idioma (es decir, si únicamente se traduce el encabezado, el pie de página y otro texto secundario, pero el cuerpo de la página es el mismo).

Google utiliza las páginas canónicas como fuentes principales para evaluar el contenido y la calidad. En los resultados de la Búsqueda de Google solo suelen mostrarse páginas canónicas, a menos que un duplicado se adapte mejor a la búsqueda de un usuario. Por ejemplo, es probable que se muestre la página para dispositivos móviles si el usuario usa un dispositivo móvil, aunque la página que se haya marcado como canónica sea la versión para computadoras de escritorio.

Motivos válidos para mantener páginas similares o duplicadas

Hay varios motivos para tener URL diferentes en tu sitio que dirijan a la misma página, o bien páginas duplicadas o muy similares en URL distintas. Estos son los más habituales:

  • Para admitir varios tipos de dispositivos:
    https://example.com/news/koala-rampage
    https://m.example.com/news/koala-rampage
    https://amp.example.com/news/koala-rampage
  • Para habilitar URL dinámicas y utilizarlas, por ejemplo, con parámetros de búsqueda o ID de sesión:
    https://www.example.com/products?category=dresses&color=green
    https://example.com/dresses/cocktail?gclid=ABCD
    https://www.example.com/dresses/green/greendress.html
  • Si el sistema de tu blog guarda automáticamente varias URL cuando posicionas la misma entrada en diferentes secciones:
    https://blog.example.com/dresses/green-dresses-are-awesome/
    https://blog.example.com/green-things/green-dresses-are-awesome/
  • Si el servidor está configurado para publicar el mismo contenido en las variantes con www, sin www, http o https:
    http://example.com/green-dresses
    https://example.com/green-dresses
    http://www.example.com/green-dresses
    
  • Si el contenido que proporcionas en un blog para distribuirlo a otros sitios se replica de forma parcial o total en esos dominios:
    https://news.example.com/green-dresses-for-every-day-155672.html (entrada distribuida) https://blog.example.com/dresses/green-dresses-are-awesome/3245/ (publicación original)

Motivos para elegir una URL canónica

A continuación, se describen varios motivos por los que deberías marcar explícitamente como canónica una página en un conjunto de páginas duplicadas o similares:

  • Para indicar la URL que quieres que se muestre en los resultados de la búsqueda. Es posible que prefieras que los usuarios lleguen a tu página de productos de vestidos verdes mediante https://www.example.com/dresses/green/greendress.html, en lugar de hacerlo por https://example.com/dresses/cocktail?gclid=ABCD.
  • Para consolidar los indicadores de los vínculos de páginas similares o duplicadas. Es útil permitir que los motores de búsqueda agrupen la información que tienen de diferentes URL (por ejemplo, vínculos a ellas) en una única URL preferida. De ese modo, los vínculos de otros sitios que dirijan a http://example.com/dresses/cocktail?gclid=ABCD se consolidarán con los que redireccionen a https://www.example.com/dresses/green/greendress.html.
  • Para simplificar las métricas de seguimiento de un mismo producto o tema. Cuando hay una variedad de URL, resulta más difícil obtener métricas consolidadas de un contenido específico.
  • Para gestionar el contenido distribuido. Si distribuyes tu contenido para que se publique en otros dominios, debes asegurarte de que la URL preferida aparezca en los resultados de la búsqueda.
  • Para ahorrar tiempo de rastreo en páginas duplicadas. Si quieres que Googlebot aproveche al máximo el tiempo que pasa en tu sitio, es mejor que rastree las páginas nuevas o actualizadas, en lugar de las versiones para dispositivos móviles y computadoras de escritorio de una misma página.

Descubre qué tipo de página Google considera canónica

Puedes usar la Herramienta de inspección de URL para ver cuál es la página que Google considera canónica.

Cómo especificar una página canónica

Si deseas especificar una URL canónica para URL duplicadas o páginas similares, elige uno de los siguientes métodos. Asegúrate de seguir los lineamientos generales.

Método y descripción
Etiqueta rel=canonical <link>

Agrega una etiqueta <link> al código de todas las páginas duplicadas que dirija a la página canónica.

Ventajas:
  • Permite mapear una cantidad infinita de páginas duplicadas.

Desventajas:

  • Puede aumentar el tamaño de la página.
  • Puede resultar complicado mantener el mapeo en sitios grandes o en los que las URL cambian con frecuencia.
  • Solo funciona en páginas HTML, no en archivos (por ejemplo, PDF). En esos casos, puede utilizarse el encabezado HTTP rel=canonical.
Encabezado HTTP rel=canonical

Envía un encabezado rel=canonical en la respuesta de tu página.

Ventajas:

  • No aumenta el tamaño de la página.
  • Permite mapear una cantidad infinita de páginas duplicadas.

Desventajas:

  • Puede resultar complicado mantener el mapeo en sitios grandes o en los que las URL cambian con frecuencia.
Mapa del sitio

Indica las páginas canónicas en un mapa del sitio.

Ventajas:

  • Es fácil de hacer y de mantener, especialmente en sitios grandes.

Desventajas:

  • Aunque uses este método, Googlebot debe determinar las páginas duplicadas asociadas a las páginas canónicas que se declaran en el mapa del sitio.
  • El indicador que se envía a Googlebot es más débil que el que se envía con la técnica de mapeo rel=canonical.
Redireccionamiento 301 Con el redireccionamiento 301, puedes indicarle a Googlebot que prefieres una URL de redireccionamiento en lugar de otra. Utiliza este método solo cuando quieras que una página duplicada deje de estar disponible.
Variante de AMP Si una de las variantes es una página de AMP, sigue los lineamientos de AMP para indicar la página canónica y la variante de AMP.

Lineamientos generales

Independientemente del método que utilices para seleccionar páginas canónicas, sigue estos lineamientos generales:

  • No uses el archivo robots.txt con fines de canonicalización.
  • No especifiques una página canónica mediante la herramienta Eliminaciones, ya que se quitarán todas las versiones de una URL de la Búsqueda.
  • No indiques varias URL canónicas para una misma página con la misma técnica de canonicalización ni con una diferente (por ejemplo, no especifiques una URL en un mapa del sitio y otra URL de la misma página mediante rel="canonical").
  • No uses la etiqueta noindex para evitar que se seleccione una página canónica. Este método tiene como propósito excluir la página del índice, en lugar de administrar la elección de una página canónica.
  • Sí tienes que especificar una página canónica cuando uses etiquetas hreflang. Indica una página canónica en el mismo idioma o, en el caso de que no esté disponible en ese idioma, selecciona el que consideres más adecuado.

  • Sí tienes que usar la URL canónica como vínculo a tu sitio, no una URL duplicada. Usar de forma consistente la URL que consideras canónica ayuda a que Google comprenda tu elección.

Usa HTTPS y no HTTP para URL canónicas

Google prefiere que se marquen como canónicas páginas HTTPS en lugar de sus equivalentes HTTP, a menos que se produzca alguno de los siguientes problemas o indicadores contradictorios:

  • La página HTTPS tiene un certificado SSL no válido.
  • La página HTTPS contiene dependencias que no son seguras (y no son imágenes).
  • La página HTTPS redirecciona a los usuarios a una página HTTP o hace que pasen por una página de este tipo.
  • La página HTTPS tiene un vínculo rel="canonical" que dirige a la página HTTP.

Si bien nuestros sistemas prefieren las páginas HTTPS a las HTTP de forma predeterminada, para asegurarte de que así sea, realiza cualquiera de las siguientes acciones:

  • Agrega redireccionamientos de las páginas HTTP a las páginas HTTPS.
  • Agrega un vínculo rel="canonical" que dirija a la página HTTPS desde la página HTTP.
  • Implementa HSTS.

Para evitar que Google marque de forma incorrecta la versión HTTP de una página como canónica, evita las siguientes prácticas:

  • Usar certificados TLS/SSL incorrectos o incluir redireccionamientos de HTTPS a HTTP. Cuando se detecta una de esas prácticas, Google prefiere usar la versión HTTP. Implementar HSTS no anula esta preferencia.
  • Incluir la página HTTP en tu mapa del sitio o entradas hreflang, en lugar de la versión HTTPS.
  • Implementar un certificado SSL/TLS para una variante de host incorrecta (por ejemplo, que example.com entregue el certificado de www.example.com). El certificado debe coincidir con la URL completa del sitio o debe ser un certificado comodín que pueda usarse en varios subdominios de un dominio.

Solo usuarios avanzados: indícale a Google que ignore los parámetros dinámicos

Usa la organización de parámetros para indicarle a Googlebot qué parámetros debe ignorar cuando rastree tu sitio. Al ignorar determinados parámetros, puedes reducir el contenido duplicado en el índice de Google y facilitar la tarea de rastrear tu sitio. Por ejemplo, si especificas que debe ignorarse el parámetro sessionid, Googlebot considerará que las dos URL siguientes son duplicadas:

  • https://www.example.com/dresses/green.php?sessionid=273749
  • https://www.example.com/dresses/green.php

Puedes usar una etiqueta <link> en la sección head de tu página HTML para indicar cuándo una página es un duplicado de otra.

Supongamos que, aunque se pueda acceder al contenido desde varias URL, quieres que https://example.com/dresses/green-dresses sea la canónica. Para marcar esa URL como canónica, sigue estos pasos:

  1. Marca todas las páginas duplicadas con un elemento de vínculo rel="canonical".

    Agrega un elemento <link> con el atributo rel="canonical" a la sección <head> de páginas duplicadas, que dirija a la página canónica. Por ejemplo:

    <link rel="canonical" href="https://example.com/dresses/green-dresses" />
  2. Si la página canónica tiene una variante para dispositivos móviles, agrega un vínculo rel="alternate" que dirija a esa versión:
    <link rel="alternate" media="only screen and (max-width: 640px)"  href="http://m.example.com/dresses/green-dresses">
  3. Agrega cualquier hreflang o cualquier redireccionamiento apropiado para la página.

Usa un encabezado HTTP rel="canonical"

Si puedes configurar tu servidor, puedes usar encabezados HTTP rel="canonical" (en lugar de etiquetas HTML) para indicar la URL canónica del documento compatible con la Búsqueda, incluidos los documentos que no son HTML, como archivos PDF.

Si muestras un archivo PDF en diferentes URL, puedes mostrar un encabezado HTTP rel="canonical" para indicarle a Googlebot cuál es la URL canónica del archivo PDF:

Link: <http://www.example.com/downloads/white-paper.pdf>; rel="canonical"

Actualmente, Google solo admite este método en los resultados de la búsqueda web.

Usa un mapa del sitio

Elige una URL canónica para cada página de tu sitio y envíalas en un mapa del sitio. Todas las páginas incluidas en un mapa del sitio se sugieren como canónicas (si hay páginas duplicadas, Googlebot decidirá cuáles son en función de la similitud del contenido).

No garantizamos que las URL de un mapa del sitio se considerarán canónicas. Sin embargo, los mapas del sitio son una forma sencilla de determinar las URL canónicas de los sitios grandes, además de un método útil para indicarle a Google cuáles son las páginas de tu sitio que consideras más importantes.

No incluyas páginas que no son canónicas en un mapa del sitio. En ese caso, solamente especifica las URL canónicas.

Usa redireccionamientos 301 para URL retiradas

Utiliza este método cuando quieras deshacerte de las páginas duplicadas que tengas y asegurarte de que la transición a las nuevas URL se realice sin problemas antes de retirar las antiguas.

Supongamos que se puede acceder a tu página de varias maneras:

  • https://example.com/home
  • https://home.example.com
  • https://www.example.com

Selecciona una de esas URL como canónica y usa redireccionamientos 301 para dirigir el tráfico de las otras URL a la preferida. Los redireccionamientos 301 del servidor son la mejor forma de garantizar que los usuarios y los motores de búsqueda se dirijan a la página correcta. Con el código de estado 301, se indica que una página se trasladó de forma permanente a una nueva ubicación.

Si utilizas un servicio de hosting web, busca la documentación correspondiente para configurar redireccionamientos 301.

Solución de problemas

Si una URL canónica se encuentra en una propiedad que no te pertenece, no podrás ver el tráfico de la página duplicada. Estos son algunos motivos comunes por los que una URL canónica puede estar en una propiedad distinta:

  • Variantes de idioma marcadas incorrectamente: Si tienes varios sitios web en los que se publica prácticamente el mismo contenido localizado para diferentes usuarios de todo el mundo, asegúrate de seguir nuestros lineamientos para sitios localizados.
  • Etiquetas canónicas incorrectas: Algunos sistemas de administración de contenido (CMS) o complementos de CMS pueden usar incorrectamente las técnicas de canonicalización para dirigir a URL de sitios web externos. Revisa el contenido para comprobar si es tu caso. Si tu sitio indica una preferencia de URL canónica no esperada (quizás mediante el uso incorrecto de rel="canonical" o un redireccionamiento 301), corrige ese problema directamente.
  • Servidores mal configurados: Es posible que algunos errores de configuración de hosting provoquen una selección de URL multidominio inesperada. Por ejemplo:
    • Un servidor puede estar mal configurado y mostrar contenido de a.com ante la solicitud de una URL en b.com.
    • Dos servidores web no relacionados pueden mostrar páginas de errores leves 404 idénticas que Google no identifica como páginas de error.
  • Hackeo malicioso: En algunos ataques a sitios web, se agrega un código para que se muestre un redireccionamiento 301 HTTP o se inserte un elemento de vínculo rel="canonical" multidominio en la sección del <head> HTML o en el encabezado HTTP. Por lo general, el elemento agregado dirige al usuario a una URL que aloja contenido malicioso o generador de spam. En esos casos, es posible que nuestros algoritmos seleccionen la URL maliciosa o generadora de spam en lugar de la URL en el sitio web comprometido.
  • Una copia del sitio web: En situaciones poco frecuentes, es posible que nuestro algoritmo seleccione una URL de un sitio externo que aloja tu contenido sin tu permiso. Si crees que otro sitio duplica tu contenido e incumple la legislación de derechos de autor, puedes comunicarte con el host del sitio para solicitar que lo quite. Además, puedes solicitar que Google quite la página de los resultados de la búsqueda. Para hacerlo, debes presentar una solicitud en virtud de la ley Digital Millennium Copyright Act.