Canonicalización de URLs de páginas duplicadas y uso de la etiqueta canónica

Si tienes una página a la que se puede acceder mediante varias URLs, o bien páginas diferentes con contenido similar (por ejemplo, una página para móviles y otra para ordenadores), Google las considerará versiones duplicadas de la misma página. En este caso, elegirá una URL como canónica, que es la que rastreará, y considerará que las otras URLs son duplicados, por lo que las rastreará con menos frecuencia.

Si no indicas explícitamente qué URL es la canónica, Google la seleccionará por ti, aunque también es posible que acabe considerando que todas tienen la misma importancia, lo que podría generar un comportamiento no deseado, tal como se explica en la sección Motivos por los que elegir una URL canónica.

En este documento se explica cómo funciona la canonicalización de URLs en la Búsqueda de Google, si es necesario especificar una URL canónica y cómo indicarle tu preferencia a Google.

¿Qué es una URL canónica?

Una URL canónica es la URL de la página que Google considera más representativa de un conjunto de páginas duplicadas de tu sitio. Por ejemplo, si tienes varias URLs que dirigen a la misma página (example.com?dress=1234 y example.com/dresses/1234), Google elige una de ellas para que sea la URL canónica.

Las páginas no tienen por qué ser idénticas, ya que no se consideran páginas únicas si incluyen cambios poco importantes, como en el modo en que está ordenada la página o en que se filtran las páginas de lista (por ejemplo, no importa si los elementos están ordenados por precio ni si se han filtrado los de determinado color). La URL canónica puede estar en un dominio distinto al de la URL duplicada.

Cómo indexa y elige Google la URL canónica

Cuando Google indexa sitios, intenta determinar cuál es el contenido principal de cada página. Si detecta que en un mismo sitio hay varias páginas con contenido muy similar, marca como canónica la página que considera más completa y útil. Esa será la página que se rastreará con mayor frecuencia; las versiones duplicadas no se rastrean tan a menudo para reducir la carga del rastreo de tu sitio.

Para elegir las páginas canónicas, Google tiene en cuenta diferentes factores (denominados señales), como los siguientes: si la página se sirve mediante HTTP o HTTPS, la calidad que tiene, si la URL está en un sitemap y si la página incluye la etiqueta rel=canonical. Puedes indicar a Google qué página consideras que es la canónica con las técnicas que se describen en este artículo, pero es posible que Google elija otra por diversos motivos.

Las diferentes versiones de una página no se consideran duplicadas si su contenido principal no está en el mismo idioma. Es decir, si únicamente están traducidos el encabezado, el pie de página y otros textos no importantes, pero no ese contenido principal, las páginas se consideran duplicadas.

Google utiliza como referencia las páginas canónicas para evaluar el contenido y la calidad. Los resultados de la Búsqueda de Google suelen redirigir a páginas canónicas, a menos que un duplicado se adapte mejor a la consulta del usuario. Por ejemplo, es probable que a los usuarios de dispositivos móviles se les muestren páginas para móviles, aunque la URL canónica de esas páginas sea la de la versión para ordenadores.

Motivos para tener páginas similares o duplicadas

Hay varios motivos legítimos para tener URLs diferentes que lleven a la misma página de tu sitio, o bien para tener páginas duplicadas o muy similares en URLs distintas. Estos son los más habituales:

  • Ofrecer versiones para varios tipos de dispositivos:
    https://example.com/news/koala-rampage
    https://m.example.com/news/koala-rampage
    https://amp.example.com/news/koala-rampage
  • Habilitar URLs dinámicas en elementos como parámetros de ordenación o filtrado, o IDs de sesión:
    https://www.example.com/products?category=dresses&color=green
    https://example.com/dresses/cocktail?gclid=ABCD
    https://www.example.com/dresses/green/greendress.html
  • Si el sistema de blogs que utilizas guarda automáticamente varias URLs al colocar la misma entrada en diferentes secciones:
    https://blog.example.com/dresses/green-dresses-are-awesome/
    https://blog.example.com/green-things/green-dresses-are-awesome/
  • Si tu servidor está configurado para publicar el mismo contenido en las variantes con www, sin www, HTTP, HTTPS, y con protocolo de puerto:
    https://example.com/green-dresses
    https://example.com/green-dresses
    https://www.example.com/green-dresses
    https://example.com:80/green-dresses
    https://example.com:443/green-dresses
  • Si incluyes contenido en un blog para sindicarlo en otros sitios y este contenido se replica parcial o totalmente en ellos:
    https://news.example.com/green-dresses-for-every-day-155672.html (entrada sindicada) https://blog.example.com/dresses/green-dresses-are-awesome/3245/ (entrada original)

Motivos por los que elegir una URL canónica

Hay varios motivos por los que deberías marcar explícitamente como canónica una página de un conjunto de páginas duplicadas o similares:

  • Indicar la URL que quieres que se muestre en los resultados de búsqueda. Por ejemplo, si tienes una página donde se venden vestidos verdes, quizá prefieras que los usuarios la visiten desde https://www.example.com/dresses/green/greendress.html y no desde https://example.com/dresses/cocktail?gclid=ABCD.
  • Unificar las señales de enlaces de páginas similares o duplicadas. Si eliges una URL canónica, los buscadores pueden agrupar la información que tienen de diferentes URLs (por ejemplo, los enlaces a ellas) y asociarla a la URL que has elegido. Siguiendo con el ejemplo anterior, los datos de los enlaces a https://example.com/dresses/cocktail?gclid=ABCD que haya en otros sitios se combinarán con los de los enlaces a https://www.example.com/dresses/green/greendress.html.
  • Simplificar las métricas de seguimiento de un mismo producto o tema. Si hay varias URLs, es más difícil consultar métricas unificadas de un contenido concreto.
  • Gestionar el contenido sindicado. Si sindicas tu contenido para que se publique en otros dominios, te interesa que en los resultados de búsqueda aparezcan las URLs que hayas marcado como preferidas.
  • Ahorrar tiempo de rastreo en páginas duplicadas. Te interesa que el robot de Google aproveche al máximo el tiempo que pasa en tu sitio, por lo que es mejor que rastree las páginas nuevas o actualizadas que las versiones para móviles y para ordenadores de una misma página.

Saber cuál es la página que Google considera canónica

Puedes ver cuál es la página que Google considera canónica con la herramienta de inspección de URLs. Aunque selecciones específicamente una página canónica, Google puede elegir otra distinta a la tuya por varios motivos, como su rendimiento o su contenido.

Indicar páginas canónicas

Para especificar una URL canónica de URLs duplicadas o de páginas similares, elige uno de los métodos indicados más abajo. Te recomendamos utilizar cualquiera de estos métodos, pero no es obligatorio hacerlo. Si no indicas ninguna URL canónica, identificaremos la que consideremos que es la mejor versión o URL. Recuerda seguir las directrices generales.

Método y descripción
Etiqueta rel=canonical <link>

Añade al código de todas las páginas duplicadas una etiqueta <link> que dirija a la página canónica.

Ventajas:
  • El número de páginas duplicadas que se pueden mapear es ilimitado.

Inconvenientes:

  • Puede aumentar el tamaño de las páginas.
  • Puede resultar complicado mantener el mapeo en sitios grandes o en los que las URLs cambian con frecuencia.
  • Solo funciona en páginas HTML, no en archivos (como PDFs). En estos casos, puede utilizarse el encabezado HTTP rel=canonical.
Encabezado HTTP rel=canonical

Envía un encabezado rel=canonical en la respuesta de la página.

Ventajas:

  • No aumenta el tamaño de la página.
  • El número de páginas duplicadas que se pueden mapear es ilimitado.

Inconvenientes:

  • Puede resultar complicado mantener el mapeo en sitios grandes o en los que las URLs cambian con frecuencia.
Sitemap

Indica las páginas canónicas en un sitemap.

Ventajas:

  • Es fácil de hacer y de mantener, especialmente en sitios grandes.

Inconvenientes:

  • Aunque uses este método, Google debe determinar las páginas duplicadas asociadas a las páginas canónicas que se declaran en el sitemap.
  • La señal que se envía a Google es más débil que la que se envía con la técnica de mapeo rel=canonical.
Redirección 301 Con las redirecciones 301, puedes indicar al robot de Google que prefieres una URL de redirección a otra URL. Utiliza este método solo cuando quieras retirar páginas duplicadas.
Variante AMP Si una de las variantes es una página AMP, sigue las directrices de AMP para indicar la página canónica y la variante de AMP.

Directrices generales

Independientemente del método que utilices para seleccionar páginas canónicas, sigue estas directrices generales:

  • No uses un archivo robots.txt para marcar páginas como canónicas.
  • No uses la herramienta de retirada de URLs para marcar páginas como canónicas, ya que oculta todas las versiones de una URL de la Búsqueda.
  • No marques como canónicas URLs diferentes que lleven a una misma página, ni con la misma técnica ni con varias. Por ejemplo, no indiques una URL en un sitemap y otra de la misma página mediante rel="canonical".
  • No utilices noindex para impedir que se seleccione una determinada página como canónica. Esa regla sirve para excluir páginas del índice, no para gestionar el proceso de canonicalización.
  • Indica cuál es la página canónica cuando utilices etiquetas hreflang. La página canónica debería estar en el mismo idioma; si no está disponible en ese idioma, selecciona la página del idioma que consideres más adecuado.

  • Incluye URLs canónicas (no duplicadas) en los enlaces internos de tu sitio; de esa manera, Google sabrá cuáles prefieres.

Es mejor utilizar HTTPS que HTTP en URLs canónicas

Google prefiere que se marquen como canónicas páginas HTTPS a sus equivalentes HTTP, excepto cuando hay problemas o señales contradictorias, como los siguientes:

  • Si la página HTTPS tiene un certificado SSL no válido.
  • Si la página HTTPS contiene dependencias que no son seguras (y no son imágenes).
  • Si la página HTTPS redirige a los usuarios a una página HTTP o hace que pasen por una página de este tipo.
  • Si la página HTTPS tiene una etiqueta link rel="canonical" que dirige a la página HTTP.

Aunque de forma predeterminada los sistemas de Google prefieren las páginas HTTPS a las HTTP, para asegurarte de que elijan esas URLs, sigue estos pasos:

  • Añade redirecciones de las páginas HTTP a las páginas HTTPS.
  • Añade una etiqueta link rel="canonical" a las páginas HTTP que lleve a la página HTTPS equivalente.
  • Implementa HSTS.

Para evitar que Google marque de forma incorrecta la versión HTTP de una página como canónica, evita lo siguiente:

  • Procura no usar certificados TLS/SSL incorrectos ni redirecciones de HTTPS a HTTP, ya que hacen que Google tenga una clara preferencia por las versiones HTTP. Implementar HSTS no es suficiente para anular esta preferencia.
  • Evita incluir en tu sitemap o en entradas hreflang la versión HTTP de una página en lugar de la versión HTTPS.
  • Procura no implementar un certificado SSL o TLS en la variante de host incorrecta. Por ejemplo, que en example.com esté el certificado de www.example.com. Los certificados deben coincidir con la URL completa de los sitios, o bien ser certificados comodín que puedan usarse en varios subdominios de un mismo dominio.

Las etiquetas de enlace rel="canonical" (etiqueta canónica) se usan en la sección de encabezado de HTML para indicar que una página se solapa con otra. Puedes indicar que una página es un duplicado añadiendo una etiqueta <link> a la sección head de tu código HTML.

Supongamos que tienes varias URLs que dirigen al mismo contenido, pero quieres que la canónica sea https://example.com/dresses/green-dresses. Para marcar esa URL como canónica, sigue estos pasos:

  1. Incluye en todas las páginas duplicadas una etiqueta link rel="canonical".

    Añade a la sección <head> de las páginas duplicadas un elemento <link> que tenga el atributo rel="canonical" y que dirija a la página canónica. Por ejemplo:

    <link rel="canonical" href="https://example.com/dresses/green-dresses" />
  2. Si la página canónica tiene una variante para móviles, añade a la página una etiqueta link rel="alternate" que dirija a la versión para móviles:
    <link rel="alternate" media="only screen and (max-width: 640px)"  href="https://m.example.com/dresses/green-dresses">
  3. Añade los atributos hreflang u otras redirecciones que sean adecuadas para la página.

Usa rutas absolutas en vez de relativas con la etiqueta link rel="canonical".

Ejemplo de uso adecuado: https://www.example.com/dresses/green/greendress.html

Ejemplo de uso inadecuado: /dresses/green/greendress.html

Si usas JavaScript para añadir la etiqueta de enlace rel="canonical", inyecta la etiqueta de enlace canónico correctamente.

Utilizar un encabezado HTTP rel="canonical"

Si puedes configurar tu servidor, puedes indicar la URL canónica de documentos compatibles con la Búsqueda, incluidos documentos que no sean HTML (como archivos PDF), mediante encabezados HTTP rel="canonical" y no con etiquetas HTML.

De momento, Google solo admite este método en los resultados de búsqueda web.

Si muestras un archivo PDF a través de varias URLs, puedes devolver un encabezado HTTP rel="canonical" para indicar al robot de Google cuál es la URL canónica del archivo PDF:

Link: <https://www.example.com/downloads/white-paper.pdf>; rel="canonical"

Las recomendaciones para la cabecera HTTP rel="canonical" son las mismas que las de la etiqueta link rel="canonical". De acuerdo con RFC 2616, usa solo comillas dobles en el encabezado HTTP rel="canonical".

Utilizar un sitemap

Elige las URLs canónicas de todas las páginas de tu sitio y envíalas en un sitemap. Todas las páginas que figuran en los sitemaps se sugieren como canónicas; si hay páginas duplicadas, Google decidirá cuáles son en función de la similitud del contenido.

No garantizamos que vayamos a considerar como canónicas las URLs incluidas en un sitemap; no obstante, los sitemaps son una forma sencilla de determinar las páginas canónicas de los sitios grandes, así como un método útil para indicar a Google cuáles son las páginas de tu sitio que consideras más importantes.

Si utilizas un sitemap, no incluyas en él páginas que no sean canónicas; especifica únicamente las URLs canónicas.

Utilizar redirecciones 301 para URLs retiradas

Utiliza este método cuando quieras deshacerte de las páginas duplicadas que tengas y asegurarte de que la transición a las nuevas URLs se haga sin problemas antes de retirar las antiguas.

Supongamos que se puede acceder a una de tus páginas de varias maneras:

  • https://example.com/home
  • https://home.example.com
  • https://www.example.com

Selecciona una de estas URLs como canónica y utiliza redirecciones 301 para enviar el tráfico de las otras URLs a la canónica. Las redirecciones 301 configuradas en el servidor son la mejor forma de asegurarte de que se redirija a los usuarios y a los buscadores a la página correcta. Con el código de estado 301, se indica que una página se ha trasladado de forma permanente a otra ubicación.

Si utilizas un servicio de alojamiento web, busca documentación sobre cómo configurar redirecciones 301.

Solucionar problemas

Si una URL canónica está en una propiedad que no es tuya, no podrás ver el tráfico de la página duplicada. Estos son algunos de los motivos más habituales por los que una URL canónica puede encontrarse en otra propiedad:

  • Versiones en otros idiomas marcadas de forma incorrecta: si tienes varios sitios que publican prácticamente el mismo contenido, pero localizado para llegar a diferentes usuarios de todo el mundo, sigue nuestras directrices sobre sitios localizados.
  • Etiquetas canónicas incorrectas: algunos sistemas de gestión de contenido (CMS) o algunos de sus complementos no utilizan adecuadamente las técnicas de canonicalización cuando dirigen a URLs de sitios externos. Revisa tu contenido para saber si este es tu caso. Si en tu sitio se indica una URL canónica que no esperabas (por ejemplo, porque se usa incorrectamente rel="canonical" o una redirección 301), corrige este problema directamente.
  • Servidores mal configurados: si tu host no está bien configurado, en algunos casos se puede seleccionar una URL de otro dominio que no se esperaba. Por ejemplo:
    • Puede que un servidor se haya configurado incorrectamente y devuelva contenido de "a.com" cuando responde a solicitudes de una URL de "b.com".
    • Puede que dos servidores web que no estén relacionados devuelvan páginas soft 404 idénticas que Google no pueda identificar como páginas de error.
  • Piratería maliciosa: a veces, cuando se ataca un sitio web, se introduce código que devuelve una redirección HTTP 301 o que incluye una etiqueta link rel="canonical" que lleva a otro dominio en la etiqueta del documento HTML <head> o en el encabezado HTTP. Este código suele dirigir a una URL que aloja contenido malicioso o fraudulento. En estos casos, es posible que nuestros algoritmos seleccionen la URL maliciosa o fraudulenta en vez de la URL del sitio web pirateado.
  • Sitio web copiado: muy de vez en cuando, es posible que nuestro algoritmo seleccione una URL de un sitio externo que incluya tu contenido sin permiso. Si crees que otro sitio está duplicando tu contenido e infringe de esta forma la legislación sobre derechos de autor, puedes ponerte en contacto con el host de ese sitio y solicitarle que retire ese contenido. Además, puedes pedir a Google que retire directamente esa página de los resultados de búsqueda presentando una solicitud basada en la ley estadounidense de protección de los derechos de autor (DMCA).