Cómo consolidar URL duplicadas

Si tienes una página a la que se puede acceder mediante varias URL, o bien distintas páginas con contenido similar (por ejemplo, una página con una versión para dispositivos móviles y otra para computadoras de escritorio), Google considerará que la página está duplicada. Por lo tanto, elegirá una URL como versión canónica, que es la que rastreará, y marcará las otras URL como versiones duplicadas, es decir que las rastreará con menor frecuencia.

Si no indicas explícitamente qué URL es la canónica, Google la seleccionará por ti. También es posible que considere que todas tienen la misma importancia, lo que podría generar un comportamiento no deseado, tal como se explica en la sección ¿Por qué debería elegir una URL canónica?

¿Qué es una URL canónica?

Una URL canónica es la URL de la página que Google identifica como la más representativa de un conjunto de páginas duplicadas de tu sitio. Por ejemplo, si tienes varias URL para la misma página (example.com?dress=1234 y example.com/dresses/1234), Google seleccionará una de ellas como la canónica. Ten en cuenta que las páginas no tienen por qué ser idénticas. Las páginas de listas con diferencias menores en orden o filtros no se consideran únicas (por ejemplo, aquellas en las que se puede ordenar por precio o filtrar por color).

La página duplicada incluso puede pertenecer a un dominio distinto del de la canónica.

Más detalles

Cuando Googlebot indexa un sitio, intenta determinar el contenido principal de cada página. Si detecta que el contenido de varias páginas de un mismo sitio es muy similar, seleccionará como canónica la que considere más completa y útil. Esta página se rastreará con mayor frecuencia que las versiones duplicadas a fin de reducir la carga del rastreo de Google en tu sitio.

Google selecciona una página canónica según diferentes factores (o indicadores); por ejemplo, si la página se publica mediante "http" o "https", la calidad de la página, la presencia de la URL en un mapa del sitio y cualquier etiqueta rel=canonical. Si bien puedes usar esas técnicas para indicarle a Google tus preferencias, es posible que elija una página canónica distinta por diversos motivos.

Las versiones en diferentes idiomas de una página se consideran duplicadas solo si el contenido principal está en el mismo idioma (es decir, si únicamente se traduce el encabezado, el pie de página y otro texto secundario, pero el cuerpo de la página es el mismo).

Google utiliza las páginas canónicas como fuentes principales para evaluar el contenido y la calidad. En los resultados de la Búsqueda de Google solo suelen mostrarse páginas canónicas, a menos que un duplicado se adapte mejor a la búsqueda de un usuario. Por ejemplo, es probable que se muestre la página para dispositivos móviles si el usuario usa un dispositivo móvil, aunque la página que se haya marcado como canónica sea la versión para computadoras de escritorio.

¿Por qué es posible que tenga páginas duplicadas o similares?

Hay varios motivos para tener URL diferentes en tu sitio que dirijan a la misma página, o bien páginas duplicadas o muy similares en URL distintas. Estos son los más habituales:

  • Para admitir varios tipos de dispositivos:
    https://example.com/news/koala-rampage
    https://m.example.com/news/koala-rampage
    https://amp.example.com/news/koala-rampage
  • Para habilitar URL dinámicas y utilizarlas, por ejemplo, con parámetros de búsqueda o ID de sesión:
    https://www.example.com/products?category=dresses&color=green
    https://example.com/dresses/cocktail?gclid=ABCD
    https://www.example.com/dresses/green/greendress.html
  • Si el sistema de tu blog guarda automáticamente varias URL cuando posicionas la misma entrada en diferentes secciones:
    https://blog.example.com/dresses/green-dresses-are-awesome/
    https://blog.example.com/green-things/green-dresses-are-awesome/
  • Si el servidor está configurado para publicar el mismo contenido en las variantes con www, sin www, http o https:
    http://example.com/green-dresses
    https://example.com/green-dresses
    http://www.example.com/green-dresses
    
  • Si el contenido que proporcionas en un blog para distribuirlo a otros sitios se replica de forma parcial o total en esos dominios:
    https://news.example.com/green-dresses-for-every-day-155672.html (entrada distribuida) https://blog.example.com/dresses/green-dresses-are-awesome/3245/ (publicación original)

¿Por qué debería elegir una URL canónica?

A continuación, se describen varios motivos por los que deberías marcar explícitamente como canónica una página en un conjunto de páginas duplicadas o similares:

  • Para indicar la URL que quieres que se muestre en los resultados de la búsqueda. Es posible que prefieras que los usuarios lleguen a tu página de productos de vestidos verdes mediante https://www.example.com/dresses/green/greendress.html, en lugar de hacerlo por https://example.com/dresses/cocktail?gclid=ABCD.
  • Para consolidar los indicadores de los vínculos de páginas similares o duplicadas. Es útil permitir que los motores de búsqueda agrupen la información que tienen de diferentes URL (por ejemplo, vínculos a ellas) en una única URL preferida. De ese modo, los vínculos de otros sitios que dirijan a http://example.com/dresses/cocktail?gclid=ABCD se consolidarán con los que redireccionen a https://www.example.com/dresses/green/greendress.html.
  • Para simplificar las métricas de seguimiento de un mismo producto o tema. Cuando hay una variedad de URL, resulta más difícil obtener métricas consolidadas de un contenido específico.
  • Para gestionar el contenido distribuido. Si distribuyes tu contenido para que se publique en otros dominios, debes asegurarte de que la URL preferida aparezca en los resultados de la búsqueda.
  • Para ahorrar tiempo de rastreo en páginas duplicadas. Si quieres que Googlebot aproveche al máximo el tiempo que pasa en tu sitio, es mejor que rastree las páginas nuevas o actualizadas, en lugar de las versiones para dispositivos móviles y computadoras de escritorio de una misma página.

¿Cuál es mi URL canónica según Google?

Puedes usar la Herramienta de inspección de URL para ver cuál es la página que Google considera canónica. Ten en cuenta que, aunque selecciones específicamente una página canónica, Google puede elegir otra distinta a la tuya por varios motivos, como el rendimiento o el contenido.

Solución de problemas

Si una URL canónica se encuentra en una propiedad que no te pertenece, no podrás ver el tráfico de la página duplicada. Estos son algunos motivos comunes por los que una URL canónica puede estar en una propiedad distinta:

  • Variantes de idioma marcadas incorrectamente: Si tienes varios sitios web en los que se publica prácticamente el mismo contenido localizado para diferentes usuarios de todo el mundo, asegúrate de seguir nuestros lineamientos para sitios localizados.
  • Etiquetas canónicas incorrectas: Algunos sistemas de administración de contenido (CMS) o complementos de CMS pueden usar incorrectamente las técnicas de selección de páginas canónicas para dirigir a URL de sitios web externos. Revisa el contenido para comprobar si es tu caso. Si tu sitio indica una preferencia de URL canónica no esperada (quizás mediante el uso incorrecto de rel="canonical" o un redireccionamiento 301), corrige ese problema directamente.
  • Servidores mal configurados: Es posible que algunos errores de configuración de hosting provoquen una selección de URL multidominio inesperada. Por ejemplo:
    • Un servidor puede estar mal configurado y mostrar contenido de a.com ante la solicitud de una URL en b.com.
    • Dos servidores web no relacionados pueden mostrar páginas de errores leves 404 idénticas que Google no identifica como páginas de error.
  • Hackeo malicioso: En algunos ataques a sitios web, se agrega un código para que se muestre un redireccionamiento 301 HTTP o se inserte un elemento de vínculo rel="canonical" multidominio en la sección del <head> HTML o en el encabezado HTTP. Por lo general, el elemento agregado dirige al usuario a una URL que aloja contenido malicioso o generador de spam. En esos casos, es posible que nuestros algoritmos seleccionen la URL maliciosa o con spam en lugar de la URL en el sitio web comprometido.
  • Una copia del sitio web: En situaciones poco frecuentes, es posible que nuestro algoritmo seleccione una URL de un sitio externo que aloja tu contenido sin tu permiso. Si crees que otro sitio duplica tu contenido incumpliendo la ley de derechos de autor, puedes comunicarte con el host del sitio para solicitar que lo quite. Además, puedes solicitar que Google quite esa página de los resultados de la Búsqueda. Para hacerlo, debes presentar una solicitud en virtud de la ley Digital Millennium Copyright Act.

Cómo especificar una página canónica

Puedes indicar la página canónica de un conjunto de páginas duplicadas de varias maneras, en función del uso:

Método y descripción
Lineamientos generales Sigue estos lineamientos independientemente del método que utilices para seleccionar páginas canónicas.
Etiqueta rel=canonical <link>

Agrega una etiqueta <link> al código de todas las páginas duplicadas que dirija a la página canónica.

Ventajas:

  • Permite mapear una cantidad infinita de páginas duplicadas.

Desventajas:

  • Puede aumentar el tamaño de la página.
  • Puede resultar complicado mantener el mapeo en sitios grandes o en los que las URL cambian con frecuencia.
  • Solo funciona en páginas HTML, no en archivos (por ejemplo, PDF). En esos casos, puede utilizarse el encabezado HTTP rel=canonical.
Encabezado HTTP rel=canonical

Envía un encabezado rel=canonical en la respuesta de tu página.

Ventajas:

  • No aumenta el tamaño de la página.
  • Permite mapear una cantidad infinita de páginas duplicadas.

Desventajas:

  • Puede resultar complicado mantener el mapeo en sitios grandes o en los que las URL cambian con frecuencia.
Mapa del sitio

Indica las páginas canónicas en un mapa del sitio.

Ventajas:

  • Es fácil de hacer y de mantener, especialmente en sitios grandes.

Desventajas:

  • Aunque uses este método, Googlebot debe determinar las páginas duplicadas asociadas a las páginas canónicas que se declaran en el mapa del sitio.
  • El indicador que se envía a Googlebot es más débil que el que se envía con la técnica de mapeo rel=canonical.
Redireccionamiento 301 Con el redireccionamiento 301, puedes indicarle al robot de Google que prefieres una URL de redireccionamiento en lugar de otra. Utiliza este método solo cuando quieras que una página duplicada deje de estar disponible.
Variante de AMP Si una de las variantes es una página de AMP, debes seguir los lineamientos de AMP para indicar la página canónica y la variante de AMP.

Te recomendamos utilizar cualquiera de estos métodos, aunque no es obligatorio hacerlo. Si no indicas ninguna URL canónica, identificaremos como tal la que consideremos que es la mejor versión o URL.

Lineamientos generales

Independientemente del método que utilices para seleccionar páginas canónicas, sigue estos lineamientos generales.

Lineamientos generales

  • No uses el archivo robots.txt con fines de canonicalización.
  • No especifiques una página canónica mediante la herramienta para quitar URL, ya que se quitarán todas las versiones de una URL de la Búsqueda.
  • No indiques varias URL canónicas para una misma página con la misma técnica de canonicalización ni con una diferente (por ejemplo, no especifiques una URL en un mapa del sitio y otra URL de la misma página mediante rel="canonical").
  • No uses la etiqueta noindex para evitar que se seleccione una página canónica. Este método tiene como propósito excluir la página del índice, no administrar la elección de una página canónica.
  • tienes que especificar una página canónica cuando uses etiquetas hreflang. Indica una página canónica en el mismo idioma o, en el caso de que no esté disponible en ese idioma, selecciona el que consideres más adecuado.

  • tienes que usar la URL canónica como vínculo a tu sitio, no una URL duplicada. Usar de forma consistente la URL que consideras canónica ayuda a que Google comprenda tu elección.

Te recomendamos que uses HTTPS y no HTTP para URL canónicas

Google prefiere que se marquen como canónicas páginas HTTPS en lugar de sus equivalentes HTTP, a menos que se produzca alguno de los siguientes problemas o indicadores contradictorios:

  • La página HTTPS tiene un certificado SSL no válido.
  • La página HTTPS contiene dependencias que no son seguras (y no son imágenes).
  • La página HTTPS redirecciona a los usuarios a una página HTTP o hace que pasen por una página de este tipo.
  • La página HTTPS tiene un vínculo rel="canonical" que dirige a la página HTTP.

Si bien nuestros sistemas prefieren las páginas HTTPS a las HTTP de forma predeterminada, para asegurarte de que así sea, realiza cualquiera de las siguientes acciones:

  • Agrega redireccionamientos de las páginas HTTP a las páginas HTTPS.
  • Agrega un vínculo rel="canonical" que dirija a la página HTTPS desde la página HTTP.
  • Implementa HSTS.

Para evitar que Google marque de forma incorrecta la versión HTTP de una página como canónica, evita las siguientes prácticas:

  • Usar certificados SSL incorrectos o incluir redireccionamientos de HTTPS a HTTP. Cuando detectamos una de esas prácticas, preferimos usar la versión HTTP. Al implementar HSTS no se anula esta preferencia.
  • Incluir la página HTTP en tu mapa del sitio o entradas hreflang, en lugar de la versión HTTPS.
  • Implementar un certificado SSL/TLS para una variante de host incorrecta (por ejemplo, que example.com entregue el certificado de www.example.com). El certificado debe coincidir con la URL completa del sitio o debe ser un certificado comodín que pueda usarse en varios subdominios de un dominio.

Solo usuarios avanzados: indícale a Google que ignore los parámetros dinámicos

Usa la organización de parámetros para indicarle a Googlebot qué parámetros debe ignorar cuando rastree tu sitio. Al ignorar determinados parámetros, puedes reducir el contenido duplicado en el índice de Google y facilitar la tarea de rastrear tu sitio. Por ejemplo, si especificas que debe ignorarse el parámetro sessionid, Googlebot considerará que las dos URL siguientes son duplicadas:

  • https://www.example.com/dresses/green.php?sessionid=273749
  • https://www.example.com/dresses/green.php

Métodos específicos

Para indicar cuál es la URL canónica de un conjunto de URL duplicadas o páginas duplicadas o similares, sigue uno de los métodos que se describen a continuación.

Asegúrate de seguir los lineamientos generales que se describieron anteriormente, sin importar el método que uses.

Puedes agregar una etiqueta <link> en el encabezado de una página para indicar que se trata de una versión duplicada.

Supongamos que, aunque se pueda acceder al contenido desde varias URL, quieres que https://example.com/dresses/green-dresses sea la canónica. Para marcar esa URL como canónica, sigue estos pasos:

  1. Marca todas las páginas duplicadas con un elemento de vínculo rel="canonical". Agrega un elemento <link> con el atributo rel="canonical" a la sección <head> de páginas duplicadas que dirija a la página canónica, tal como se muestra a continuación:
    <link rel="canonical" href="https://example.com/dresses/green-dresses" />

  2. Si la página canónica tiene una variante para dispositivos móviles, agrega un vínculo rel="alternate" que dirija a esa versión:
    <link rel="alternate" media="only screen and (max-width: 640px)" href="http://m.example.com/dresses/green-dresses">

  3. Agrega cualquier hreflang o algún otro redireccionamiento apropiado para la página.

Usa encabezados HTTP rel="canonical"

Puedes usar encabezados HTTP rel="canonical" (en lugar de etiquetas HTML) para indicar la URL canónica de documentos que no sean HTML, como archivos PDF, en la configuración de tu servidor.

Por ejemplo, puedes mostrar un encabezado HTTP rel="canonical" como el siguiente para indicarle a Googlebot cuál es la URL canónica de un archivo PDF al que se puede acceder desde varias URL:

Link: <http://www.example.com/downloads/white-paper.pdf>; rel="canonical"

Actualmente, Google solo admite este método en los resultados de la Búsqueda web.

Usa un mapa del sitio

Elige una URL canónica para cada página de tu sitio y envíalas en un mapa del sitio. Todas las páginas incluidas en un mapa del sitio se sugieren como canónicas (si hay páginas duplicadas, Googlebot decidirá cuáles son en función de la similitud del contenido).

No garantizamos que las URL de un mapa del sitio se considerarán canónicas. Sin embargo, los mapas del sitio son una forma sencilla de determinar las URL canónicas de los sitios grandes, además de un método útil para indicarle a Google cuáles son las páginas de tu sitio que consideras más importantes.

No incluyas páginas que no son canónicas en un mapa del sitio. Solamente especifica las URL canónicas.

Usa redireccionamientos 301 para URL retiradas

Utiliza este método cuando quieras deshacerte de las páginas duplicadas que tengas y asegurarte de que la transición a las nuevas URL se realice sin problemas antes de retirar las antiguas.

Supongamos que se puede acceder a tu página de varias maneras:

  • https://example.com/home
  • https://home.example.com
  • https://www.example.com

Selecciona una de esas URL como canónica y usa redireccionamientos 301 para dirigir el tráfico de las otras URL a la preferida. Los redireccionamientos 301 del servidor son la mejor forma de garantizar que los usuarios y los motores de búsqueda se dirijan a la página correcta. Con el código de estado 301, se indica que una página se trasladó de forma permanente a una nueva ubicación.

Si utilizas un servicio de hosting web, busca la documentación correspondiente sobre cómo configurar redireccionamientos 301.