Mejoras en el manejo de las URL con parámetros

miércoles, 21 de septiembre de 2011

Es posible que ya hayáis notado que la función Organización de parámetros ha desaparecido de la sección Configuración del sitio > Configuración de las Herramientas para webmasters de Google. Pero no temáis; ahora podéis encontrarla bajo un nuevo nombre: ¡Parámetros de URL! Además de cambiarle el nombre, hemos actualizado y mejorado esta función. Esperamos que la encontréis todavía más útil. La configuración de los parámetros de URL realizada con la versión anterior se verá automáticamente en la versión nueva. Antes de desvelar todas las cosas interesantes que es posible hacer ahora con Parámetros de URL, os recordamos (o presentamos, si no conocíais esta función) el propósito de esta función y cuándo resulta útil emplearla.

Cuándo se utiliza
Parámetros de URL ayuda a controlar qué URL de un sitio deben ser rastreadas por el robot de Google, en función de los parámetros que aparecen en dichas URL. Esta función proporciona un método sencillo para evitar que se rastree contenido de un sitio por duplicado. Ahora es posible rastrear un sitio más eficientemente, reduciendo el uso de ancho de banda y probablemente permitiendo la indexación de más contenido único del sitio. Usar esta función puede ser una buena idea en aquellos casos en que se sospecha que la cobertura de un sitio por parte del robot de Google no es todo lo buena que podría ser. ¡Pero una gran capacidad conlleva una gran responsabilidad! Esta función solo se debe usar cuando se esté seguro del comportamiento de los parámetros de URL del sitio. En caso contrario, se podría impedir, por error, el rastreo de algunas URL, con lo cual el contenido dejaría de estar accesible para el robot de Google.



Mucho por hacer
Muy bien, pues; ahora podemos hablar de las novedades y mejoras. En primer lugar, además de asignar una acción de rastreo a un parámetro individual, ahora se puede describir el comportamiento del parámetro. Para comenzar, se indica si el parámetro sirve para alterar el contenido de la página o no. Si el parámetro no afecta al contenido de la página, entonces ya está todo hecho. El robot Google seleccionará URL con un valor representativo de ese parámetro y rastreará las URL con ese valor. Cualquier valor elegido es válido, ya que el parámetro no altera el contenido. No obstante, si el parámetro sí que cambia el contenido de una página, ahora es posible asignar una de cuatro estrategias de rastreo para que Google la utilice con ese parámetro:
  • Dejar que Googlebot decida,
  • Todas las URL
  • Solo URL con el valor = x
  • Ninguna URL
También hemos añadido la posibilidad de indicar el valor específico que se desea usar, con la opción "Solo URL con el valor = x". Ya no es necesario ceñirse a la lista que proporcionábamos nosotros. Opcionalmente, también es posible indicar qué hace exactamente el parámetro (si ordena, separa en páginas, determina el contenido, etc.). Una última mejora es que, para cada parámetro, intentamos mostrar una muestra de URL de ejemplo del sitio que el robot de Google haya rastreado con ese parámetro en particular.

De las cuatro opciones de la lista anterior, la opción "Ninguna URL" es nueva y merece una atención especial. Esta opción es la más restrictiva y, para una URL en particular, tiene precedencia sobre la configuración de otros parámetros que pueda contener esa URL. Esto significa que si esa URL contiene un parámetro para el cual se ha configurado la opción "Ninguna URL", esa URL no se rastreará nunca, incluso aunque para otros parámetros de URL se haya seleccionado "Todas las URL". Esta opción se debe usar con cuidado. El segundo ajuste más restrictivo es "Solo URL con el valor = x".

Veámoslo en acción
Ahora vamos a hacer algo divertido y ejercitar las neuronas con un ejemplo:
- - -
Había una vez una tienda online, modaencantada.example.com . El sitio web empleaba parámetros de URL y se podía acceder al mismo contenido a través de múltiples URL. Un día, el propietario de la tienda pensó que, con tantas URL redundantes, tal vez el robot de Google no podía rastrear su sitio a fondo. Así que envió a su asistente CuriosoPreguntón a ver al GranMagoWeb para obtener su consejo sobre cómo usar la función Parámetros de URL para reducir el contenido duplicado rastreado por el robot de Google. El GranMagoWeb era famoso por su sabiduría. Echó un vistazo a los parámetros de la URL y de inmediato propuso la siguiente configuración:


Nombre del parámetro ¿Influencia en el contenido? ¿Qué debería Googlebot rastrear?
trackingId Ninguna Una URL de representación
sortOrder Ordena el contenido Solo URL con el valor = ‘lowToHigh’
sortBy Ordena el contenido Solo URL con el valor = ‘price’
filterByColor Restringe el contenido Ninguna URL
itemId Especifica el contenido Todas las URL
page Pagina el contenido Todas las URL

Como era de esperar por su naturaleza, CuriosoPreguntón no pudo evitar empezar a hacer preguntas:

CuriosoPreguntón : le has indicado al robot de Google que elija una URL de representación para trackingId (un valor elegido por el robot de Google). ¿Por qué no seleccionar "Solo URL con el valor = x" y elegir yo mismo el valor?
GranMagoWeb : mientras rastreaba la Web, el robot de Google ha descubierto las URL siguientes enlazando a vuestro sitio:
  1. modaencantada.example.com/faldas/?trackingId=aaa123
  2. modaencantada.example.com/faldas/?trackingId=aaa124
  3. modaencantada.example.com/pantalones/?trackingId=aaa125
Imagínate que tuvieses que indicar al robot de Google que solo rastrease las URL con “trackingId=aaa125”. En ese caso, el robot de Google no rastrearía las URL 1 y 2, porque ninguna de ellas tiene el valor aaa125 para trackingId. Su contenido no se rastrearía ni se indexaría y ninguna de las elegantes faldas para hadas de vuestro inventario aparecería en los resultados de las búsquedas de Google. No. En este caso, elegir una URL de representación es la opción adecuada. ¿Por qué? Porque le indica al robot de Google que, si encuentra dos URL en la Web que solo se diferencien por este parámetro (como pasa con las URL 1 y 2 de arriba), entonces solamente necesita rastrear una de ellas (cualquiera servirá), y con eso bastará para obtener todo el contenido. En el ejemplo de arriba, se rastrearán las dos URL anteriores, ya sean 1 y 3, como 2 y 3. Así no se perderá ninguna falda ni pantalón.

CuriosoPreguntón : ¿Qué hay del parámetro sortOrder ? No me importa que los elementos aparezcan en la lista en orden ascendente o descendente. Por qué no dejamos que Google decida un valor representativo?
GranMagoWeb : A medida que el robot de Google rastree podría encontrar las URL siguientes:
  1. modaencantada.example.com/faldas/?pagina=1&sortOrder=price&sortOrder=’lowToHigh’
  2. modaencantada.example.com/faldas/?pagina=1&sortOrder=price&sortOrder=’HighToLow’
  3. modaencantada.example.com/faldas/?pagina=2&sortOrder=price&sortOrder=’lowToHigh’
  4. modaencantada.example.com/faldas/?pagina=2&sortOrder=price&sortOrder=’HighToLow’
Fíjate en cómo el primer par de URL (1 y 2) solo se distinguen por el valor del parámetro sortOrder, tal como sucede con las URL del segundo par (3 y 4). Sin embargo, las URL 1 y 2 generarán contenidos distintos: la primera de ellas mostrará las faldas más baratas y la segunda las más caras. Esto sirve como primer indicio de que usar un único valor representativo no es una buena opción en este caso. Además, si dejas que el robot de Google elija un único valor representativo entre un conjunto de URL que solo difieran en el parámetro sortOrder, podría elegir un valor distinto cada vez. En el ejemplo anterior, del primer par de URL se podría elegir la URL 1 (sortOrder=’lowToHigh’). Mientras que, del segundo par, se podría elegir la URL 4 (sortOrder=’HighToLow’). En tal caso, el robot de Google rastrearía solo las faldas más económicas (dos veces):
  • modaencantada.example.com/faldas/?pagina=1&sortBy=price&sortOrder=’lowToHigh’
  • modaencantada.example.com/faldas/?pagina=2&sortBy=price&sortOrder=’HighToLow’
Las faldas más caras no se rastrearían de ningún modo. Al tratar con parámetros de ordenación, la consistencia es esencial. Se debe ordenar siempre del mismo modo.

CuriosoPreguntón : ¿Qué hay del valor de sortBy ?
GranMagoWeb : es un caso muy parecido al atributo sortOrder. Te interesa que las URL que se rastreen de tus listados estén ordenadas de forma consistente en todas las páginas, ya que de lo contrario, algunos artículos podrían quedar fuera del alcance del robot de Google. Sin embargo, debes ir con cuidado al elegir un valor. Si en tu tienda se venden libros y zapatos, sería mejor no seleccionar el valor "title" porque las URL que apunten a zapatos nunca contendrán "sortBy=title" y, en consecuencia, no se rastrearán. De forma parecida, "sortBy=size" funciona bien para rastrear los zapatos, pero no para los libros. Ten en cuenta que la configuración de los parámetros afecta a todo el sitio web.

CuriosoPreguntón : ¿Por qué no rastrear las URL con el parámetro filterByColor ?
GranMagoWeb : imagínate que tienes una lista de faldas de tres páginas. Unas cuantas son azules, otras son rojas y otras son verdes.
  • modaencantada.example.com/faldas/?pagina=1
  • modaencantada.example.com/faldas/?pagina=2
  • modaencantada.example.com/faldas/?pagina=3
Esta lista se puede filtrar. Cuando un usuario selecciona un color, obtiene dos páginas de faldas azules:
  • modaencantada.example.com/faldas/?pagina=1&filterByColor=azul
  • modaencantada.example.com/faldas/?pagina=2&filterByColor=azul
Parecen páginas nuevas (el conjunto de artículos es distinto de todas las demás páginas), pero realmente no hay contenido nuevo en ellas, puesto que todas las faldas azules ya aparecían en las tres páginas originales. No es necesario rastrear las URL que delimitan el contenido por color, puesto que el contenido que se sirve en esas URL ya ha sido rastreado. Hay una cuestión importante a tener en cuenta aquí: antes de desactivar el rastreo de URL seleccionando la opción "Ninguna URL", asegúrate de que el robot de Google pueda acceder a ese contenido de algún otro modo. Si pensamos en nuestro ejemplo, el robot de Google necesita poder encontrar los tres primeros enlaces en tu sitio y no debería haber nada que impidiese rastrearlos.
- - -

Si un sitio tiene parámetros de URL que puedan generar incidencias de duplicación de contenido, deberíais probar la nueva función Parámetros de URL de las Herramientas para webmasters de Google. Os invitamos a contarnos vuestras opiniones y, si tenéis alguna pregunta, no dudéis en enviarla al Foro de ayuda para webmasters .

Publicado por Kamila Primke, Ingeniero de software, equipo de Herramientas para webmasters de Google