Guía detallada sobre cómo funciona la Búsqueda de Google
La Búsqueda de Google es un motor de búsqueda completamente automatizado que usa software conocido como rastreadores web para explorar la Web con regularidad en busca de páginas que se puedan agregar a nuestro índice. De hecho, la mayoría de las páginas que se muestran en los resultados no se envían de forma manual, sino que se encuentran y se agregan automáticamente cuando nuestros rastreadores exploran la Web. En este documento, se explican las etapas del funcionamiento de la Búsqueda en el contexto de tu sitio web. Con estos conocimientos básicos, podrás corregir los problemas de rastreo, indexar tus páginas y obtener más información para optimizar la forma en que aparece tu sitio en la Búsqueda de Google.
Algunas notas antes de comenzar
Antes de entrar en detalles sobre el funcionamiento de la Búsqueda, es importante que tengas en cuenta que Google no acepta pagos para rastrear un sitio con mayor frecuencia ni otorgarle una clasificación más alta. Si alguien te dice lo contrario, se equivoca.
Google no garantiza que se rastree, indexe o publique tu página, incluso si esta sigue los conceptos básicos sobre la Búsqueda de Google.
Presentamos las tres etapas de la Búsqueda de Google
La Búsqueda de Google funciona en tres etapas, pero no todas las páginas pasan por cada una de ellas:
- Rastreo: Google descarga texto, imágenes y videos de páginas que encontró en Internet con programas automatizados llamados rastreadores.
- Indexación: Google analiza el texto, las imágenes y los videos de la página y almacena la información en el índice de Google, una gran base de datos.
- Publicación de resultados de la búsqueda: Cuando un usuario realiza una búsqueda en Google, Google muestra información relevante para esta.
Rastreo
La primera etapa consiste en averiguar qué páginas existen en la Web. Ya que no hay un registro central donde figuren todas las páginas web existentes, Google debe buscar páginas nuevas y actualizadas constantemente para agregarlas a su lista de páginas conocidas. Este proceso se llama "Descubrimiento de URL". Algunas páginas son conocidas porque Google ya las visitó en algún momento. Por otro lado, Google descubre otras páginas cuando sigue vínculos en páginas ya descubiertas que se dirigen a páginas aún no descubiertas: por ejemplo, una página principal que tiene un vínculo a una entrada de blog nueva. También se descubren otras páginas cuando envías una lista de páginas (un mapa del sitio) para que Google las rastree.
Una vez que Google descubre la URL de una página, puede visitarla (o "rastrearla") para ver su contenido. Usamos una cantidad enorme de computadoras para rastrear miles de millones de páginas web. El programa que realiza la búsqueda se llama Googlebot (también conocido como "rastreador", "robot", "bot" o "araña"). Googlebot utiliza un proceso algorítmico para determinar los sitios que se rastrearán, la frecuencia del rastreo y la cantidad de páginas de cada sitio que formarán parte de esa búsqueda. Los rastreadores de Google también están programados para no rastrear el sitio demasiado rápido a fin de evitar sobrecargarlo. Este mecanismo se basa en las respuestas del sitio (por ejemplo,los errores HTTP 500 significan "lentitud") y laconfiguración de Search Console.
Sin embargo, Googlebot no rastrea todas las páginas que descubrió. Es posible que el propietario del sitio no permita el rastreo de algunas páginas y que a otras no se pueda acceder sin antes acceder al sitio.
Durante el rastreo, Google renderiza la página y ejecuta cualquier JavaScript que encuentre con una versión reciente de Chrome, de manera similar a cómo el navegador renderiza las páginas que visitas. La renderización es importante porque los sitios web suelen depender de JavaScript para agregar contenido a la página y, sin ella, es posible que Google no lo vea.
El rastreo depende de si los rastreadores de Google pueden acceder al sitio o no. Algunos problemas comunes con el acceso de Googlebot a sitios son los siguientes:
- Problemas con el servidor que controla el sitio
- Problemas de red
- Reglas de robots.txt que impiden que Googlebot acceda a la página
Indexación
Después de que se rastrea una página, Google intenta comprender de qué se trata. Esta etapa se llama indexación e incluye el procesamiento y el análisis del contenido de texto, las etiquetas y los atributos de contenido clave, como los elementos <title>
y los atributos alt, las imágenes, los videos y mucho más.
Durante el proceso de indexación, Google determina si una página es una versión duplicada de otra página en Internet o la canónica. La página canónica es la que puede aparecer en los resultados de la búsqueda. Para seleccionar la página canónica, primero agrupamos las páginas que encontramos en Internet con contenido similar (también conocido como agrupamiento en clústeres) y, luego, seleccionamos la que es más representativa del grupo. Las otras páginas del grupo son versiones alternativas que pueden publicarse en diferentes contextos, como cuando el usuario realiza una búsqueda desde un dispositivo móvil o busca una página muy específica de ese clúster.
Google también recopila indicadores sobre la página canónica y su contenido, que se pueden usar en la siguiente etapa, en la que publicamos la página en los resultados de la búsqueda. Algunos indicadores incluyen el idioma de la página, el país donde se encuentra el contenido, la usabilidad de la página, etcétera.
La información recopilada sobre la página canónica y su clúster se puede almacenar en el índice de Google, una gran base de datos alojada en miles de computadoras. No se garantiza la indexación, ya que no se indexarán todas las páginas que Google procesa.
La indexación también depende del contenido de la página y sus metadatos. Estos son algunos problemas comunes de indexación:
- La calidad del contenido de la página es baja.
-
Las reglas Robots
meta
no permiten la indexación. - El diseño del sitio web podría dificultar la indexación.
Publicación de resultados de la búsqueda
Cuando un usuario ingresa una consulta, nuestras máquinas buscan en el índice las páginas que coinciden y muestran los resultados que consideramos más relevantes y de mejor calidad respecto de esa consulta. La relevancia está determinada por cientos de factores, que pueden incluir información como la ubicación del usuario, el idioma y el dispositivo (computadora de escritorio o teléfono). Por ejemplo, si un usuario busca "tiendas de reparación de bicicletas" en París, encontrará distintos resultados que los que vea alguien que consulte lo mismo en Hong Kong.
Según la consulta del usuario, también cambian las funciones de búsqueda que aparecen en la página de resultados de búsqueda. Por ejemplo, si buscas "taller de reparaciones de bicicletas", es probable que se muestren resultados locales y no resultados de imágenes. Sin embargo, si buscas "bicicleta moderna", es más probable que se muestren resultados de imágenes, pero no resultados locales. Puedes explorar los elementos de la IU más comunes de la Búsqueda web de Google en nuestra Galería de elementos visuales.
Search Console podría indicarte que se indexó una página, pero no la ves en los resultados de la búsqueda. Esto podría deberse a lo siguiente:
- El contenido de la página es irrelevante para las búsquedas de los usuarios.
- La calidad del contenido es baja.
-
Las reglas Robots
meta
impiden la publicación.
Si bien en esta guía se explica cómo funciona la Búsqueda, trabajamos constantemente para mejorar nuestros algoritmos. Puedes realizar un seguimiento de estos cambios si consultas el blog de la Central de la Búsqueda de Google.