Una guía sobre los sistemas de clasificación de la Búsqueda de Google
Google usa sistemas de clasificación automatizados que observan muchos factores e indicadores de cientos de miles de millones de páginas web y otros contenidos del índice de la Búsqueda para mostrar los resultados más relevantes y útiles, todo en una fracción de segundo. Esta página es una guía para comprender algunos de nuestros sistemas de clasificación más relevantes. Abarca algunos sistemas que forman parte de nuestros sistemas de clasificación principales, que son las tecnologías subyacentes que producen resultados de la búsqueda en respuesta a consultas. También cubre algunos sistemas involucrados con necesidades de clasificación específicas.
Nuestros sistemas de clasificación principales están diseñados, en su mayoría, para funcionar a nivel de la página, con una variedad de indicadores y sistemas para comprender cómo clasificar páginas individuales. También se usan indicadores y clasificadores para todo el sitio, que contribuyen a nuestra comprensión de las páginas. Tener algunos indicadores positivos para todo el sitio no significa que todo el contenido de un sitio siempre tendrá una clasificación alta, del mismo modo que tener algunos indicadores negativos para todo el sitio no significa que todo el contenido de un sitio tendrá una clasificación baja.
Mejoramos de forma periódica estos sistemas con pruebas y evaluaciones rigurosas y notificamos las actualizaciones de nuestros sistemas de clasificación cuando pueden ser útiles para los creadores de contenido y otros usuarios.
También puedes visitar el sitio Cómo funciona la Búsqueda para comprender cómo nuestros sistemas de clasificación, junto con otros procesos, trabajan en conjunto para que la Búsqueda de Google cumpla con nuestra misión de organizar la información del mundo y hacerla accesible y útil de forma universal.
BERT
La representación de codificador bidireccional de transformadores (BERT) es un sistema de IA que Google usa y que nos permite comprender cómo las combinaciones de palabras expresan diferentes significados y propósitos.
Sistemas de información sobre crisis
Google desarrolló sistemas para proporcionar información útil y oportuna en momentos de crisis, ya sea que se trate de situaciones de crisis personal, desastres naturales o demás situaciones de crisis generalizadas:
- Crisis personal: Nuestros sistemas trabajan para comprender cuándo los usuarios buscan información sobre situaciones de crisis personales con el fin de mostrar líneas directas y contenido de organizaciones confiables para ciertas consultas relacionadas con el suicidio, el abuso sexual, la intoxicación, la violencia de género o la adicción a las drogas. Obtén más información sobre cómo se muestra la información de crisis personales en la Búsqueda de Google.
- Alertas de emergencia: En tiempos de desastres naturales o situaciones de crisis generalizadas, nuestro sistema de Alertas de emergencia trabaja para mostrar actualizaciones de autoridades locales, nacionales o internacionales. Estas actualizaciones pueden incluir números de teléfono y sitios web de emergencia, mapas, traducciones de frases útiles, oportunidades de donación y mucho más. Obtén más información sobre cómo funcionan las Alertas de emergencia y cómo son parte de las alertas de crisis de Google que ayudan en momentos de inundaciones, incendios forestales, terremotos, huracanes y otros desastres.
Sistemas de anulación de duplicación
Las búsquedas en Google pueden encontrar miles o incluso millones de páginas web que coinciden. Algunas pueden ser muy similares entre sí. En esos casos, nuestros sistemas muestran solo los resultados más relevantes para evitar duplicaciones poco útiles. Obtén más información sobre cómo funciona la anulación de duplicación y cómo ver los resultados omitidos si lo deseas cuando ocurre esta anulación.
La anulación de duplicación también ocurre con los fragmentos destacados. Si se eleva una ficha de página web para que se convierta en un fragmento destacado, no la repetiremos más adelante en la primera página de resultados. Esto ordena los resultados y ayuda a las personas a encontrar información relevante con mayor facilidad.
Sistema de dominio de concordancia exacta
Nuestros sistemas de clasificación consideran las palabras de los nombres de dominio como uno de muchos factores a fin de determinar si el contenido es relevante para una búsqueda. Sin embargo, nuestro sistema de dominios de concordancia exacta trabaja para garantizar que no le otorguemos demasiado crédito al contenido alojado en dominios diseñados para concordar exactamente con consultas específicas. Por ejemplo, alguien podría crear un nombre de dominio que contenga las palabras "mejores-lugares-para-almorzar" con la esperanza de que todas esas palabras en el nombre de dominio impulsen el contenido a una clasificación alta. Nuestro sistema se ajusta para ello.
Sistemas de actualización
Contamos con varios sistemas de "consultas que merecen actualización" diseñados para mostrar contenido más actualizado en las consultas donde se espera. Por ejemplo, si alguien busca una película que se acaba de estrenar, es probable que desee ver opiniones recientes en lugar de artículos más antiguos de cuando comenzó la producción. Otro ejemplo: Por lo general, una búsqueda de "terremoto" podría mostrar material sobre preparación y recursos. Sin embargo, si recientemente hubo un terremoto, es posible que aparezcan artículos de noticias y contenido más actualizado.
Sistemas de análisis de vínculos y PageRank
Contamos con varios sistemas que comprenden cómo las páginas se vinculan entre sí como una forma de determinar de qué se tratan las páginas y cuáles podrían ser más útiles en respuesta a una consulta. Entre ellos, se encuentra PageRank, uno de nuestros sistemas de clasificación principales que se usó cuando se lanzó Google por primera vez. Si te interesa, puedes obtener más información en el artículo de investigación original y la patente de PageRank. El funcionamiento de PageRank evolucionó mucho desde entonces y continúa siendo parte de nuestros sistemas de clasificación principales.
Sistemas de noticias locales
Contamos con sistemas que trabajan para identificar y mostrar las fuentes de noticias locales cuando sea relevante, como a través de nuestras funciones "Noticias destacadas" y "Noticias locales".
MUM
El modelo unificado multitarea (MUM) es un sistema de IA capaz de comprender y generar lenguaje. Por el momento, no se usa para la clasificación general en la Búsqueda, sino para algunas aplicaciones específicas, como a fin de mejorar las búsquedas de información sobre la vacuna contra el COVID-19 y mejorar el texto destacado de los fragmentos destacados que mostramos.
Concordancia neuronal
La concordancia neuronal es un sistema de IA que Google usa para comprender las representaciones de conceptos en consultas y páginas y hacerlas coincidir entre sí.
Sistemas de contenido original
Contamos con sistemas para garantizar que mostremos contenido original de forma prominente en los resultados de la búsqueda, incluidos los informes de originalidad, antes de quienes solo lo citan. Esto incluye la compatibilidad con un lenguaje de marcado canónico especial que los creadores pueden usar para ayudarnos a comprender mejor cuál es la página principal si se duplicó en varios lugares.
Sistemas de descenso de nivel basados en eliminaciones
Google tiene políticas que permiten quitar ciertos tipos de contenido. Si procesamos un volumen alto de tales eliminaciones relacionadas con un sitio en particular, lo usamos como indicador para mejorar nuestros resultados. En particular:
- Eliminaciones de carácter legal: Cuando recibimos un alto volumen de solicitudes válidas de eliminación por incumplimiento de los derechos de autor relacionadas con un sitio determinado, podemos usarlas para descender el nivel de otro contenido del sitio en nuestros resultados. De esta manera, si hay otros contenidos en incumplimiento, es menos probable que las personas los encuentren en comparación con el contenido original. Aplicamos indicadores de descenso de nivel similares a las demandas por difamación y productos falsificados y a eliminaciones por orden judicial. En el caso de material de abuso sexual infantil (CSAM), siempre quitamos ese contenido cuando se identifica y descendemos de nivel todo el contenido de los sitios que tienen una gran proporción de contenido de CSAM.
- Eliminaciones de información personal: Si procesamos una gran cantidad de eliminaciones de información personal relacionadas con un sitio que tiene prácticas de eliminación abusivas, descendemos de nivel otros contenidos del sitio en nuestros resultados. También analizamos si el mismo patrón de comportamiento ocurre con otros sitios y, si es así, aplicamos el descenso de nivel al contenido en esos sitios. Es posible que apliquemos prácticas de descenso de nivel similares en los sitios que reciben un alto volumen de eliminaciones de contenido que incluye contenido de doxing, imágenes personales explícitas creadas o compartidas sin consentimiento contenido explícito falso sin consentimiento.
Sistema de clasificación de pasajes
La clasificación de pasajes es un sistema de IA que usamos para identificar secciones individuales o "pasajes" de una página web para comprender mejor la relevancia de una página respecto de una búsqueda.
RankBrain
RankBrain es un sistema de IA que nos ayuda a comprender cómo se relacionan las palabras con los conceptos. Significa que podemos mostrar mejor el contenido relevante, incluso si no contiene todas las palabras exactas que se usan en una búsqueda, si comprendemos que el contenido está relacionado con otras palabras y conceptos.
Sistemas de información confiables
Varios sistemas trabajan de varias maneras a fin de mostrar la información más confiable posible, como para ayudar a mostrar páginas más confiables y descender de nivel el contenido de baja calidad y para elevar el periodismo de calidad. En los casos en los que falte información confiable, nuestros sistemas mostrarán automáticamente avisos de contenido sobre temas que cambian con rapidez o cuando nuestros sistemas no confíen en la calidad general de los resultados disponibles para la búsqueda. Estos brindan sugerencias para realizar búsquedas de un modo que podría generar resultados más útiles. Obtén más información sobre nuestro enfoque para proporcionar información de alta calidad en la Búsqueda.
Sistema de opiniones
El objetivo del sistema de opiniones es recompensar mejor las opiniones de alta calidad, es decir, contenido que brinda análisis detallados e investigaciones originales y está redactado por expertos o aficionados que conocen bien el tema.
Sistema de diversidad del sitio
Nuestro sistema de diversidad de sitios funciona de manera tal que no mostramos generalmente más de dos fichas de página web del mismo sitio en nuestros resultados principales, de modo que ningún sitio tiende a dominarlos todos. Sin embargo, es posible que mostremos más de dos fichas en casos en los que nuestros sistemas determinen que es muy relevante hacerlo para una búsqueda en particular. Por lo general, la diversidad de sitios trata a los subdominios como parte de un dominio raíz. Es decir, se considerará que todas las fichas de un subdominio (subdominio.ejemplo.com) y el dominio raíz (ejemplo.com) pertenecen al mismo sitio. Sin embargo, a veces, los subdominios se tratan como sitios independientes para fines de diversidad cuando se consideran relevantes.
Sistemas de detección de spam
Nadie quiere que la carpeta Recibidos esté llena de spam, por lo que los filtros de spam son tan útiles. La búsqueda enfrenta un desafío similar, ya que Internet incluye una gran cantidad de spam que, si no se controla, nos impediría mostrar los resultados más útiles y relevantes. Empleamos una variedad de sistemas de detección de spam, incluido SpamBrain, para manejar el contenido y los comportamientos que infringen nuestras políticas de spam. Estos sistemas se actualizan de forma constante para mantenerse al tanto de las últimas formas en que evoluciona la amenaza de spam.
Sistemas retirados
Los siguientes sistemas se indican con fines históricos. Se incorporaron a sistemas sucesores o forman parte de nuestros sistemas de clasificación principales.
Sistema de contenido útil
Anunciado en 2022 como la "Actualización de contenido útil", este sistema estaba diseñado para garantizar que las personas vean contenido original y útil escrito por personas, para personas, en los resultados de la búsqueda, en lugar de contenido creado principalmente para generar tráfico en los motores de búsqueda. En marzo de 2024, evolucionó y se convirtió en parte de nuestros sistemas de clasificación principales, ya que estos usan una variedad de indicadores y sistemas para presentar resultados útiles a los usuarios.
Hummingbird
Esta fue una mejora importante de nuestros sistemas de clasificación generales realizada en agosto de 2013. Nuestros sistemas de clasificación siguieron evolucionando desde entonces, tal como lo habían hecho antes.
Sistema Panda
Este sistema estaba diseñado para garantizar una mejor calidad y que el contenido original apareciera en nuestros resultados de la búsqueda. Anunciado en 2011 y apodado el "Panda", evolucionó y se convirtió en parte de nuestros sistemas de clasificación principales en 2015.
Sistema Penguin
Este era un sistema diseñado para combatir el spam de vínculos. Anunciado en 2012 y apodado "actualización Penguin", se integró a nuestros sistemas de clasificación principales en 2016.