Um guia sobre os sistemas de classificação da Pesquisa Google
O Google usa sistemas de classificação automatizados que analisam muitos fatores e indicadores de centenas de bilhões de páginas da Web e outros conteúdos no índice da Pesquisa para mostrar os resultados mais relevantes e úteis, tudo isso em uma fração de segundo. Esta página é um guia sobre alguns dos nossos sistemas de classificação mais importantes. Ela abrange alguns sistemas que fazem parte dos nossos principais sistemas de classificação, que são as tecnologias subjacentes que produzem resultados da pesquisa para consultas. Além disso, ela abrange alguns sistemas envolvidos em necessidades específicas de classificação.
Nossos principais sistemas de classificação são projetados principalmente para funcionar no nível da página, usando uma variedade de indicadores e sistemas para entender como classificar páginas individuais. Os indicadores e classificadores em todo o site também são usados e contribuem para entendermos as páginas. Ter alguns indicadores bons em todo o site não significa que todo o conteúdo de um site vai sempre ter uma boa classificação, assim como ter alguns indicadores ruins não significa que todo o conteúdo de um site vai ter uma classificação ruim.
Aprimoramos esses sistemas regularmente com testes e avaliações rigorosos e enviamos notificações sobre atualizações nos nossos sistemas de classificação quando elas são úteis para os criadores de conteúdo e outros usuários.
Acesse também nosso site sobre Como funciona a Pesquisa para entender como nossos sistemas de classificação, combinados com outros processos, trabalham juntos para que a Pesquisa Google atenda à nossa missão de organizar as informações do mundo para que sejam úteis e universalmente acessíveis.
BERT
As representações de codificadores bidirecionais de transformadores (BERT, na sigla em inglês) são um sistema de IA que o Google usa, para entender como as combinações de palavras expressam diferentes significados e intenções.
Sistemas de informação de crises
O Google desenvolveu sistemas para exibir informações úteis e oportunas em períodos de crise, sejam situações de crise pessoal, desastres naturais ou outras crises generalizadas:
- Crise pessoal: nossos sistemas trabalham para entender quando as pessoas estão buscando informações sobre situações de crise pessoal para exibir linhas diretas e conteúdo de organizações confiáveis em determinadas consultas relacionadas a suicídio, assédio sexual, ingestão de veneno, violência de gênero ou dependência química. Saiba mais sobre como as informações sobre crises pessoais são exibidas na Pesquisa Google.
- Alertas de SOS: em momentos de desastres naturais ou situações de crise generalizadas, nosso sistema de Alertas de SOS mostra atualizações de autoridades locais, nacionais ou internacionais. Elas podem incluir sites e números de telefone de emergência, mapas, traduções de frases úteis, oportunidades de doação e muito mais. Saiba mais sobre como os Alertas de SOS funcionam e como eles fazem parte dos alertas de emergência do Google, que ajudam em inundações, incêndios, terremotos, furacões e outros desastres.
Sistemas de eliminação de duplicação
As pesquisas no Google podem encontrar milhares ou mesmo milhões de páginas da web correspondentes. Algumas delas podem ser muito semelhantes. Nesses casos, nossos sistemas mostram apenas os resultados mais relevantes para evitar repetições desnecessárias. Saiba mais sobre como funciona a eliminação de duplicação e como ver os resultados omitidos, quando isso acontecer.
A eliminação de duplicação também acontece com os trechos em destaque. Se uma página da Web for elevada com um trecho em destaque, ela não vai ser repetida na primeira página de resultados. Isso organiza os resultados e ajuda as pessoas a localizar informações relevantes com mais facilidade.
Sistema de domínio de correspondência exata
Nossos sistemas de classificação consideram as palavras no nome de domínio como um dos muitos fatores considerados para determinar se o conteúdo é relevante para uma pesquisa. No entanto, nosso sistema de domínio de correspondência exata funciona para garantir que o conteúdo hospedado em domínios projetados para corresponder exatamente a consultas específicas não receba muito crédito. Por exemplo, alguém pode criar um nome de domínio com as palavras "melhores lugares para almoçar" esperando que essas palavras melhorem a classificação do conteúdo. Nosso sistema se ajusta para evitar isso.
Sistemas de atualização
Temos vários sistemas de consultas que exigem atualização criados para mostrar conteúdo mais atualizado em consultas relevantes. Por exemplo, se alguém pesquisar sobre um filme que acabou de ser lançado, provavelmente quer receber avaliações recentes, e não artigos mais antigos, de quando a produção começou. Outro exemplo: geralmente uma pesquisa por "terremoto" pode mostrar materiais sobre preparação e recursos. No entanto, se um terremoto tiver ocorrido recentemente, talvez sejam exibidos artigos de notícias e conteúdo mais atualizado.
Sistemas de análise de links e PageRank
Temos vários sistemas que entendem como as páginas são vinculadas entre si para determinar o conteúdo delas e indicar quais são mais úteis para uma consulta. Dentre eles, está o PageRank, um dos nossos principais sistemas de classificação usado desde o lançamento do Google. Para saber mais, leia o artigo de pesquisa original do PageRank e a patente. A maneira como o PageRank funciona evoluiu muito desde então e continua fazendo parte dos nossos principais sistemas de classificação.
Sistemas de notícias locais
Temos sistemas que identificam e exibem fontes de notícias locais sempre que forem relevantes, como os recursos "Principais notícias" e "Notícias locais".
MUM
O modelo unificado multitarefas (MUM, na sigla em inglês) é um sistema de IA capaz de entender e gerar linguagem. No momento, ele não é usado na classificação geral da Pesquisa, apenas para algumas aplicações específicas, como melhorar pesquisas em informações sobre vacinas contra a COVID-19 e melhorar as chamadas de trechos em destaque que mostramos.
Correspondência neural
A correspondência neural é um sistema de IA que o Google usa para entender representações de conceitos em consultas e páginas e fazer a correspondência entre elas.
Sistemas de conteúdo original
Temos sistemas que ajudam a garantir que conteúdo original apareça em destaque nos resultados da pesquisa, incluindo o relatório de originalidade, antes de páginas que apenas fazem citações. Isso inclui o suporte a uma marcação canônica especial que os criadores de conteúdo podem usar para nos ajudar a entender melhor a página principal, se ela estiver duplicada em vários lugares.
Sistemas de rebaixamento baseado em remoção
O Google tem políticas que permitem a remoção de certos tipos de conteúdo. Se processarmos um alto volume dessas remoções envolvendo um site específico, vamos usar isso como um indicador para melhorar nossos resultados. Especificamente:
- Remoções legais: Quando recebemos um grande volume de solicitações válidas de remoção por direitos autorais envolvendo um determinado site, podemos usar isso para rebaixar outros conteúdos do site em nossos resultados. Dessa forma, se houver outro conteúdo com violação, é menos provável que ele seja encontrado pelas pessoas em vez do conteúdo original. Aplicamos indicadores de rebaixamento semelhantes às reclamações que envolvem difamação, produtos falsificados e remoções com mandados. No caso de material de abuso sexual infantil, sempre removemos esse tipo de conteúdo quando identificado e rebaixamos todo o material de sites com uma alta proporção de material de abuso sexual infantil.
- Remoções de informações pessoais: Se processarmos um grande volume de remoções de informações pessoais envolvendo um site com práticas abusivas de remoção de conteúdo, vamos rebaixar outros conteúdos do site em nossos resultados. Também observamos se o mesmo padrão de comportamento está acontecendo com outros sites e, em caso afirmativo, aplicamos rebaixamentos ao conteúdo desses sites. Podemos aplicar práticas de rebaixamento semelhantes para sites que recebem um alto volume de remoções de conteúdo envolvendo conteúdo de doxxing, imagens pessoais explícitas criadas ou compartilhadas sem consentimento ou conteúdo falso não consensual explícito.
Sistema de classificação de trecho
A classificação de trecho é um sistema de IA que usamos para identificar seções individuais ou "trechos" de uma página da Web para entender melhor a relevância dela para uma pesquisa.
RankBrain
O RankBrain é um sistema de IA que nos ajuda a entender como as palavras se relacionam a conceitos. Assim, podemos retornar conteúdo mais relevante mesmo que ele não tenham todas as palavras exatas usadas na pesquisa, entendendo que o conteúdo está relacionado a outras palavras e conceitos.
Sistemas de informações confiáveis
Vários sistemas operam de várias maneiras para mostrar as informações mais confiáveis possíveis, como ajudar a exibir páginas mais confiáveis e rebaixar conteúdo de baixa qualidade e destacar jornalismo de qualidade. Nos casos em que não é possível exibir informações confiáveis, nossos sistemas exibem automaticamente alertas de conteúdo sobre tópicos que mudam rapidamente ou quando nossos sistemas não têm muita confiança na qualidade geral dos resultados disponíveis para a pesquisa. Elas oferecem dicas sobre como pesquisar de maneiras que levem a resultados mais úteis. Saiba mais sobre nossa abordagem para apresentar informações de alta qualidade na Pesquisa.
Sistema de avaliações
O sistema de avaliações serve para recompensar melhor as avaliações de alta qualidade, conteúdo que oferece análises inteligentes e pesquisas originais e é escrito por especialistas ou entusiastas que conhecem bem o tema.
Sistema de diversidade de sites
Nosso sistema de diversidade de sites impede a exibição de mais de duas páginas da Web do mesmo site nos principais resultados, para que nenhum site domine todos os principais resultados. No entanto, é possível que mais de dois resultados sejam exibidos caso nossos sistemas determinem que eles são especialmente relevantes para uma pesquisa específica. A diversidade de sites geralmente trata subdomínios como parte de um domínio raiz. Por exemplo: os resultados de um subdomínio (subdomain.example.com) e do domínio raiz (example.com) são consideradas do mesmo site. No entanto, às vezes os subdomínios são tratados como sites separados por motivos de diversidade, quando considerados relevantes.
Sistemas de detecção de spam
Ninguém quer uma caixa de entrada cheia de spam, por isso os filtros de spam são tão úteis. A Pesquisa enfrenta um desafio semelhante, porque a Internet inclui uma grande quantidade de spam que, se não tratada, impede a exibição dos resultados mais úteis e relevantes. Usamos uma variedade de sistemas de detecção de spam, incluindo o SpamBrain, para lidar com conteúdos e comportamentos que violam as políticas de spam. Esses sistemas são atualizados constantemente para acompanhar a evolução das ameaças de spam.
Sistemas desativados
Os sistemas a seguir são mencionados para fins históricos. Eles foram incorporados a sistemas sucessores ou fizeram parte dos nossos principais sistemas de classificação.
Sistema de conteúdo útil
Anunciada em 2022 como a "Atualização de conteúdo útil", esse sistema foi criado para garantir que as pessoas encontrem conteúdo original e útil escrito por pessoas e para pessoas nos resultados da pesquisa, em vez de conteúdo criado principalmente para gerar tráfego do mecanismo de pesquisa. Em março de 2024, ele evoluiu e se tornou parte de nossos principais sistemas de classificação, já que eles usam uma variedade de sinais e sistemas para apresentar resultados úteis aos usuários.
Hummingbird
Essa foi uma melhoria importante nos nossos sistemas gerais de classificação feita em agosto de 2013. Nossos sistemas de classificação continuaram evoluindo desde então.
Sistema Panda
Esse sistema foi criado para garantir a exibição de conteúdo original e de alta qualidade nos nossos resultados da pesquisa. Anunciado em 2011 com o apelido de "Panda", ele evoluiu e se tornou parte dos nossos principais sistemas de classificação em 2015.
Sistema Penguin
Esse sistema foi criado para combater o spam por links. Anunciado em 2012 com o apelido de "Atualização Penguin", ele foi integrado aos nossos principais sistemas de classificação em 2016.