Guia detalhado sobre como a Pesquisa Google funciona
A Pesquisa Google é um mecanismo de pesquisa totalmente automatizado que usa softwares conhecidos como rastreadores da Web, que exploram a Web regularmente para encontrar páginas a serem adicionadas ao nosso índice. Na realidade, a maioria das páginas listadas em nossos resultados de pesquisa não é enviada manualmente para inclusão. Elas são encontradas e adicionadas de maneira automática quando nossos rastreadores exploram a Web. Este documento explica as etapas de como a Pesquisa funciona no contexto do seu site. Esse conhecimento básico pode ajudar você a corrigir problemas de rastreamento, indexar suas páginas e saber como otimizar a exibição do seu site na Pesquisa Google.
Algumas observações antes de começar
Antes de falarmos sobre como a Pesquisa funciona, é importante observar que o Google não aceita pagamentos para rastrear um site com mais frequência nem para atribuir a ele uma classificação mais alta. Se alguém disser a você algo diferente, essa informação estará errada.
O Google não garante que vai rastrear, indexar ou exibir a página, mesmo que ela siga os Fundamentos da Pesquisa Google.
Apresentamos os três estágios da Pesquisa Google
A Pesquisa Google funciona em três estágios, e nem todas as páginas passam por todos eles:
- Rastreamento: o Google faz o download de textos, imagens e vídeos de páginas encontradas na Internet com programas automatizados chamados rastreadores.
- Indexação: o Google analisa os arquivos de texto, imagens e vídeo na página e armazena as informações no índice do Google, que é um grande banco de dados.
- Exibição dos resultados da pesquisa: quando um usuário faz uma pesquisa, o Google retorna informações relevantes para a consulta dele.
Rastreamento
A primeira etapa é descobrir quais páginas existem na Web. Não há um registro central de todas elas. Por isso, o Google precisa pesquisar páginas novas e atualizadas para adicionar à própria lista de páginas conhecidas. Esse processo é chamado de "descoberta de URL". Algumas páginas são conhecidas porque já foram visitadas pelo Google. Outras são detectadas quando o Google segue um link de uma página conhecida para uma nova. Por exemplo, quando uma página principal, como a de categoria, tem links para uma nova postagem do blog. Além disso, algumas são detectadas quando você envia uma lista de páginas (um sitemap) para o Google rastrear.
Depois que o Google descobre o URL de uma página, ele pode visitar (ou "rastrear") a página para verificar o conteúdo dela. Nós usamos um grande conjunto de computadores para rastrear bilhões de páginas na Web. O programa que faz a busca é chamado de Googlebot (também conhecido como rastreador, robô, bot ou indexador). O Googlebot usa um processo de algoritmos para determinar quais sites rastrear, com que frequência e quantas páginas precisam ser buscadas em cada site. Os rastreadores do Google também são programados para não rastrear o site muito rapidamente e evitar sobrecargas. Esse mecanismo se baseia nas respostas do site (por exemplo, erros HTTP 500 significam "lento") e configurações no Search Console
No entanto, o Googlebot não rastreia todas as páginas descobertas. Algumas páginas podem ser não permitidas para rastreamento pelo proprietário, já outras podem pedir login.
Durante o rastreamento, o Google renderiza a página e executa qualquer JavaScript encontrado usando uma versão recente do Chrome, semelhante à forma como o navegador renderiza as páginas que você acessa. A renderização é importante porque os sites geralmente dependem do JavaScript para exibir conteúdo na página. Sem a renderização, o Google talvez não detecte esse conteúdo.
O rastreamento depende da capacidade dos rastreadores do Google de acessar o site. Veja alguns problemas comuns com o acesso do Googlebot aos sites:
- Problemas com o servidor que processa o site
- Problemas na rede
- Regras robots.txt que impedem o acesso do Googlebot à página
Indexação
Depois que uma página é rastreada, o Google tenta identificar o conteúdo dela. Esse estágio é conhecido como indexação e inclui o processamento e a análise do conteúdo textual e das principais tags e atributos do conteúdo, como elementos <title>
e atributos alternativos, imagens, vídeos e muito mais.
Durante o processo de indexação, o Google determina se uma página é canônica ou uma cópia de outra na Internet. A canônica é a que talvez seja exibida nos resultados da pesquisa. Para selecionar a página canônica, primeiro agrupamos as páginas encontradas na Internet que têm conteúdo semelhante, processo que se chama "clustering". Em seguida, selecionamos a que melhor representa o grupo. As outras páginas do grupo são versões alternativas que podem ser exibidas em contextos diferentes. Por exemplo, se o usuário estiver pesquisando em um dispositivo móvel ou procurando uma página muito específica do cluster.
O Google também coleta indicadores sobre a página canônica e o conteúdo dela que podem ser usados na próxima etapa, em que exibimos a página nos resultados da pesquisa. Alguns indicadores incluem o idioma da página, o país em que o conteúdo está localizado, a usabilidade da página, entre outros.
As informações coletadas sobre a página canônica e o cluster dela podem ser armazenadas no índice do Google, um grande banco de dados hospedado em milhares de computadores. A indexação não é garantida. Nem todas as páginas processadas pelo Google são indexadas.
A indexação também depende do conteúdo e dos metadados da página. Estes são alguns problemas comuns de indexação:
- Baixa qualidade do conteúdo na página
-
Regras Robots
meta
que bloqueiam a indexação - O design do site que pode dificultar a indexação
Exibição dos resultados da pesquisa
Quando um usuário faz uma consulta, nossas máquinas pesquisam o índice de páginas correspondentes e retornam os resultados com maior qualidade e mais relevantes para a consulta dele. A relevância é determinada por centenas de fatores, que podem incluir informações como a localização, o idioma e o dispositivo do usuário (computador ou smartphone). Por exemplo, em uma pesquisa por "oficinas de conserto de bicicletas", os resultados seriam diferentes para um usuário de Paris e outro de Hong Kong.
O Search Console pode informar que uma página está indexada, mas você não a vê nos resultados da pesquisa. Confira os possíveis motivos:
- O conteúdo da página é irrelevante para as consultas dos usuários.
- A qualidade do conteúdo é baixa.
-
As regras Robots
meta
impedem a veiculação
Embora este guia explique como a Pesquisa funciona, estamos sempre trabalhando para melhorar nossos algoritmos. Siga o blog da Central da Pesquisa Google para acompanhar essas mudanças.