Pobre
estrogonoficamente automatizado Google, aquele que ignora tudo o que não
foi encontrado pelos seus robôs e também aquilo que, mesmo encontrando,
resolve não te mostrar.
ALAUMITCHU EQUISPLEIN:
Quando alguém faz uma pesquisa, na verdade não está procurando em toda a internet, mas sim num índice que o Google cria com os sites que ele conseguiu achar. Para fazer esse índice, que funciona como uma biblioteca em constante expansão, os engenheiros usam programas chamados indexadores (ou spiders, aranha em inglês).
Os spiders começam buscando algumas páginas, depois
seguem os links dessas páginas e buscam aquelas para as quais elas
direcionam, e depois os links, e depois as direções, e assim
sucessivamente, até grande parte da web ser indexada. O resultado são
bilhões de páginas armazenadas em milhões de máquinas. Quando alguém
tecla uma pesquisa no site do Google, o software busca no índice para encontrar o que inclui os termos digitados. E aí está a primeira coisa que ele ignora: tudo o que não foi indexado por seus spiders. Quando alguém faz uma pesquisa, na verdade não está procurando em toda a internet, mas sim num índice que o Google cria com os sites que ele conseguiu achar. Para fazer esse índice, que funciona como uma biblioteca em constante expansão, os engenheiros usam programas chamados indexadores (ou spiders, aranha em inglês).
Mas
quais os critérios para algo ser selecionado ou não? Bem, alguns sites
simplesmente não querem ser encontrados por qualquer pessoa. Um tal de
arquivo robots.txt, quando adicionado ao site, funciona como filtro para
os robôs buscadores. Os webmasters podem, com ele, controlar as
permissões de acesso a determinadas páginas. Outra forma de não entrar
para a lista é o Google não conseguir encontrar nenhum link que aponte para o site.
O segundo motivo de ignorância googleiana é a lei.
Tudo que viola as leis nacionais e internacionais não aparecerá na
busca. O que é protegido por copyright, como músicas e filmes, além de
outras ilegalidades mais sinistras como pornografia infantil, pode até
ser encontrado, mas será ignorado na apresentação dos resultados, com
exceção de alguns deslizes.
O terceiro é o que viola os padrões da web.
Existe um regulamento, mantido pela The World Wide Web Consortium – ou
apenas W3C – que diz como a web deve ser e se comportar. Se não está nos
padrões, ou se está fora da web, não existe para o Google. Nessa categoria está a já famosa Deep Web, aquele canto obscuro da internet.
Outro ponto importante é que o Google
não entende a semântica das coisas, jovem fluminense. Ele não é
sensível como eu, então não é capaz de ver o que está em imagens sem uma
legenda correspondente. Quer dizer, ele até consegue ler um arquivo,
mas não entende, somente pela imagem, o que há na foto. É por isso que,
mesmo quando indexada, uma imagem pode não ser apresentada como
resultado de pesquisa sem uma legenda correspondente. Quer testar?
Procure por discreto no Google Images. Já aviso que é NSPT (Não é Seguro
Para o Trabalho) ou, como vocês aprendizes teclam, NSFW.
(Ah, websites com spam, malwares ou com vírus ficam de fora das buscas também.)
Fontes:
Marcos Baumann, analista de sistemas e CEO da W6, especializada em
otimização de performance web; Daniel Imamura, analista SEO, super e Google
