Em 2016, o Google lidou com mais de 3,2 trilhões de consultas de pesquisa, mas os resultados fornecidos pelo mecanismo de pesquisa representaram apenas uma fração do conteúdo disponível online. Muitas das informações disponíveis online não podem ser acessadas por mecanismos de pesquisa, portanto, você precisa usar ferramentas especiais ou investigar sites por conta própria para encontrar essas páginas ocultas. Conhecida como deep web, essas informações ocultas representam até 5.000 vezes o que está disponível usando técnicas de pesquisa típicas.
Tipos de conteúdo oculto
As páginas ocultas dos sites se enquadram em categorias que descrevem por que permanecem invisíveis para os mecanismos de pesquisa.
Alguns constituem conteúdo dinâmico, servido apenas quando um visitante emite uma solicitação específica em um site que usa código orientado por banco de dados para apresentar resultados direcionados. Por exemplo, essas páginas podem incluir resultados de compras com base em combinações específicas de critérios de produto. Os mecanismos de pesquisa não são projetados para rastrear e armazenar informações armazenadas nesses bancos de dados. Para encontrar essas páginas, você teria que ir ao site e pesquisar as informações específicas que está procurando ou usar um serviço de pesquisa orientado a banco de dados como o Bright Planet.
Algumas páginas não possuem links que as conectem a fontes pesquisáveis. Recursos temporários, como várias versões de sites em desenvolvimento, podem se enquadrar nessa categoria, assim como sites mal projetados. Por exemplo, se alguém criou uma página da web e a carregou no servidor do site, mas não conseguiu adicionar um link para ela nas páginas atuais do site, ninguém saberia que estava lá, incluindo os motores de busca.
Ainda mais páginas exigem credenciais de login para visualizá-las ou acessá-las, como sites de inscrição. Os web designers designam as páginas e seções dos sites como proibidas para os mecanismos de pesquisa, eliminando-os efetivamente de serem encontrados pelos meios convencionais. Para acessar essas páginas, você normalmente precisa criar uma conta antes de receber permissão para acessá-las.
Usando arquivos Robots.txt
Os mecanismos de pesquisa rastreiam as páginas de um site e indexam seu conteúdo para que ele possa ser exibido em resposta às consultas. Quando o proprietário de um site deseja excluir algumas partes de seu domínio desses procedimentos de indexação, ela adiciona os endereços desses diretórios ou páginas a um arquivo de texto especial denominado robots.txt, armazenado na raiz de seu site. Como a maioria dos sites inclui um arquivo de robôs, independentemente de adicionarem exclusões a ele, você pode usar o nome previsível do documento para exibir seu conteúdo.
Se você digitar "[nome de domínio] /robots.txt" sem as aspas na linha de localização de seu navegador, substituindo "[nome de domínio]" pelo endereço do site, o conteúdo do arquivo de robôs geralmente aparece na janela do navegador após você pressiona a tecla "Enter". As entradas precedidas de "disallow" ou "nofollow" representam partes do site que permanecem inacessíveis por meio de um mecanismo de pesquisa.
Hacking de sites do tipo "faça você mesmo"
Além dos arquivos robots.txt, você pode frequentemente encontrar conteúdo que de outra forma estaria oculto digitando endereços da web para páginas e pastas específicas em seu navegador. Por exemplo, se você estava olhando para o site de um artista e percebeu que cada página usava a mesma convenção de nomenclatura - como gallery1.html, gallery2.html, gallery4.html - você poderá encontrar uma galeria oculta digitando a página " gallery3.html. " no seu navegador.
Da mesma forma, se você vir que o site usa pastas para organizar as páginas - como example.com/content/page1.html, com "/ content" sendo a pasta - você poderá visualizar a pasta digitando o site e a pasta , sem uma página, como "example.com/content/" em seu navegador. Se o acesso à pasta não tiver sido desabilitado, você poderá navegar pelas páginas que ela contém, bem como pelas páginas em quaisquer subpastas, para encontrar conteúdo oculto.