Mecanismo de busca - Parte 1

Baseado no livro: Web Marketing: Usando ferramentas de busca
De: Marcelo Silveira

ANÚNCIO

Toda vez que queremos encontrar algo na internet, vamos até uma caixa de texto (busca) do nosso navegador ou da própria interface de algum mecanismo de busca e digitamos um termo ou palavra chave como "hospedagem de site" por exemplo; clicamos em pesquisar e na maioria das vezes não damos conta de qual foi o "truque" que o buscador usou para nos apresentar uma lista de páginas(sites) que atendem(na maioria das vezes) com relevância ao termo que digitamos.
Sobre qual o "truque", ou quais os "truques" utilizados pelos buscadores é o que falaremos nesta série de artigos.

Um pouco de história

ANÚNCIO

Antigamente a Internet era um conjunto de sites FTP, onde localizar um arquivo específico era como encontrar uma agulha no palheiro. Para contornar esta dificuldade foi criada a primeira ferramenta de busca usada na internet, chamava-se Archie, e foi criada por um estudante da McGill University chamado Alan Emtage, em 1990. Embora não possa ser comparado aos atuais mecanismos de busca, o Archie facilitou muito a vida dos usuários da época.
Em 1991 surgiu o Gopher, criado por outro estudante chamado Mark McCahill. Da fusão entre estes dois programas surgiu o Veronica(Very Easy Rodent-Oriented Net-wide Index to Computerized Archives) e o Jughead (Jonzy´s Universal Gopher Hierarchy Excavation and Display). Estes programas indexavam documentos em formato texto e os usuários tinham permissão para procurar por palavras chaves nos seus bancos de dados.
Em 1993 Mathew Gray desenvolveu o Wandex que, a partir de então, já fazia a indexação e a busca no índice de páginas web.
Na verdade o Wandex revolucionou e tornou-se a base para o desenvolvimento dos atuais mecanismos de busca.
De 1993 em diante foram criados diversos outros motores de busca como Yahoo, Lycos, Infoseek, Altavista, Inktomi, Ask Jeeves, Google, MSN Search.

O Mecanismo de Busca

ANÚNCIO

Os mecanismos de busca utilizam softwares, que de forma simplicada podem ser dividos em três partes:

1 - Os Robôs (spiders, crawlers, webbots).

2 - A Base de Dados, que fica armazenada num computador chamado Servidor do Mecanismo de Busca, e é também chamada de índice ou catálogo.

3 - O Programa de Busca, que percorre a base de dados procurando pela URL, termo ou palavra chave informado na caixa de texto do navegador.

Os robôs ou spiders(programas automatizados), visitam e recolhem informações de uma página web como: links de entrada e saída, URL da página, palavras chave, título, expressões, links internos e externos, e indexam (armazenam) num grande banco de dados(a Base de Dados).
Os mecanismos de busca utilizam programas de busca ou algorítmos de busca, para fazer todo o trabalho; um algorítmo é, em resumo, uma forma de se resolver um determinado problema através de equações matemáticas, os algorítmos(quase sempre mais de um) tentam colocar nas primeiras páginas de resultado, as páginas que tenham maior relevância com a palavra chave ou termo digitado pelo usuário.
Diversos fatores entre eles, o número de vezes que o termo pesquisado apareçe no documento, o número de links que apontam para a página e o texto âncora, são utilizados para o cálculo da relevância.
Cada mecanismo de busca usa um algorítmo, ou algorítimos diferentes, alguns exemplos de algorítimo de busca são:

Busca por Satifação e Restrição

Bastante utilizado na web este algorítmo "varre" os dados de várias formas diferentes, quando um conjunto de restrições é atendido a solução é descoberta.

Busca por Árvore

Numa busca por árvore devemos imaginar uma árvore de ponta cabeça, ou seja, com a raiz para cima e as folhas para baixo. Na busca por árvore um conjunto de dados é procurado do mais particular ao mais importante, ou vice-versa.

Busca por Lista

Neste tipo de busca a procura é por uma única chave e o dados varridos de forma linear. A busca por lista pode ser demorada, já que o resultado é quase sempre um único elemento, que se torna muito restrito quando procurado entre bilhões.

Busca SQL

Neste tipo de busca utiliza-se o mesmo processo do mecanismo por árvore, com a diferença que a busca é feita de uma forma não-hierárquica e qualquer subconjunto de dados pode ser pesquisado, o que torna a busca SQL bem mais fácil de ser realizada.
Estes são exemplos de apenas alguns dos algorítimos de busca utilizados, existem muitos outros.

Na continuação deste artigo falaremos do Ranking dos resultados nos mecanismos de busca.