Webinsider

Criação

Marcello Póvoa
Convergência

De Lascaux ao Google

14 de agosto de 2002, 0:00

A busca na web já percorreu muitos passos e está apenas começando.

Por Marcello Póvoa

A ânsia de compreender a existência sempre nos fez tentar organizar o conhecimento que nós mesmos geramos. Este instinto incrustado em nossos DNAs faz com que o universo de informação “conhecido” venha aumentando significativa e ininterruptamente ao longo do tempo.

Dos pictogramas pré–históricos em Lascaux, passando por bibliotecas no século XI com uma dezena de livros manuscritos, até terabytes em bancos de dados processados por chips de silício. As fases refletem o fenomenal crescimento do volume de informação disponível e suas respectivas ferramentas de registro e organização. O fato é que estamos sempre “procurando” em todas as amplitudes da ação, seja o telefone da pizzaria ou o elo perdido de Darwin.

No entanto, um limitador de nossa eficiência em lidar com a informação sempre foi a necessidade de integração das diversas fontes de conhecimento, onde estas estiverem. A informação precisar interagir como um sistema comunitário, no qual as partes individuais se retroalimentam e o sistema cresce como um todo. Exatamente como seres humanos, supostamente os processadores mais inteligentes conhecidos, sempre fizeram em sua história social. Simplificando, de nada adianta para a humanidade um eremita hippie descobrir a cura do câncer em sua gruta… e nunca difundir tal conhecimento.

Assim, surgiu em anos razoavelmente recentes um conceito extremamente eficiente de integração: redes de computadores e bancos de dados, interligando de forma ágil e poderosa diversos centros de informação. Nesta linhagem surge finalmente a maior de todas as redes, conectando virtualmente todo o planeta: a internet.

Busca atual: um modelo em mutação. Fica imediatamente claro o valor e conseqüente necessidade de uma ferramenta de busca poderosa o suficiente para encontrar uma agulha neste palheiro de proporções planetárias.

Inquestionavelmente, o modelo predominante nos primeiros anos da internet foi o do Yahoo!, o que o fez tornar–se o site mais popular da web. O modelo consiste em organizar toda a informação em um sistema de diretórios, e ter uma busca que “indexa” tais diretórios.

Apesar de popular, este modelo tem um problema imediato. A análise do conteúdo dos sites e sua respectiva classificação no sistema de diretórios é realizada fundamentalmente por seres humanos – não por software. Ou seja, por mais bem gerenciado que seja este grupo de pessoas, é inadmissível a premissa de que é possível organizar a relevância de todo o mega universo da internet apenas com uma força tarefa humana – especialmente se considerarmos que este universo está em constante mutação e crescimento exponencial.

Não por acaso, o sistema de busca que mais cresce em popularidade na internet é baseado em um algoritmo desenvolvido por dois jovens “drop–outs” do doutorado na Universidade de Stanford. O sistema foi batizado como Google e sua grande sacada consiste em – ao invés de catalogar a informação somente baseado no conteúdo de um site – analisar, também, a popularidade dos links que levam ao conteúdo deste site. O Google pode assim classificar com bastante precisão a relevância desta fonte de informação dentro do tema pesquisado.

Apesar da complexidade matemática do algoritmo, do ponto de vista de experiência do usuário a busca Google é de uma simplicidade franciscana. Coloca–se a palavra chave e vem uma lista de resultados em fila por relevância. A qualidade das respostas em geral é estupenda. Nota–se que neste modelo não temos uma dependência tão forte em força humana. Em compensação, temos a demanda de uma brutalidade de força de CPU (servidores) para processar este conceito.

Busca no futuro: uma web de robôs.
O modelo de análise de conteúdo de um site para determinar relevância (ex: o melhor site sobre a história do futebol) tem como fator limitador a necessidade de um cérebro humano para julgar qualidade entre os milhares de sites sobre o tema. Enquanto o julgamento no Yahoo! é feito diretamente por uma pessoa, o Google pega uma “carona” no resultado desta capacidade de discernimento humana, analisando os links determinados por pessoas para um site sobre futebol, por exemplo. Ou seja, ao invés de focar somente no conteúdo do site, o Google assume que se pessoas produziram links é porque julgaram que aquele site é relevante dentro do tema procurado.

No entanto, a necessidade de análise do conteúdo do site propriamente dito é inevitável no futuro. O problema atual é que a web é baseada em relações individuais, e não contextuais. Ou seja, uma busca em um texto procura pelo número de ocorrências de uma palavra no HTML de um site (ex: a palavra “futebol” aparece 98 vezes em um site). Ou seja, um site com 98 ocorrências da palavra “futebol” não tem necessariamente mais qualidade e assim relevância do que um site com 12 ocorrências desta mesma palavra. É uma busca na força bruta, sem inteligência.

O modelo de busca predominante hoje não consegue entender o contexto semântico da palavra, sendo assim incapaz de julgar de forma inteligente a qualidade de um texto sobre história do futebol, por exemplo.

Tudo isso começa a mudar com a introdução do XML em websites. Com este protocolo, a informação pode conter descrições, e assim possuir significado semântico. Novos robôs de busca começam a proliferar pela web tentando “ler” verdadeiramente os textos, compreendendo o significado das palavras e seu conseqüente valor. Uma melhor autodescrição dos conteúdos somada à inteligência dos robôs vai permitir uma análise qualitativa que independente de uma força tarefa humana.

As aplicações comerciais, educacionais, corporativas deste fenômeno são gigantescas. Por exemplo, o caríssimo leitor poderia estar procurando um texto sobre “investigações sobre busca na web” e, se um robô me desse à honra de considerar relevante, recomendaria este texto em frente a vossos globos oculares.

Vale notar que no Brasil temos centros de desenvolvimento de buscas de grande qualidade, como no Departamento de Informática da PUC–RJ e no C.E.S.A.R, na Universidade Federal de Pernambuco.

Mais uma vez na web, podemos dizer que “estamos apenas começando…” ;–) [Webinsider]

Sobre o autor

Marcello PóvoaMarcello Póvoa (mpovoa@mppsolutions.com) é sócio-diretor da MPP Solutions.

Apoio:

  • LayerDev Serviços de Webhosting Profissional

Palavras-chave relacionadas a este texto: Sem Categoria

Comentários

Ninguém comentou o artigo "De Lascaux ao Google"

Avisos
Os ítens com asterisco ( * ) são campos de preenchimento obrigatório.
Todos os links inseridos nos comentários possuem o atributo rel="nofollow" para impedir com que user agents (como os mecanismos de busca) sigam os links inseridos para desestimular spammers.
Todos devem se identificar através de e-mail válido.
Os e-mails dos usuários não serão divulgados no site.
Comentários:

Preencha os dados abaixo e clique em enviar

Webinsider