Webinsider

Redes sociais - Métricas

O ranking de conteúdos baseado em relevância

22 de junho de 2008, 23:04

É a lei de Zipf, linguista norte-americano, quase o enigma de Tostines: certos conteúdos são mais acessados porque são mais lidos e acabam mais lidos porque mais acessados.

Por JC Rodrigues

Um dos tais “poderes” da didaticamente chamada Web 2.0 é o ranking de conteúdos baseado em sua relevância para os usuários, traduzida, por sua vez, muitas vezes no número de acessos a determinados conteúdos ou de recomendações diretas dos consumidores.

Inicialmente, fazendo um parênteses, deixo claro que sou contra a terminologia “web 2.0″ pois acredito que a internet sempre foi descentralizada e, portanto, passível de colaboração; mas ele facilita a compreensão do momento de utilização em massa do meio digital para um determinado propósito.

Mas voltando ao cerne da questão, independente da utilização de relações semânticas (entre um conteúdo e uma palavra), a própria criação de um ranking é, de certa forma uma espécie de tagueamento, relacionando-se o conteúdo “x” com tags “isto é bom” ou “isto é ruim”.

Contudo, pode haver um grande desvio entre os resultados considerados até então democráticos sobre a relevância de determinados conteúdos. Neste ponto estou tratando de conteúdos que não possuem uma avaliação dos usuários (como uma escala de valores indicando o quão útil/relevante/bom é), mas aqueles cuja relevância é determinada unicamente pelo número de acessos e comentários, desde que o sistema que os gerencia não identifique se são positivos ou negativos.

Por exemplo, há pelo menos seis meses o artigo mais lido dentre todos do Webinsider é o que trata de Filmes raros e antigos de graça na internet. E legais, de autoria do subeditor do site, Paulo Rebêlo. Por favor, absolutamente nada contra o artigo, nada contra o Paulo, nem contra filmes raros e antigos de graça na internet, isto é apenas um exemplo prático do que estou discutindo.

Bem, por mais que consideremos que este artigo tem uma alta relevância e é acessado por muitas pessoas (justamente por isto figura em primeiro lugar do ranking), quantas destas pessoas o acessam justamente pelo fato de ele figurar no primeiro lugar do ranking? É quase o enigma de Tostines: é o mais acessado porque é o que mais se lê ou mais se lê porque ele é o mais acessado?

Extrapole este pensamento para qualquer tipo de ranking disponível a uma massa de consumidores. As - não tão - famosas “paradas de sucesso” da música brasileira, quantas pessoas não ouvem determinada música pelo simples fato de ela ser a música mais escutada?

Este comportamento pode, em partes, ser ilustrado pela Lei de Zipf. Citando a Wikipedia, George Kingsley Zipf (1902-1950) foi um lingüista e filologista norte-americano e que estudou ocorrências estatísticas em diferentes tipos de linguagem; seus estudos derivaram explicações sobre certas propriedades do comportamento coletivo na internet.

Seth Godin citou-o brevemente em seu livro Marketing: Idéia Vírus (2001) quando tratou de explicar o poder das recomendações na construção e fortalecimento de uma imagem corporativa.

Originalmente, as leis de Zipf tratam de relacionar a freqüência da ocorrência de determinados termos em um texto relacionando-a com uma ordenação, criando-se um ranking (ou, falando em internetês, um índice de relevância). Para quem quiser estudar a fundo estes conceitos recomendo um trabalho científico realizado por Vânia Guedes e Suzana Borschiver, que explica este e outros conceitos de bibliometria.

Além de unicamente checar acessos, é natural prever que, quanto mais visto for determinado conteúdo, maior a probabilidade de ele ser comentado, positiva ou negativamente. Sendo esta outra variável que determina o ranking do conjunto de conteúdos similares, haverá novamente um melhor posicionamento.

Neste cenário, um conjunto de fatores cíclicos acaba determinando que uma vez conquistada certa popularidade, pode haver uma tendência constante em se estar melhor posicionado em um ranking que considere apenas acessos e número de intervenções (comentários) como fatores de indicação de relevância.

Isto daria margem a uma prática - pessoalmente acho condenável - que é a manipulação de títulos e indicações mínimas da natureza do conteúdo (como uma descrição ou conjunto de tags) com intuito de gerar uma expectativa distorcida sobre a real natureza do que se vai ser acessado.

Traçando um paralelo com a mídia online, são os famosos banners teaser que não deixam claro o que se vai encontrar após o clique e estimulam o consumidor a pensar algo diferente ou mesmo não se ter a menor idéia do que irá encontrar na seqüência (mas que, ainda assim, ele clica porque é inusitado, curioso, irreverente, etc).

Numa agência em que trabalhei, costumávamos chamar estas peças de mídia com um apelido pouco familiar, que não me atrevo a citar, mas tem a ver com relações sexuais coletivas e pessoas públicas. Peças com “esta chamada” são aquelas criadas por alguém para fazer o usuário clicar sem pensar. Claro que demais métricas relacionadas à navegação, tempo de permanência, entre outras, deveriam ser consideradas mas, como bem se sabe, às vezes (para alguns anunciantes) não o são.

Mas voltando ao ponto sobre a relevância se auto-otimizando, como quebrar então este círculo vicioso? À primeira vista, eliminando a relação “acesso = relevância” como principal variável determinante, agregando a ela, sobretudo, um peso avaliativo dos usuários para que seja verificada também a eventual frustração deste para com o conteúdo acessado em função de um mau entendimento (ou má explicação) da informação mínima disponibilizada para que ele o acessasse.

Poder-se-ia até falar de uma convergência de fontes, identificando-se um mesmo conteúdo em diferentes locais e comparando diferentes avaliações de forma que uma pudesse influenciar a outra e determinar um identificador médio, mas é fácil aceitar que um mesmo objeto pode ter diferentes relevâncias em locais diferentes.

Em outra abordagem, também descrita no estudo supracitado, há uma variação da lei de Zipf formulada por Andrew D. Booth, engenheiro britânico, físico e cientista da computação, identificando que existem muitos elementos que possuem uma freqüência (relevância) muito baixa e, também por isto, similar. Isolando-se os dois extremos do ranking ter-se-ia, então, uma região de transição, onde aí sim estariam as verdadeiras palavras de maior relação semântica.

Independente da aplicação destas ou de outras soluções, sempre se deve olhar com cuidado qualquer Top10, pois Zipf pode estar tão presente quanto Murphy. [Webinsider]

.

Sobre o autor

JC Rodrigues (contato@jcrodrigues.com.br) é publicitário, pós-graduado em Tecnologia Internet, professor na ESPM e gerente de projetos em digital media da The Walt Disney Company. Possui um site.

Apoio:

  • LayerDev Serviços de Webhosting Profissional

Palavras-chave relacionadas a este texto: [ buscadores ] [ livros ]

Comentários

5 pessoas comentaram o artigo "O ranking de conteúdos baseado em relevância"

Miguel Dorneles Data: 24/06/2008 às 7:50 am

Atividade: Search Marketing

Cidade: São Paulo

JC, concordo que um índice de relevância não deveria ter no número de click-throughs uma métrica determinante da classificação dos seus itens, tanto é que o Google, buscador mais utilizado, não se apóia tanto nesse fator. Assim como também concordo com a idéia de que o simples fato de ter alguém me dando um link não faz do meu conteúdo algo necessariamente relevante para todos os usuários. Acho que aí está o grande desafio dos buscadores e a relevância semântica do conteúdo apresentado (seja uma página, um vídeo, uma imagem, no idioma X ou Y, etc.) é o que traçará a qualidade das páginas de resultado de busca nos próximos anos. Vejo duas coisas aí: 1) lógica de classificação e 2) forma de apresentação do conteúdo julgado mais relevante.

Belo artigo! :)

Fred Pacheco Data: 26/06/2008 às 9:46 pm

Atividade: Gerente de Inteligência de Mídia Online

Cidade: São Paulo

Compreendo a preocupação com o circulo vicioso. No entanto, acho que estas ferramentas de ranking colaborativos (2.0) são muito mais posivitas do que falhas.
Alguns elementos extra são bem vindos: avaliação diretas pelos usuários, tempo de permanencia nas páginas, se realizou a mesma busca novamente ou não, etc. Mas, da forma como é hoje, já ajuda bastante. Até pq para a relevância influenciar no acesso, precisa de tempo e muito acesso antes de obter a relevância.
Já imaginou se não ouvesse ordenação por relevância? Se a ordenação fosse apenas pelo número de vezes que o termo aparece na página?
Vamos usar o conhecimento que o grupo de usuários que ali passou antes já nos deu…

Durval Data: 30/06/2008 às 1:18 am

Atividade: Som e ar condicionado automotivo

Cidade: São Paulo

O principal problema esta em definir o que é realmente relevante.

Denis Stefanoviciaus D´anela Data: 01/07/2008 às 2:50 pm

Atividade: Mídia

Cidade: São Paulo

Penso ser esta relação o único e melhor modelo, ainda, para traçar um ranking existente,”relevância se auto-otimizando” pois é como o mercado conversa, forma opiniões e valores em sua máxima.

Andre Haddad Data: 27/07/2008 às 10:09 pm

Atividade:

Cidade: SP

Bom o artigo. Gostaria de lembrar que relevância é muito particular. O que é relavante para mim, por não ser relevante para você e vice-versa, além de poder mudar em certos períodos/tempos. []´s.

Avisos
Os ítens com asterisco ( * ) são campos de preenchimento obrigatório.
Todos os links inseridos nos comentários possuem o atributo rel="nofollow" para impedir com que user agents (como os mecanismos de busca) sigam os links inseridos para desestimular spammers.
Todos devem se identificar através de e-mail válido.
Os e-mails dos usuários não serão divulgados no site.
Comentários:

Preencha os dados abaixo e clique em enviar

Outrolado.com.br

Leia

Eu e meu concorrente no Google AnalyticsComparação de marcas: o serviço Ibope NetRatings, pago, compara métricas de seu site com os concorrentes; Google Analytics tem uma função similar mas não revela com quem você está sendo comparado. Por JC Rodrigues

Usabilidade não é mais a mesma, mudou para melhorLembramos com mais facilidade de coisas que apelam para mais de um sentido. Objetos que possuam apenas o apelo funcional tendem a ser invisíveis, o que é ruim para diferenciar produtos em mercados competitivos. Por Amyriz Fernandez

O que freia ambientes colaborativos na empresaEmpresas que desejam implementar ambientes de colaboração devem analisar com cuidado seis fatores capazes de inibir ou desestimular a proposta. Algumas abordagens ajudam a tratar cada um destes itens. Por Paulo Roberto Floriano

Há modelo de negócio para sites web 2.0 brasileiros?O mercado publicitário ainda está em transformação e uma nova geração de usuários sendo formada. Bom para o empreendedor, mas o caminho da sustentabilidade e lucratividade cada um vai ter que descobrir. Por Juliano Prado

Ruy Carneiro

Quando dados online fundamentam decisões off-lineAs ferramentas de web analytics produzem dados que nos ajudam a montar sites e campanhas mais eficientes. O interessante é que estes mesmos dados são muito úteis no ambiente off-line também. Por Ruy Carneiro

O futuro da comunicação? Google quer que seja deleEm um futuro não muito distante, os profissionais de propaganda poderão ter no Google a opção predominante para criar campanhas de sucesso, não importa se em jornais, TV ou até outdoors. Você concorda? Por Felipe Morais

A rede mundial de pessoas e essa coisa internetA cada dia, avalanches de novos brasileiros entram na internet. Nunca ouviram falar do Cadê?, desconhecem IRC, Napster, guerra dos browsers. E os mais velhos na coisa se sentem como petistas no poder.
Por Roberto Cassano

Software como serviço: benefícios e precauções SaaS (software-as-a-service) é o modelo onde as empresas deixam de comprar licenças e passam a ser “assinantes” dos softwares, que são acessados pela internet. Conheça os prós e os contra. Por Murilo Gun

A hora e a vez dos metadados, os dados sobre dadosO valor dos metadados para o negócio começa a ser reconhecido gradativamente - apesar do nome, um estigma muito sério que emperra sua aceitação mais acelerada. Por Luiz Pizani

Dataportability.org: uma ação para abrir o grafo socialO conteúdo que as pessoas produzem para as redes sociais atualmente fica preso nestes sites. Mas já há uma ação concreta no sentido de deixar que tudo seja livre e portável. Por Gilberto Alves Jr.

O que é grafo social e quem pode controlá-lo?Devemos trabalhar para que as pessoas possam ser donas de suas redes sociais nos diversos ambientes que frequentem e tenham controle sobre elas. E que seja uma solução livre. Por Gilberto Alves Jr.

Webinsider