quarta-feira, 15 de dezembro de 2010

Crawling content - I #in




Os grafos acima são resultantes do mesmo tipo de consulta. No caso da WEB 1.0 o crawler da VOSON foi programado para buscar páginas da WWW que continham "I Haven't Read This Book, but...", a rede era demasiadamente grande (40K vértices), então acabei por limitar em 3 páginas da Amazon nos EUA, no Canadá e no Reino Unido. O que trouxe uma sub rede Amazon com 1.5K vértices ligados a Amazon. Já no caso da WEB 2.0 optei por realiza o mesmo procedimento, agora o crawler do NODEXL para Twitter foi programado para buscar posts do Twitter que continham "I Haven't Read This Book, but...", a rede era formada por cerca de 800 vértices (perfis do Twitter). Fora a distinção no conteúdo dos Tweets contra os testemunhos na Amazon, podemos apontar um distinção na topologia das redes. A rede WEB 1.0 é hierárquica, no Twitter é anárquica. Quando se trata da propagação de uma MEME (Buzz word).

Porém, quando pegamos um perfil e analisamos sua rede de "replies to" e "mentions" o que podemos ver? Fizemos isso o perfil indicado abaixo em até dois graus de separação e limitado a 100 pessoas. É aquele no indicado pela seta vermelha indiscreta.


Resultou no seguinte grafo -  "replies to" e "mentions":


A rede muda de topologia, e veja onde está nosso perfil em análise. É o cara com laços em vermelho. Agora vemos uma outra rede, com nós não coincidentes aos do grafo anterior. Ainda com uma estrutura anárquica, porém com maior conexidade - maior número de ligação entre os perfis. Vejam a posição de nosso perfil (o cara com laços em vermelho), é periférica.

Uma rede  "replies to" e "mentions" para "I Haven't Read This Book, but...", somente se racionalizou através uma estrutura hierárquica formada pelas páginas da Amazon Books e talvez por serem uma arena onde há impessoalidade. Bom tema para estudos futuros. 


terça-feira, 14 de dezembro de 2010

Anatomy of BUZZ - Capítulo 02 #in

O segundo capítulo de Emanuel Rosen - The Anatomy of Buzz, é intitulado "I Haven't Read This Book, but ...". Não se trata da leitura deste livro, mas de qualquer livro. O capítulo trata da opinião que NÃO é baseada na experiência, mas baseada em pistas. Todos sabemos que tudo o que se escreve na internet fica lá guardado e exposto a qualquer busca realizada no Google, Yahoo!, Bing etc.

Muito bem, o autor inicia falando de seu interesse por um tema e sua busca por mais livros a respeito deste tema. Algo trivial para quem é pesquisador. Porém, o autor encontrou um livro que parecia ter chamado sua atenção e logo foi analisar a opinião dos leitores. Encontrou a revisão de uma pessoa que afirmava não ter lido o livro, porém classificava o livro como 3 estrelas (em 5). Sua pergunta foi: "But a 3 star review from someone who hasn't even read your book?"

Não existem muitos dados a respeito, então eu, o autor deste Blog, decidi pesquisar qual a extensão desta rede e qual sua visibilidade e popularidade. Enfim, cheguei aos seguintes números, após realizar um Crowler do argumento em inglês "I Haven't Read This Book, But", aproximadamente 40K vértices (páginas da WWW) mencionam ou contém um hyperlink para o conteúdo semelhante ao argumento consultado acima. Destes, 1.5K vértices estão no EUA, Canadá e UK nas páginas da Amazon Books. Em particular a Amazon.UK refere-se a página de UM livro denominado "Who's Afraid of Jane Austen?: How to Really Talk About Books You Haven't Read". Trata-se de uma sub-rede, a rede completa é impossível de ser analisada em meu computador, mas podemos ter uma boa amostra em como facilmente podemos escorregar para uma página que contenha revisões de pessoas que não leram o livro - ver o grafo abaixo.


O grafo acima não contém apenas revisões sem leitura, elas estão misturadas ao conteúdo das revisões. Mas o que interessa é que há um universo de revisões categorizáveis como positivas e negativas - goodmouth or badmouth como Emanuel Rosen as classifica.

Noutra perspectiva, fui ao encalço do mesmo argumento, porém agora no Twitter. Uma ferramenta de internet diferente das páginas da WWW. E cujo efeito é de curto prazo, os posts permanecem na internet pra sempre (como tudo da WWW), mas trata-se de um mensagem curta - 140 caracteres no máximo.  Podemos ver o grafo desta rede abaixo.


Foram encontrados 784 vértices (perfis do Twitter) - dos meses de 10 de outubro a 11 de dezembro - com cerca de 144 "mentions" de algum seguidor. Olhando o conteúdo dos posts, pude observar que a tensão não está na opinião sobre algo não lido, a tensão está em sobre não ter lido ainda. Não li todos os tweets, apenas uma amostra aleatória de aproximadamente 10%. Mas ficou claro que se trata de dois universos diferentes. No primeiro os vértices são portais e no segundo os vértices são pessoas. São redes paralelas. No primeiro são buracos onde vc pode cair e acaba por contemplar um conteúdo numa relação indireta com outros usuários. No segundo a relação é pessoa-a-pessoa. Na amostra lida não houve nenhum caso de "badmouth". O que não elimina a sua existência.

Bom, em seu livro Emanuel Rosen sugere que tiremos vantagem das duas categorias - Goodmouth and Badmouth. Para melhor compreendermos ele sugere a re-categorização em promotores e difamadores por baseado-em-experiência e segunda-mão. Quatro categorias são criadas:

  • promotores baseado-em-experiência
  • promotores segunda-mão
  • difamadores baseado-em-experiência
  • difamadores segunda-mão

Devemos dedicar especial atenção promotores baseado-em-experiência e escutar os outros pois podem ter algo de valor. Além disso 64% das ocorrências são categorizáveis como Goodmouth, apenas 8% são Badmouth - Alguma pesquisa ocorrida nos EUA.  Porém o autor sugere que 8% pode causar muitos danos a imagem e reputação. Ao longo do tempo a reputação pode blindar a organização contra badmouthers.

Nota: O gráfico WEB 1.0 - Hyperlinks somente foi possível com uso do VOSON.