Ferramentas Pessoais

Você está aqui: Página Inicial / Agência de Divulgação Científica / Notícias / Neofluxo 2014: da descoberta do Astroturfing ao processamento de linguagem natural

Neofluxo 2014: da descoberta do Astroturfing ao processamento de linguagem natural

06/10/2014 18h13

Se no período eleitoral de 2010 a ênfase do projeto Neofluxo estava nos indícios de agendamento de mídia e astroturfings, agora em 2014 o Grupo de Pesquisa Tecnologia, Comunicação e Ciência Cognitiva (Tecccog) se interessa especialmente pelo interagendamento em sua relação com posicionamentos e opiniões políticas, bem como com debates econômicos.

Com a modelagem do projeto inciada em julho de 2014, o Neofluxo 2014 tem seus primeiros resultados concentrados em dados coletados entre 13 e 21 de agosto, a partir da seleção de 54 perfis de influenciadores (Oficiais partidários dos candidatos, Mídia tradicional - editorial, Mídia tradicional - Projetos Especiais para eleição; Mídia tradicional - Colunistas políticos; Blogs políticos), que produziram 18.634 posts no Twitter.

Nessa análise é possível identificar os sentimentos mais proeminentes no período, através de processamento de linguagem natural, os termos mais frequentes e os valores das interações (positivas e negativas) entre as diferentes opiniões que circulavam através das mensagens. Este período foi marcado pelo acidente aéreo que matou o candidato Eduardo Campos, do PSB, além da expectativa em torno da potencial candidatura de Marina Silva em seu lugar.

No gráfico de termos (pode ser baixado para melhor resolução) é possível ver a formação de cinco grandes grupos:

- O primeiro é de pessoas lamentando a morte do Eduardo. Há termos como "seria, grande presidente, pouco, tempo, vida, votar, precisa, outros, politicos, desse, tipo"

- O segundo é de pessoas "discutindo" a Marina como candidata: "agora, Dilma/PT, vai, ver, marina, melhor"

- O terceiro é de pessoas comentando o velório e a fotos que saíram  "respeito, familia, mulher, foto, veja, globo, triste, lula, marina, vergonha"

- O quarto mostra palavras muito frequentes no período: "Eduardo, Campos, [fica com] Deus"

- O quinto é comentado o acidente: "casa, avião, rio, pena"

Método

A coleta foi realizada através da API do próprio Twitter somada ao uso de uma ferramenta para a recuperação das mensagens do tipo reply (respostas). Outra ferramenta foi utilizada para processamento e visualização dos dados, dos quais foram selecionados 6.497 posts originais, considerando que cada um gerou, no mínimo, cinco respostas, formando-se um total de 68.448 mensagens analisadas.

Para o processamento dos posts, foram calculados os termos mais repetidos (removendo artigos, preposições, pronomes), e para os 200 mais frequentes, a similitude dos posts que esses termos apareceram. Ainda foram agrupados de acordo com a similaridade dos posts, e plotados no gráfico.

As discussões foram convertidas em vetores numéricos usando o método de "sacola de palavras" (Bag of words), que permite o cálculo de semelhança estatistica entre elas. Isso permite que discussões sejam agrupadas por semelhança, com base na frequencia de palavras em comum que elas contém (discussões que falam sobre um mesmo assunto tendem a usar as mesmas palavras com frequencias parecidas).

Veja os usuários que apareceram juntos em mais de cinco discussões, comentando o mesmo tweet ou fazendo o post original dos 54 perfis selecionados pelo projeto.

O projeto Neofluxo 2014 integra o projeto de pesquisa do pesquisador-colaborador Walter Lima aprovado junto ao Centro de Matemática, Computação e Cognição do Programa de Pós-graduação em Neurociência e Cognição da UFABC, sob a supervisão do prof. dr. Ronaldo Prati.

Comunicar erros


Leia mais notícias sobre:
SOBRE A AGÊNCIA

FAPESP