Análise de redes sociais: formato de Tweets

Figura1_capaRecentemente utilizei muito o Twitter para me manter informado na Campus Party 9 (#CPBR9). Neste post vou apresentar algumas observações de formatos de Tweets importantes para quem faz análise dos dados textuais desta e de outras rede sociais.

Deste a primeira vez que participei da Campus Party em São Paulo eu acompanho o fluxo de mensagens (tweets) do Twitter utilizando a hash tag oficial do evento. Geralmente estas hash tags começam com #CPBR seguidas pelo número do evento (#CPBR7, #CPBR8, etc). Inclusive, já até escrevi um artigo sobre isso falando sobre uma pequena análise dos tweets em uma das edições passadas.

Atualmente cada vez mais empresas, startups e outros tipos de negócio vem investigando as mensagens do Twitter para diferentes propósitos. Contudo, devido à forma como as pessoas utilizam a linguagem nesta ferramenta (algo como um português falado transcrito com pouco aderências às regras formais da língua escrita) e aos diferentes formatos empregados, analistas de redes sociais e cientistas de dados encontram muitas dificuldades para lidar com o texto.

Isto quer dizer que as técnicas para processamento de linguagem natural (NLP) possuem pouco aplicabilidade, pelo menos se utilizadas no texto bruto das mensagens. Desta forma, é preciso antes investir em algumas tarefas de pré-processamento antes de iniciar as técnicas de NLP ou algoritmos de classificação.

As tradicionais técnicas de pré-processamento de texto incluem remoção de stop words, stemming, conversão para bigrams semelhantes, query expansion, uso de sinônimos e outros. Entretanto, de nada adianta o uso destas técnicas sem um pouco de estudo sintático e um pouco de semântica do formato do tweet.

Por exemplo, alguns usuários do Twitter gostam de escrever mensagens de cabeça para baixo. Já há, inclusive, o site FlipText.org que inverte o texto e deixa ele pronto para ser copiado e colado no Twitter.

Figura_InverteTweet Outro tipo de formato de tweet que deve ser tratado de forma especial é o uso de emoticons e emojis. Estes elementos gráficos são apresentados na tela a partir da combinação de certos caracteres. Quando o analista obtém os tweets por meio de uma API ele talvez não consiga ver que estes caracteres representam um emiticon ou um emoji e, por isso, deve ser tratados de forma especial.

Figura_tweet_emoji

Figura_tweet_icone_texto




Muitas vezes um twitter foi feito com o objetivo de perguntar para os seguidores alguma opinião. Nestes casos, certos autores empregam o uso do conceito de “preencha a lacuna” e indicam uma frase com alguma palavra/termo faltando. O espaço geralmente é colocado com a sequência de caracteres underline, como na figura abaixo. Novamente, filtros deve ser capazes de separar estes tweets dependendo da análise que se deseja implementar

Figura_Fill the blank

Ainda seguindo a linha da solicitação de opinião, muitos tweets contém em seu texto algumas alternativas com uma opção marcada. Contudo, este formato que parece uma pergunta para os seguidores é, na verdade, a expressão da opinião ou de um sentimento sobre algo na visão do criador do tweet. Este tipo de mensagem precisa de uma separação, pois seu formato pode gerar problemas caso somente análises tradicionais de texto sejam empregadas.

Figura_alternativa

Figura_alternativa2

Diversas redes sociais, aplicativos e ferramentas se integram com o Twitter de modo que quando o usuário decide compartilhar algo um tweet é gerado automaticamente. Este tipo de mensagem geralmente é retirada das análises, pois ela apenas expressa uma ação tomada em outro lugar e compartilhada na rede social. Por exemplo, quando um usuário integra sua conta do YouTube com o Twitter cada vez que ele curte um vídeo uma mensagem é postada.

Figura_Gostei

Outra forma de geração de conteúdo automático no Twitter são os “robôs” que automaticamente fazer um reweet no momento que eles detectam uma certa palavra ou hashtag. Existem alguns robôs como estes que esperam um certo período para montar um resumo e fazer um tweet destacando os usuários que escreveram mensagens com palavras chave ou hashtag específica. Estes tipos de “robôs” geralmente deve ser eliminado das análises, pois ele apenas replicam conteúdo e não agregam muito quando se está minerando dados do Twitter.

Figura_robo1

Figura_robo2

Memes possuem um potencial grande de se tornarem muito populares na internet, especialmente nas redes sociais. Contudo, são raros os memes somente baseados em texto que acabam ganhando popularidades. Um deles é o meme “diferentona” que consiste em colocar algumas palavras (ou frases) para julgar pessoas baseadas em frases que elas disseram. Este formato precisa ser tratado com cuidado nas análises, pois ele possui significado semântico complexo (escárnio? crítica? sarcasmo?) a partir da lista de palavras utilizadas, que nem mesmo pode conter o termo chave “diferentona”.

Figura_DiferentonaO emprego de citações dentro de tweets é outro formato que gera dor de cabeça para quem está limpando os dados, especialmente quando não há uso de aspas e a fonte não é mencionada. Em geral, texto de personalidades, celebridades, notícias e até citações da bíblia entram nesta categoria, mas existem outras variações do formato de citação que dependem muito de quem está escrevendo o tweet.

Figura_citacoes

Figura_citacoes_bibliaComo o Twitter é utilizado para comunicação geral, as vezes alguns usuários utilizam esta ferramenta para se comunicar empregando código criado em uma linguagem de programação, seja para ajudar alguém, fornecer um exemplo de código, ser sarcástico ou mesmo comunicar algo com esta linguagem. Quando encontramos este tipo de conteúdo em tweets é preciso separá-los dos demais. Destaco o curioso exemplo abaixo onde a diretiva #include da linguagem de programação C/C++ foi utilizada em um trecho de código e como esta diretiva pode ser confundida com uma hashtag.

Figura_linguaprogramacao

Como podemos notar pelos exemplos citados, os usuários do Twitter são muito criativos quando estão escrevendo suas mensagens. Além disso, a simplicidade para compartilhar, replicar e distribuir as mensagens nesta plataforma contribui para a modificação e criação de novos formatos de texto que, de uma forma ou de outra, dificultam o trabalho de quem está fazendo algum tipo de análise ou mineração de dados com este conteúdo.

Por outro lado, as ferramentas para fazer a limpeza de dados também evoluem. Hoje em dia existem recursos muito poderosos, tais como expressões regulares, analisadores de sintaxe, parsers, técnicas e algoritmos para fuzzy matching e diversos outras maneiras de se lidar com o texto escrito em formatos variados e, por que não, criativos.

Esta entrada foi publicada em Ferramentas, Programação e marcada com a tag , , , , , , , . Adicione o link permanente aos seus favoritos.

Deixe uma resposta

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *