Aggregation fail

PostAggregationFailCapaVitrine

Recentemente ouvi este termo – aggregation fail – e fiquei pensando um pouco sobre ele. Quando trabalhamos com tecnologias para BI, especialmente OLAP, é comum agregarmos dados para realizar análises. Geralmente esta agregação é feita pela média de valores ou pelo soma total, mas vou me concentrar apenas nos casos que utilizam a média.

Quando utilizamos o valor médio para uma análise precisamos levar em consideração que, dependendo da quantidade de dados, é possível ter sérios problemas de interpretações nas análises. A propósito, a primeira vez que ouvi o termo aggregation fail foi no vídeo abaixo que detalha o projeto selficitie, cujo objetivo é analisar detalhes sobre o fenômeno de fotos tipo selfie.

Voltando a falar sobre a média, quando analisamos apenas o valor desta métrica podemos ter problemas em compreender efetivamente como os dados são distribuídos e chegar a conclusões incorretas. A figura abaixo ilustra um pouco desta situação onde podemos nos dar mal se considerarmos apenas a média.

FiguraBuraco

Infelizmente muitas pessoas, e em especial jornalistas que gostam de generalizar e criar títulos chamativos para notícias, não conseguem compreender as implicações de analisar apenas a média. E quem conhece um pouco mais sobre estatística sabe como é importante apresentar a média acompanhada de outros valores como o valor mediano e o desvio padrão. Estatisticamente falando, podemos utilizar também a moda para comparar melhor o comportamento dos dados.

FiguraMediaMedianaModa

Do ponto de vista de visualização de informações e algoritmos, precisamos sempre considerar vários aspectos quando trabalhamos com grandes quantidades de dados. Pensar somente na média é contraproducente, mas pode ser um bom começo para análises mais profundas.

Não há muito um caminho certo ou errado a seguir aqui, mas sou a favor e acredito que a combinação de estatísticas, agregações, mineração de dados e ferramentas que permitem manipular os dados podem ser mais úteis para a descoberta de padrões e valores muito fora do comum e anormais do que a análise de dados agregados pela média. Por exemplo: a figura abaixo mostra o rosto médio de mulheres de acordo com diversos países. Esta visualização é interessante, mas há muito mais por trás disso do que a imagem mostra, especialmente em casos onde há populações com pouca miscigenação e com características faciais marcantes mantidas a gerações.

average-facePor isso sempre que me deparo com uma análise de dados ou ferramenta de BI fico a procura de como os dados podem ser mostrados além da média ou outra forma de agregação. Este ponto é algo que agrega valor ao produto e permite análises mais detalhadas do que simplesmente enquadrar valores em grupos ou estereótipos de acordo com valores médios.



Esta entrada foi publicada em Programação, Uncategorized e marcada com a tag , , , , , , . Adicione o link permanente aos seus favoritos.

Deixe uma resposta

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *