Dados Cadastrais
CNPJ: 04.203.773/0001-40
Rua Augusta,66
CEP 01304-000
São Paulo - SP - Brasil
Contato
pango@pangeo.com.br
  • Whats
(11) 999165362
     Pangeo GMA 2018                                                                                                               Proibida a reprodução total ou parcial de qualquer conteúdo desta página sem a expressa permissão de seu proprietário

April 14, 2018

Please reload

Posts Recentes

Analise granulométrica para quê? Parte 2

April 6, 2018

1/3
Please reload

Posts Em Destaque

Boxplot: nem pense em sair desta caixinha!

March 9, 2018

Vantagens no uso de diagramas boxplot na representação de dados ambientais 

 

Você que atua no Gerenciamento de Áreas Contaminadas certamente já se deparou com um gráfico deste tipo (Figura 1): 

 

Esse tipo de gráfico geralmente é fruto de uma demanda bastante comum, que é a representação gráfica de resultados de monitoramentos periódicos, como por exemplo a evolução de água subterrânea em programas de monitoramento ambiental ou de avaliação de processos de remediação.


Não há nada tecnicamente errado no gráfico da Figura 1, sendo este tipo de representação utilizada até em publicações internacionais... Entretanto, é notória a dificuldade de leitura, além da ausência de outras informações para o entendimento de tendências.


Existiria uma forma melhor de representar aqueles dados da figura anterior? 


Sim, você pode agregar mais valor apresentando um gráfico como este a seguir:

 

Este gráfico da Figura 2 é conhecido pelo nome de boxplot (ou diagrama de caixa) e neste exemplo foi construído como os mesmos dados utilizados na confecção do Gráfico 1 (ambos representam graficamente a variação temporal daqueles dados).


O gráfico boxplot não é só uma representação mais limpa e elegante, como também mostra um resumo compacto das características da distribuição dos valores, permitindo avaliar a dispersão e a assimetria de um conjunto de dados. 


A construção de um boxplot inicia-se com a estatística descritiva conhecida por “resumo dos cinco números”, que representa as informações recolhidas na forma de quatro quartis, ou seja, fatia a distribuição em quatro partes iguais, cada uma contendo 25% do conjunto dos dados avaliados:


Q0 = Mínimo amostral
Q1 = Quartil superior: 25%
Q2 = Mediana: divide a amostra em 50% (uma medida de tendência central mais interessante que a média simples)
Q3 = Quartil inferior: 75%
Q4 = Máximo amostral


A Figura 3 ilustra estes elementos em diagramas boxplot: 

 

O intervalo entre Q1 e Q3 define o intervalo interquartil (IQR) que abriga 50% dos dados. Para a identificação dos outliers (valores discrepantes), usualmente são utilizadas as referências: 


Vn < Q1 - 1,5*IQR
Vn > Q3 + 1,5*IQR 
Onde Vn = dado n

 

O diagrama boxplot pode ser utilizado de forma isolada para representar a distribuição de um conjunto de dados, ou de forma conjunta para a comparação de dois ou mais conjuntos de dados. Também pode ser utilizado para uma avaliação de dependência temporal, com os dados do mesmo parâmetro agrupados por campanha, como no caso da Figura 2. O diagrama boxplot também pode permitir a identificação de distribuições assimétricas, facilitando a interpretação da distribuição de dados (Figura 4).

 

Gostou do boxplot? A seguir estão os 5 passos para a construção de gráficos boxplot básicos:


1. Escolher o tipo de uso do boxplot


2 Ordenar os dados em ordem crescente


3 Calcular os percentis 0º (valor mínimo), 25º, 50º (mediana), 75º e 100º (valor máximo) dos dados


4 Desenhar um retângulo (a caixa) em torno dos percentis 25º e 75º e adicionar uma linha transversal a ele no percentil 50º, também conhecido como mediana. A plotagem da média é opcional


5 Desenhar os bigodes a partir da caixa. Aqui cabe uma observação: se o objetivo for representar a distribuição inteira como elementos do resumo dos cinco números, os bigodes devem ser estendidos para os valores mínimo e máximo do conjunto de valores; se o objetivo inclui identificar outliers, então os limites dos bigodes podem se estender até os valores resultantes das expressões: Q1 - 1,5*IQR e  Q3 + 1,5*IQR 


No gerenciamento de áreas contaminadas os gráficos boxplot podem ser utilizados para representar e comparar eficientemente populações de dados do solo, como por exemplo, dados de vapor ou dados químicos, e da água subterrânea como dados de análises químicas ou parâmetros físico-químicos. Particularmente para os dados obtidos em sucessivos monitoramentos da qualidade da água subterrânea, os gráficos boxplot podem também ser utilizados para a análise da distribuição temporal de parâmetros químicos e físico-químicos. Este tipo de análise permite averiguar a influência da sazonalidade nos parâmetros químicos, tanto aquela associada a alternância de estações como aquelas associadas a ciclos de maior amplitude (anos ou décadas).
Existem muitas outras formas de representação de gráficos boxplot, porém, na minha opinião a formada por caixinhas e bigodes (box & whiskers diagram – outro nome aos gráficos boxplot) é a mais poderosa, clara e icônica de todas.

 

Assim, sugiro que seja evitado o uso de gráficos de linhas para representar muitas séries de dados (Figura 5). Na minha opinião, este tipo de gráfico apresentado como na Figura 1 pode até mesmo indicar uma certa falta de boa vontade com o leitor. Busque sempre representações que facilitem a visualização e que representem de maneira precisa e útil seus dados. No final deste post estão algumas referências sobre a teoria básica e aplicações avançadas dos gráficos boxplots. Também no final deste artigo estão opções de algoritmos e planilha para a confecção de gráficos boxplot.

 

Meu nome é Sergio Matos, sou geólogo e consultor para gerenciamento de áreas contaminadas.

Eu publico toda segunda-feira um post novo sobre a aplicação de geologia nas etapas do Gerenciamento de Áreas Contaminadas e assuntos relacionados. Se você tem dúvidas sobre os assuntos aqui tratados ou gostaria de sugerir um tema, entre em contato!

e-mail: sergio@pangeo.com.br 
Whatsapp 11 999165362

 

Referências


Básico sobre quartis e box-plots

 

RUMSEY, Deborah J. 2011 Statistics for Dummies 2nd edition Willey
Aplicação avançada de boxplot na área ambiental:

 

USEPA 2009 Statistical Analysis of Groundwater Monitoring data at RCRA Facilities – Unified guidance. U.S. Environmental Protection Agency 888p.

 

Algoritmos gratuitos:


R (tutorial): https://www.r-bloggers.com/box-plot-with-r-tutorial/ (acessado em 01mar2018)

 

Python (tutorial): https://plot.ly/python/box-plots/ (acessado em 01mar2018)

 

Planilha MS-EXCEL™ (tutorial): https://usuariosdoexcel.wordpress.com/2011/07/04/graficos-box-whisker/ (acessado em 01mar2018)

 

 

(1) Foram utilizados os dados de IAP (Índice de Qualidade de Águas Brutas para Fins de Abastecimento Público) do Apêncice M do Relatório de Qualidade das Águas Interiores do Estado de São Paulo (CETESB 2016 http://cetesb.sp.gov.br/aguas-interiores/wp-content/uploads/sites/12/2013/11/Cetesb_QualidadeAguasInteriores_2017_02-06_VF.pdf - acessado em 01mar2018). Os gráficos foram gerados a partir de dados reais, apesar de não ser um índice de uso frequente no Gerenciamento de Áreas Contaminadas
 

 

 

Please reload

Siga