O matemático americano John Tukey desenvolveu originalmente a análise exploratória de dados na década de 1970. Ainda hoje, as técnicas deste tipo de análise continuam a ser um método muito utilizado no processo de descoberta de dados.
Para além da modelização formal ou do teste de hipóteses, a análise exploratória abre a porta a uma melhor compreensão das variáveis do conjunto de dados e das suas relações. Também ajuda a determinar se a técnica estatística que foi considerada para a análise de dados se é adequada ou não.
O que é a análise exploratória de dados?
A análise exploratória é amplamente utilizada pelos cientistas de dados quando analisam e investigam conjuntos de dados, resumindo as principais caraterísticas dos dados para o método de visualização. Ajuda a descobrir padrões de dados, a detetar anomalias, a testar hipóteses e/ou pressupostos.
Simplificando, pode ser definido como um método que ajuda a determinar as melhores formas de manipular uma determinada fonte de dados para obter a resposta de que precisas.
Importância da análise exploratória de dados
O principal objetivo da análise exploratória é ajudar a analisar o conjunto de dados em profundidade antes de fazer suposições, identificar erros óbvios, obter uma melhor compreensão dos padrões no conjunto de dados, descobrir valores atípicos e/ou acontecimentos anómalos e, por último, mas não menos importante, descobrir as relações entre variáveis.
A análise exploratória de dados é extremamente importante para a análise de dados no domínio da ciência dos dados. Em primeiro lugar, é utilizada para garantir que os resultados são válidos e aplicáveis a qualquer objetivo pretendido.
Em segundo lugar, a análise de tipo exploratório ajuda as partes interessadas a garantir que fazem sempre as perguntas certas. Ajuda também a responder a perguntas sobre desvios-padrão, variáveis categóricas e intervalos de confiança.
Finalmente, uma vez concluída a análise exploratória dos dados e extraídos os conhecimentos, as suas caraterísticas podem ser utilizadas para uma análise ou modelação de dados mais sofisticada, incluindo a aprendizagem automática.
Tipos de análise exploratória de dados
Bem, existem principalmente quatro tipos de análise exploratória de dados, que são:
-
Univariada não gráfica:
A análise univariada não gráfica é a forma mais simples de análise de dados e consiste numa única variável. Como se trata de uma única variável, não se trata de causas ou relações. Em vez disso, o principal objetivo da análise univariada é descrever os dados e encontrar padrões nos mesmos.
-
Gráfico univariado:
Os métodos não gráficos não podem fornecer uma imagem completa dos dados. Por isso, são necessários métodos gráficos. Os tipos mais comuns de gráficos univariados são:
- Gráficos de caule e de folhas: Mostra todos os valores dos dados e a forma da distribuição.
- Histogramas e gráficos de barrasem que cada barra representa a frequência (contagem) ou proporção (contagem total/contagem) de casos para uma gama de valores.
- Gráficos de caixa: representa graficamente o resumo de cinco números do mínimo, do primeiro quartil, da mediana, do terceiro quartil e do máximo.
-
Multivariada não gráfica
Os dados multivariados resultam de mais do que uma variável. De um modo geral, as técnicas de análise exploratória multivariada não gráfica mostram a relação entre duas ou mais variáveis de dados através de tabulações cruzadas ou estatísticas.
-
Gráfico multivariado
Os dados multivariados utilizam gráficos quando mostram as relações entre dois ou mais conjuntos de dados. O mais vulgarmente utilizado é um gráfico de barras agrupadas ou um gráfico de barras em que cada agrupamento representa um nível de uma das variáveis e cada barra dentro de um agrupamento representa os níveis da outra variável.
Outros tipos comuns de gráficos multivariados incluem:
- Gráfico de dispersão: Utilizado para traçar pontos de dados num eixo horizontal e vertical para mostrar em que medida uma variável é afetada por outra.
- Gráfico multivariado: Uma representação gráfica das relações entre factores e uma resposta.
- Gráfico de sequência de execução: Um gráfico de linhas de dados traçado ao longo do tempo.
- Gráfico de bolhas: Uma visualização de dados que apresenta vários círculos (bolhas) num gráfico bidimensional.
- Mapa de calor: Uma representação gráfica de dados em que os valores são representados por cores.
Ferramentas de análise exploratória de dados
Existem muitas ferramentas disponíveis para a análise exploratória de dados. Algumas das mais populares são R, Python e SAS. No entanto, cada uma tem os seus pontos fortes e fracos, pelo que é essencial escolher a ferramenta certa para o trabalho.
O R é uma excelente ferramenta para visualizar dados. Tem uma grande variedade de tabelas e gráficos que podem ser utilizados para explorar dados. Também tem muitas funções estatísticas que podem ser utilizadas para efetuar análises mais avançadas.
Python é outra ferramenta excelente para a análise exploratória de dados. Tem muitas das mesmas funcionalidades que o R, mas é também mais fácil de utilizar. Por conseguinte, Python é uma excelente escolha para principiantes que pretendem iniciar-se na análise de dados.
O SAS é um poderoso pacote de software estatístico que pode ser utilizado para análises exploratórias. O SAS é mais caro do que o R e o Python, mas vale a pena o investimento se precisares de efetuar cálculos mais complexos.
QuestionPro e análise exploratória de dados
Podes sempre ter os teus dados de diferentes fontes de dados, e o QuestionPro pode definitivamente ajudar-te a recolher os dados do teu inquérito de vários canais. Mas o que acontece quando queres ir além dos dados que já foram coletados? É aí que entra a análise do tipo exploratória.
As ferramentas de análise integradas do QuestionPro facilitam o início dessa análise. Podes ver rapidamente as estatísticas resumidas dos teus dados, criar visualizações interactivas e muito mais. E como o QuestionPro se integra com o R, podes utilizar todas as poderosas ferramentas estatísticas que o R tem para oferecer.
Se estiveres pronto para levar a tua análise de dados para o próximo nível, o QuestionPro é uma das ferramentas de que precisas.
Conclusão
Por último, podemos dizer que a análise exploratória de dados é uma metodologia comprovada que pode ajudar os cientistas de dados a dar sentido a conjuntos de dados complexos. Ao utilizar visualizações e outros métodos, podes descobrir padrões e relações que não terias encontrado de outra forma.
A análise de tipo exploratório é, portanto, uma parte essencial de qualquer análise de dados, e esperamos que este artigo te tenha fornecido uma excelente introdução ao assunto.
Cria a tua conta gratuita QuestionPro e começa a descobrir tudo o que o nosso software de inquérito tem para oferecer!



