A exploração de dados – Análise Exploratória

31 de mai. de 20222 min de leitura

Atualizado: 5 de jun. de 2023

O estágio de exploração de dados é como o brainstorming da análise de dados. É aqui que você entende os padrões dos seus dados. Você pode envolver, puxar e analisar um subconjunto aleatório dos dados usando o Pandas, traçar um histograma ou uma curva de distribuição para ver a tendência geral ou até criar uma visualização interativa que permite mergulhar em cada ponto de dados e explorar a história por trás dos outliers.

Usando todas essas informações, você começa a formar hipóteses sobre seus dados e o problema que está enfrentando. Se você estava prevendo as pontuações dos alunos, por exemplo, poderia tentar visualizar a relação entre pontuações e as horas de sono deles. Se você estivesse prevendo os preços dos imóveis, talvez pudesse plotar os preços como um mapa de calor em um gráfico espacial para ver se é possível detectar alguma tendência…

Há um ótimo resumo de ferramentas e abordagens na página da Wikipédia para análise exploratória de dados.

Agora sim, a etapa do ciclo de vida do nosso projeto de Data Science onde a resolução do problema inicial começa a tomar forma!

Na etapa de exploração de dados precisaremos lembrar do Passo 1: Entendimento do Problema. Nessa fase, se intensifica a necessidade de habilidades analíticas e criativas para pensar em ideias e hipóteses a serem validadas. É importante que você busque identificar padrões interessantes nos seus dados (lembra do estudo da estudo famoso da fralda e da cerveja?!).

Ferramentas e bibliotecas em várias linguagens de programação que podem auxiliar nessa etapa. Dá uma conferida abaixo.

Ferramentas open-source:

• Jupyter Notebook

• Metabase

• Weka

• R Shiny

Ferramentas gratuitas (de entrada):

• Power BI Desktop

• Qlik Sense Desktop

• Tableau Desktop

Bibliotecas:

• Pandas

• NLTK (Natural Language Toolkit)

A exploração de dados – Análise Exploratória

Posts recentes

Comments