O estágio de exploração de dados é como o brainstorming da análise de dados. É aqui que você entende os padrões dos seus dados. Você pode envolver, puxar e analisar um subconjunto aleatório dos dados usando o Pandas, traçar um histograma ou uma curva de distribuição para ver a tendência geral ou até criar uma visualização interativa que permite mergulhar em cada ponto de dados e explorar a história por trás dos outliers.
Usando todas essas informações, você começa a formar hipóteses sobre seus dados e o problema que está enfrentando. Se você estava prevendo as pontuações dos alunos, por exemplo, poderia tentar visualizar a relação entre pontuações e as horas de sono deles. Se você estivesse prevendo os preços dos imóveis, talvez pudesse plotar os preços como um mapa de calor em um gráfico espacial para ver se é possível detectar alguma tendência…
Há um ótimo resumo de ferramentas e abordagens na página da Wikipédia para análise exploratória de dados.
Usando todas essas informações, você começa a formar hipóteses sobre seus dados e o problema que está enfrentando. Se você estava prevendo as pontuações dos alunos, por exemplo, poderia tentar visualizar a relação entre pontuações e as horas de sono deles. Se você estivesse prevendo os preços dos imóveis, talvez pudesse plotar os preços como um mapa de calor em um gráfico espacial para ver se é possível detectar alguma tendência…
Há um ótimo resumo de ferramentas e abordagens na página da Wikipédia para análise exploratória de dados.
Ferramentas e bibliotecas em várias linguagens de programação que podem auxiliar nessa etapa. Dá uma conferida abaixo:
Ferramentas open-source:
• Jupyter Notebook
• Metabase
• Weka
• R Shiny
Ferramentas gratuitas:
•Power BI Desktop
•Qlik Sense Desktop
•Tableau Desktop
Bibliotecas:
•Pandas
•NLTK
댓글