Quais dados eu preciso para o meu projeto? Onde eles vivem? Como posso obtê-los? Qual é a maneira mais eficiente de armazenar e acessar tudo isso?
“Seu danado, eu ouvi dizer que você gosta da mineração de dados (Data Science)… Então eu coloquei dados na database para que você minere, trate o dado enquanto você tá olhando pro dado”.
Se todos os dados necessários para o projeto forem empacotados e entregues a você, você ganhou na loteria.
Na maioria das vezes, encontrar os dados certos exige tempo e esforço.
Se os dados residem em bancos de dados, seu trabalho é relativamente simples — você pode consultar os dados relevantes usando consultas SQL ou manipulá-los usando uma ferramenta de quadro de dados como o Pandas.
No entanto, se seus dados não existirem em um conjunto de dados, você precisará lapidá-los.
Beautiful Soup, por exemplo, é uma biblioteca popular usada para vasculhar as páginas da Web em busca de dados.
Se você trabalha com um aplicativo e deseja acompanhar o engajamento e as interações dos usuários, existem inúmeras ferramentas que podem ser integradas ao aplicativo para que você possa começar a obter dados valiosos dos clientes.
O Google Analytics, por exemplo, permite definir eventos personalizados no aplicativo que podem ajudá-lo a entender como seus usuários se comportam. Assim, você pode coletar os dados correspondentes.
Uma vez definido o problema, precisamos começar a extrair e coletar os dados. Nessa etapa, é fundamental entender quais os tipos de dados irão pautar nosso projeto:
Dados internos (presentes em bancos de dados, planilhas, etc.) x Dados Externos (bases de dados públicas ou pagas, etc.)
Dados estruturados (tabelas dos nossos BDs relacionais tradicionais - organizados em tabelas) x Dados não-estruturados (conteúdos de redes sociais, de sites externos, etc. não organizados em Tabelas).
Eis o assunto da Parte 02 da coleta de Dados - Dados Estruturados x Não Estruturados, não percam!
Agile Data Science 2.0: Building Full-Stack Data Analytics Applications with Spark
Python para análise de Dados https://amzn.to/3Jr7IwH
Quer saber mais? Conheça nossos treinamentos? No entanto, primeiro conheça seu perfil comportamental Clica no link e explore seus pontos fortes em quaisquer áreas que queira atuar. Lançaremos o treinamento Introdução a Data Science e Agile Data Science em Junho – Aguardem!
Comentarios