top of page
Foto do escritorElaine Figueiredo

Coleta de Dados de todas as fontes possíveis - Parte 1

Atualizado: 5 de jun. de 2023

Quais dados eu preciso para o meu projeto? Onde eles vivem? Como posso obtê-los? Qual é a maneira mais eficiente de armazenar e acessar tudo isso?



“Seu danado, eu ouvi dizer que você gosta da mineração de dados (Data Science)… Então eu coloquei dados na database para que você minere, trate o dado enquanto você tá olhando pro dado”.


Se todos os dados necessários para o projeto forem empacotados e entregues a você, você ganhou na loteria.


Na maioria das vezes, encontrar os dados certos exige tempo e esforço.


Se os dados residem em bancos de dados, seu trabalho é relativamente simples — você pode consultar os dados relevantes usando consultas SQL ou manipulá-los usando uma ferramenta de quadro de dados como o Pandas.


No entanto, se seus dados não existirem em um conjunto de dados, você precisará lapidá-los.


Beautiful Soup, por exemplo, é uma biblioteca popular usada para vasculhar as páginas da Web em busca de dados.


Se você trabalha com um aplicativo e deseja acompanhar o engajamento e as interações dos usuários, existem inúmeras ferramentas que podem ser integradas ao aplicativo para que você possa começar a obter dados valiosos dos clientes.


O Google Analytics, por exemplo, permite definir eventos personalizados no aplicativo que podem ajudá-lo a entender como seus usuários se comportam. Assim, você pode coletar os dados correspondentes.


Uma vez definido o problema, precisamos começar a extrair e coletar os dados. Nessa etapa, é fundamental entender quais os tipos de dados irão pautar nosso projeto:


Dados internos (presentes em bancos de dados, planilhas, etc.) x Dados Externos (bases de dados públicas ou pagas, etc.)


Dados estruturados (tabelas dos nossos BDs relacionais tradicionais - organizados em tabelas) x Dados não-estruturados (conteúdos de redes sociais, de sites externos, etc. não organizados em Tabelas).


Eis o assunto da Parte 02 da coleta de Dados - Dados Estruturados x Não Estruturados, não percam!


Agile Data Science 2.0: Building Full-Stack Data Analytics Applications with Spark

Python para análise de Dados https://amzn.to/3Jr7IwH


Quer saber mais? Conheça nossos treinamentos? No entanto, primeiro conheça seu perfil comportamental Clica no link e explore seus pontos fortes em quaisquer áreas que queira atuar. Lançaremos o treinamento Introdução a Data Science e Agile Data Science em Junho – Aguardem!

8 visualizações0 comentário

Comentarios


bottom of page