A modelagem preditiva é onde o Machine Learning finalmente entra em seu projeto de ciência de dados.
Uso o termo modelagem preditiva porque acho que um bom projeto não é aquele que apenas treina um modelo e fica obcecado com a sua precisão, mas também usa métodos e testes estatísticos abrangentes para garantir que os resultados do modelo realmente façam sentido e sejam significativos.
Com base nas perguntas feitas no estágio de entendimento dos negócios, é aqui que você decide qual modelo escolher para o seu problema.
Essa nunca é uma decisão fácil e não existe uma resposta certa. O modelo (ou modelos, e você deve sempre testar vários) que você acaba treinando dependerá do tamanho, tipo e qualidade dos seus dados, quanto tempo e recursos computacionais você deseja investir e o tipo de saída você pretende derivar.
Depois de treinar seu modelo, é fundamental que você avalie o sucesso dele.
Um processo chamado validação cruzada k-fold é comumente usado para medir a precisão de um modelo. Envolve separar o conjunto de dados em k grupos de instâncias de tamanhos iguais, treinando em todos os grupos, exceto um, e repetindo o processo com diferentes grupos deixados de fora. Isso permite que o modelo seja treinado em todos os dados em vez de usar uma divisão típica de teste.
(“‘Esse é o seu sistema de Machine Learning?’. ‘Sim! Você coloca seus dados em cima dessa pilha linear de álgebra, e aí você coleta as respostas do outro lado’. ‘Mas e se suas respostas estiverem erradas?’. ‘Só mexer na pilha até que elas comecem a parecer certas!’”)
Para modelos de classificação, geralmente testamos a precisão usando o PCC (classificação percentual correta), juntamente com uma matriz de “confusão” que divide os erros em falsos positivos e falsos negativos.
Gráficos como curvas ROC, que são a verdadeira taxa positiva plotada contra a taxa de falsos positivos, também são usados para comparar o sucesso de um modelo.
Para um modelo de regressão, as métricas comuns incluem o coeficiente de determinação (que fornece informações sobre a qualidade do ajuste de um modelo), erro quadrático médio (MSE) e erro absoluto médio.
תגובות