As metodologias CRISP-DM e SEMMA foram desenvolvidas visando a mineração de dados, podendo ser utilizadas para exploração de dados e desenvolvimento de modelos de machine learning.
Essas metodologias seguem práticas semelhantes e podem ser usadas em diversos tipos de ferramentas e modelos de negócio.
As metodologias CRISP-DM e SEMMA podem ser adaptadas para processos ágeis, visando a criação do produto mínimo viável e posterior aprimoramento dos resultados a partir de iterações dos passos.
CRISP – DM (Cross Industry Standard Process for Data Mining)
1. Business Understanding – Entendimento do Negócio
O primeiro passo da metodologia CRISP-DM é crucial visto que é partir do entendimento correto do negócio que os demais passos serão pautados. Clareza é fundamental, não se deve existir dúvida em relação aos objetivos e resultados.
O primeiro passo é dividido em determinar objetivos de negócio, avaliar a situação, determinar objetivos do modelo e produzir o plano de negócio.
Converse com as pessoas responsáveis pela demanda e que irão trabalhar com o resultado final do seu modelo. Entenda a motivação e a necessidade do trabalho, terminologias, além de qual é a situação atual. Algum outro modelo já foi proposto? Atualmente alguma solução é utilizada? Porque há necessidade de mudar? Combine critérios e métricas de sucesso.
Esse passo da metodologia CRISP-DM também passa por entender quais recursos estão disponíveis, os riscos, os requerimentos e possíveis gargalos. Defina expectativas, avalie limitações, tire dúvidas.
Com todas essas questões resolvidas, produza um plano de projeto, com os passos a serem desenvolvidos, objetivos intermediários e respectivas métricas, junto com técnicas e ferramentas a serem utilizadas. Esse plano pode ser revisto ao longo do desenvolvimento.
Nunca deixe nada por subentendido ou assuma alguma premissa.
2. Data Understanding – Entendimento dos Dados
Esta etapa da metodologia CRISP-DM é dividida em coletar, descrever, explorar e avaliar a Qualidade os dados. Conheça mais sobre Qualidade de Dados aqui.
Adquira os dados, seja por meio de coleta ou tendo acesso à base de dados existente. Será preciso integrar dados de diferentes fontes? Carregue os dados na ferramenta a ser utilizada. Houve algum problema durante a realização desses passos?
Descreva os dados de forma superficial em relação ao tipo, quantidade, estatísticas descritivas básicas, identifique os campos existentes e se os dados são suficientes para cumprir os requerimentos.
A exploração pode ser feita através de queries, visualizações ou relatórios. Inclua a distribuição das variáveis, relação entre pares ou pequenos grupos de atributos, agregações e outras análises que visem os objetivos elencados no primeiro passo e que podem ser importantes para a transformação de dados no passo seguinte.
Em relação à qualidade dos dados, avalie se os dados estão completos, se é preciso alguma correção, o quão comum é encontrar erros e como lidar com esses erros e os famosos “missing data”. Elenque os passos dados. Tenha sempre em mente que muitos desses problemas tem diversas soluções, mas a melhor opção sempre estará dependente dos objetivos e conhecimento do negócio.
3. Data Preparation – Preparação de Dados
Aqui vamos selecionar, limpar, construir, integrar e formatar os dados.
O resultado dessa fase da metodologia CRISP-DM será utilizado para criar os modelos.
Selecione os dados a serem utilizados, de acordo com o que foi analisado no passo anterior, capacidade de processamento, tipos de dados. Lembre que esse passo deve ser feito tanto para colunas quanto para linhas. Documente a racionalização deste processo.
A limpeza de dados tem muita relação com o passo de avaliar a qualidade de dados. Talvez você tenha que selecionar subsets menores apenas com dados limpos ou preencher campos vazios com valores padrões ou resultados de modelagens.
A construção se refere à criação de novos atributos ou registros, transformação de valores de atributos (normalização, reescala, encode de variáveis categórias, por exemplo), criação de atributos derivados (por exemplo, se temos área e comprimentos, podemos obter o volume). Documente todas as modificações.
A integração de dados é combinar tabelas com diferentes informações sobre o mesmo objeto (por exemplo, compras e informações pessoais de um mesmo cliente). Também podem ser incluídos novos registros. Agregações também se enquadram neste passo.
A formatação de dados pode ser necessária de acordo com requerimentos das ferramentas, mas não pode alterar o significado dos dados.
4. Modelling – Modelagem
A modelagem, na metodologia CRISP-DM, é dividida em seleção de técnicas para o modelo, definição de procedimentos de teste, construção do modelo e avaliação do modelo.
Selecione as técnicas do modelo, levando em consideração as suposições dele, como a distribuição de dados, se lida bem com a falta de dados e dados categóricos, o tipo de output…
Defina os procedimentos e requisitos para validar a qualidade e validade do modelo. Crie um plano bem estruturado com as métricas e como os dados foram divididos em treino, teste e validação.
Construa os modelos. Anote racionalizações para os parâmetros, dificuldades e o resultado.
Avalie o modelo – apenas o modelo, não o resultado, isso será na próxima fase. Aqui vamos levar em consideração os critérios de sucesso do modelo e do processo de teste. Compare os diferentes modelos e parâmetros.
Você poderá retornar ao passo anterior durante o desenvolvimento deste estágio.
5. Evaluation – Avaliação
Avalie resultados, revise o projeto e determine os próximos passos.
Converse com o time de negócio e avaliem se o modelo atinge os critérios de sucesso e objetivo do negócio. Compare todos os modelos.
Após ter selecionado os modelos mais adequados, reveja o processo e avalie se não há nenhum ponto importante a ser revisto. Avalie se os atributos utilizados fazem sentido e realmente estão disponíveis, cheque novamente a qualidade dos dados.
Para os próximos passos, o time de negócios e de de projeto devem decidir se haverão mais iterações para refinar o modelo ou se o modelo já pode ser implementado.
6. Deployment – Implantação
A última etapa da metodologia CRISP-DM é a implantação, que deve organizar o modelo de forma que o cliente possa utilizar.
Planeje com cuidado a implantação, monitorização e manutenção do modelo. Elabore a documentação com detalhes, ações para recuperação, detalhes e dicas para o cliente e o que for necessário para o correto funcionamento do modelo.
Leia também:
5 Motivos para Assistir Coded Bias
Paradoxo de Simpson: como os dados podem te enganar
Soluções para Riscos em Projetos de Dados
Metodologia SEMMA
A metodologia SEMMA foi desenvolvida pelo SAS Institute, visando seu produto SAS Enterprise Miner. Entretanto, o processo pode ser adaptado para outras ferramentas. A metodologia é iterativa.
1. Sample – Amostra
Dentro da metodologia SEMMA, este passo é opcional.
Selecione uma amostra dos dados que seja grande o suficiente para conter informações significativas, mas pequena o suficiente para manipular rapidamente.
O uso de uma amostra representativa em vez de todo o volume reduz o tempo de processamento necessário, permitindo obter informações importantes mais rapidamente. Se as tendências aparecem nos dados como um todo, eles serão rastreáveis em uma amostra representativa.
Divida seus dados em 3: treinamento, teste e validação.
2. Explore – Explorar
Na metodologia SEMMA, o passo seguinte é procurar tendências e anomalias através de visualizações ou métodos estatísticos descritivos.
Se a exploração visual não revelar tendências claras, você pode explorar os dados por meio de técnicas estatísticas e agregação.
3. Modify – Modificar
Crie, selecione e transforme as variáveis para o processo de seleção de modelo.
Com base em suas descobertas na fase de exploração, você pode precisar manipular seus dados para incluir informações como a agregação de clientes e subgrupos significativos, ou para apresentar novas variáveis.
Você também pode precisar procurar outliers e reduzir o número de variáveis para restringi-los às mais significativas.
Como os processos da metodologia SEMMA são dinâmicos e iterativos, você pode atualizar métodos ou modelos quando novas informações estiverem disponíveis.
4. Model – Modelo
Crie seu modelo levando em consideração que cada tipo de modelo é apropriado dentro de situações específicas de mineração de dados, dependendo dos dados.
Por exemplo, as redes neurais são muito boas no ajuste de relacionamentos não lineares altamente complexos.
5. Assess – Avaliar
Avalie seus resultado avaliando a utilidade e confiabilidade do modelo e estime seu desempenho.
Uma forma de avaliar um modelo é aplicá-lo a uma parte dos dados reservados durante a fase de amostragem. Se o modelo for válido, deve funcionar para estes dados reservados, bem como para a amostra usada para construir o modelo.
A metodologia SEMMA permite, assim, você pode testar o modelo em relação aos dados conhecidos. Por exemplo, se você sabe quais clientes em um arquivo tinham altas taxas de retenção e seu modelo prevê retenção, você pode verificar se o modelo seleciona esses clientes com precisão.