Capítulo 95 – Machine Learning – Guia Definitivo – Parte 5
Nos 10 capítulos finais deste livro online vamos trazer um grande resumo sobre Machine Learning. O objetivo é fornecer uma visão clara do que é e como Machine Learning está sendo usado no dia a dia, um pouco de matemática, as principais regras e princípios. Queremos ainda que esses capítulos finais possam servir de material de referência para os alunos que estão buscando as certificações oferecidas pela DSA no Bootcamp de Certificação.
Serão 10 partes no total com um guia completo sobre Machine Learning. Aproveite a leitura para compreender de forma definitiva o que é uma das tecnologias mais incríveis do nosso tempo.
E neste capítulo vamos seguir explicando para você dezenas de regras e princípios da aplicação de Machine Learning para resolver problemas de negócio!
Boa leitura!
Regras e Princípios
O segundo grupo de regras e princípios é sobre o monitoramento dos modelos de aprendizado de máquina. O primeiro grupo foi descrito no capítulo anterior.
Regra 8: Defina o nível de atualização do modelo
O trabalho termina quando o modelo de ML é criado? Não. O modelo é criado, colocado em produção e vai precisar de atualização constante. Quão constante? Isso é o que precisa ser definido.
Quanto o desempenho diminui se você tiver um modelo com um dia de idade (criado ontem)? Uma semana de idade? Um mês de idade? Essas informações podem ajudá-lo a entender as prioridades do seu monitoramento. Se você perder qualidade significativa se o modelo não for atualizado por um dia, faz sentido ter um Engenheiro de Machine Learning observando-o continuamente.
A maioria dos sistemas de veiculação de anúncios tem novos anúncios para lidar todos os dias e devem ser atualizados diariamente.
Por exemplo, se o modelo de ML para a Pesquisa do Google Play não for atualizado, ele poderá ter um impacto negativo em menos de um mês. Alguns modelos do What’s Hot in Google Plus não têm identificador de postagem e esses modelos são atualizados com pouca frequência. Outros modelos que possuem identificadores de postagem são atualizados com muito mais frequência.
Observe também que a atualização pode mudar ao longo do tempo, especialmente quando colunas de recursos são adicionadas ou removidas do seu modelo.
Regra 9: Detecte problemas antes de exportar modelos
Muitos sistemas de aprendizado de máquina têm um estágio em que você exporta o modelo para publicar em produção. Se houver um problema com um modelo exportado, é um problema que vai gerar impacto no usuário final.
Faça verificações de sanidade antes de exportar o modelo. Especificamente, certifique-se de que o desempenho do modelo seja razoável em dados de teste. Ou, se você tiver dúvidas persistentes com os dados, não exporte um modelo. Muitas equipes que implantam modelos continuamente verificam a métrica área sob a curva ROC (ou AUC) antes de exportar. Problemas sobre modelos que não foram exportados exigem um alerta por e-mail para a equipe de Data Science, mas problemas em um modelo voltado para o usuário podem exigir uma página web explicando o que ocorreu. Então é melhor esperar e ter certeza antes de impactar os usuários.
Regra 10: Fique atento a falhas silenciosas
Esse é um problema que ocorre mais em sistemas de aprendizado de máquina do que em outros tipos de sistemas.
Suponha que uma determinada tabela usada para alimentar um modelo de ML em produção não esteja mais sendo atualizada. O sistema de aprendizado de máquina se ajustará e o comportamento continuará razoavelmente bom, decaindo gradualmente. Às vezes, você encontra tabelas que estão meses desatualizadas e uma simples atualização melhora o desempenho mais do que uma nova versão do modelo.
A cobertura de um recurso pode mudar devido a mudanças na implementação: por exemplo, uma coluna de recurso pode ser preenchida em 90% dos exemplos e cair repentinamente para 60% dos exemplos. Se você acompanhar as estatísticas dos dados, bem como inspecionar manualmente os dados de vez em quando, poderá reduzir esses tipos de falhas.
Regra 11: Forneça os proprietários e a documentação das colunas de recursos
Se o sistema for grande e houver muitas colunas de recurso (muitas variáveis no dataset), saiba quem criou ou está mantendo cada coluna de recurso.
Se você achar que a pessoa que entende uma coluna de recurso está saindo da empresa, certifique-se de que alguém tenha as informações. Embora muitas colunas de recursos tenham nomes descritivos, é bom ter uma descrição mais detalhada do que é o recurso, de onde veio e como se espera que ele ajude mo sistema de ML.
Documente cada etapa do trabalho e mantenha um log de atualizações e modificações do modelo e dos dados ao longo do tempo.
Continuaremos no próximo capítulo.
Referências: