Nestas lições, aprenderá os algoritmos de classificação mais usados e a que problemas eles normalmente se aplicam.
Nestas lições, aprenderá os algoritmos de classificação mais usados e a que problemas eles normalmente se aplicam. Abordaremos vários estilos de modelagem, incluindo: regressão, Naive Bayes, máquinas de vetor de suporte, árvores de decisão, modelos de floresta aleatória, K-Nearest Neighbours e modelos multiclasse.
Para cada um desses estilos de modelagem, aprenderá seus pontos fortes e fracos relativos e as vantagens e desvantagens entre eles. Este capítulo também abordará uma introdução às redes neurais e o seu uso em problemas comuns de classificação, como classificação de imagens e redes neurais convolucionais.
Objetivos de aprendizagem:
- Aprender os algoritmos de classificação mais usados
- Aprender os pontos fortes e fracos dos algoritmos
- Introduzir redes neurais e seu uso em problemas de classificação
Habilidades que você vai adquirir
Classificação dos dadosAprendizagem da Árvore de DecisãoAprendizagem de MáquinaAlgoritmos de aprendizagem de máquinaMétodos de Aprendizagem de MáquinaFormação de modelos de aprendizagem de máquinaO Que Você Vai Aprender
- Identificar os algoritmos de classificação mais comumente usados e os problemas aos quais normalmente se aplicam
- Comparar os pontos fortes, fracos e compensações de regressão, Naive Bayes, máquinas de vetores de suporte, árvores de decisão, modelos de floresta aleatória e k-vizinhos mais próximos
- Aplicar modelos multiclasse a problemas de classificação
- Explicar perceptrons e redes neurais e seu uso em problemas de classificação
- Usar redes neurais convolucionais para classificação de imagens
Principais Conclusões
- O curso cobre vários estilos de modelagem, incluindo regressão, Naive Bayes, máquinas de vetores de suporte, árvores de decisão, modelos de floresta aleatória, gradient boosting, k-vizinhos mais próximos e modelos multiclasse.
- Para cada estilo de modelagem, o curso examina seus pontos fortes e fracos relativos e as compensações entre eles.
- O curso introduz redes neurais e seu uso em problemas de classificação comuns, como classificação de imagens.
- Redes neurais convolucionais são apresentadas no contexto de classificação de imagens.
Perguntas Frequentes
Quais algoritmos de classificação este curso cobre?
Cobre regressão, Naive Bayes, máquinas de vetores de suporte, árvores de decisão, modelos de floresta aleatória, gradient boosting, k-vizinhos mais próximos, modelos multiclasse, perceptrons e redes neurais e redes neurais convolucionais para classificação de imagens.
Vou aprender as diferenças entre esses algoritmos?
Sim. Para cada estilo de modelagem, você aprenderá seus pontos fortes e fracos relativos e as compensações entre eles.
O curso cobre redes neurais?
Sim. Introduz redes neurais e seu uso em problemas comuns de classificação, incluindo classificação de imagens e redes neurais convolucionais.
Quais habilidades este curso ajuda a desenvolver?
Desenvolve habilidades em classificação de dados, aprendizado de árvore de decisão, aprendizado de máquina, algoritmos de aprendizado de máquina, métodos de aprendizado de máquina e treinamento de modelo de aprendizado de máquina.
Transcrição
Transcrição
Neste capítulo, vamos colocar as mãos em com alguns dos algoritmos específicos que você pode usar para modelagem de classificação. Um dos métodos mais comuns de fazer modelagem de classificação é com uma regressão logística. Agora, a regressão é um dos estilos mais comuns de aprendizado de máquina usado na prática e tem uma história muito longa. A regressão logística é baseada na mesma teoria como regressão linear, mas em vez de prever um valor específico, ele prevê a probabilidade de pertencer a uma determinada classe. Para isso, utiliza a função logística ou sigmóide. Esta função vai de probabilidade zero para 100% de probabilidade. Uma vantagem de usar a regressão logística é que você tem essa probabilidade que pode ser interpretado de forma bastante direta. Isso permite que você veja uma variável de entrada específica e veja como as mudanças nos valores dessa variável de entrada impactar a probabilidade geral de um ponto de dados pertencente a uma classe específica. Então, vamos ver como isso pode funcionar. Então aqui eu tenho um programa de exemplo que executará um modelo específico em três conjuntos de dados sintéticos diferentes. Os conjuntos de dados sintéticos são configurados para que tenham propriedades específicas para que quando comparamos os resultados dos diferentes modelos, podemos determinar onde alguns dos modelos funcionam muito bem e outros modelos se saem relativamente mal. Então, no caso da regressão logística, primeiro preciso importar o módulo do SK learn. Então eu preciso dar um título ao meu gráfico, e, finalmente, preciso inserir o próprio classificador real que quero executar, neste caso, é a regressão logística. Então, quando executamos isso, primeiro mostra os conjuntos de dados sintéticos e então nos mostra o desempenho da regressão logística. O primeiro conjunto de dados é como duas luas interligadas, o segundo é como dois círculos, um ao redor do outro. E o final é essencialmente um blob que é aproximadamente linearmente separável. Ok, então como foi? Portanto, o sombreamento nos gráficos de resultados nos diz onde o modelo está prevendo um valor versus outro. Então, prever se o ponto de dados pertence à classe vermelha ou à classe azul e a grade nos mostra onde o modelo acredita ser uma região que está muito mais associado à classe vermelha ou a classe azul. Então você pode ver aqui no primeiro lembre-se que temos esse tipo de relação linear entre as duas variáveis do modelo. O que isso significa é que vai se sobrepor aquela função sigmóide baseada em probabilidade na grade de forma linear. Então, para nossos exemplos, isso não funciona muito bem não pega a estrutura dentro das luas e especialmente não dentro dos círculos. Agora o último, o conjunto de dados linearmente separável você pode ver que ele é realmente muito melhor, mas o interessante é a probabilidade de 100% as áreas onde o modelo é bastante certo que o ponto de dados pertence a essa classe estão realmente muito distantes. Assim, você pode ver que a maioria dos pontos de dados na verdade, está categorizando-os muito de perto a essa marca de 50%, logo acima ou logo abaixo. Isso nos dá alguma intuição sobre os tipos de conjuntos de dados que podem não ser tão bem modelados por regressões logísticas. Então isso deve lhe dar um pouco de intuição sobre como uma regressão logística pode funcionar em dados da vida real. Existem desafios para este modelo, embora é um método extremamente comum para modelagem você pode definitivamente dizer que não funciona muito bem para certos tipos de relacionamentos entre suas variáveis de entrada. Na verdade, não infere nenhum tipo de relação complexa dentro de suas variáveis de entrada. Você precisaria criar essas variáveis de entrada como novos recursos para usá-los. O bom é que é bastante fácil de interpretar o que está acontecendo no modelo. E se você tiver um estilo de conjunto de dados que tem uma precisão razoavelmente boa, então interpretá-lo é muito fácil porque você tem apenas alguns coeficientes que você precisa interpretar para entender o quão importante cada um desses elementos são. E você pode colocá-los diretamente na forma de probabilidades e você pode pensar sobre eles em probabilidades que é uma maneira muito intuitiva de pensar sobre modelagem de classificação. O problema final com a regressão logística é que é bastante sensível a outliers. Isso significa que seu conjunto de treinamento pode realmente afetar o resultado modelado. Portanto, esteja ciente de discrepâncias em seus dados, é algo que você deve sempre verificar de qualquer maneira mas isso realmente importa quando você está usando regressão logística. O outro desafio com a regressão logística é que é construído sobre um conjunto de suposições que podem não ser atendidas com muitas das diferentes fontes de dados que você usa. Assim, por exemplo, tendo variância desigual dentro de suas diferentes variáveis de entrada é algo que pode afetar massivamente o modelo que você constrói. Então lembre-se de nossos dados do cartão deco vimos muita variação desigual nas variáveis de entrada. E então, neste caso, gostaríamos de ter certeza que tínhamos uma variável de entrada que funcionaria em nosso modelo. Então agora você deve ter uma boa ideia de como uma regressão logística pode ser implementada usando a biblioteca de aprendizado do SK e maneiras que você pode usar algumas das visualizações para interpretar o que o modelo está lhe dizendo e o que está acontecendo com a previsão. Você pode construir sua intuição em alguns desses conjuntos de dados sintéticos para que você tenha uma ideia de como os diferentes modelos se comparam quando você vai usar isso em seus desafios reais.
Aprender em qualquer lugar
Leve seu aprendizado para qualquer lugar — o app da KnowledgeCity permite assistir às lições em qualquer lugar.