Dans ces leçons, vous apprendrez les algorithmes de classification les plus couramment utilisés et les problèmes auxquels ils s'appliquent…
Dans ces leçons, vous apprendrez les algorithmes de classification les plus couramment utilisés et les problèmes auxquels ils s'appliquent généralement. Nous couvrirons plusieurs styles de modélisation, notamment : la régression, Naive Bayes, les machines à vecteurs de support, les arbres de décision, les modèles de forêt aléatoire, les K-voisins les plus proches et les modèles multi-classes.
Pour chacun de ces styles de modélisation, vous apprendrez leurs forces et faiblesses relatives et les compromis entre eux. Ce chapitre présente également une introduction aux réseaux neuronaux et leur utilisation dans des problèmes de classification courants, tels que la classification d'images et les réseaux neuronaux convolutifs.
Objectifs de la formation
- Apprendre les algorithmes de classification les plus couramment utilisés
- Connaître les forces et les faiblesses des algorithmes
- Introduire les réseaux neuronaux et leur utilisation dans les problèmes de classification.
Compétences acquises
Classification des donnéesApprentissage par arbre de décisionApprentissage automatiqueAlgorithmes d'apprentissage automatiqueMéthodes d'apprentissage automatiqueFormation de modèles d'apprentissage automatiqueCe que vous allez apprendre
- Identifier les algorithmes de classification les plus couramment utilisés et les problèmes auxquels ils s'appliquent généralement
- Comparer les forces, faiblesses et compromis de la régression, de Naive Bayes, des machines à vecteurs de support, des arbres de décision, des modèles de forêts aléatoires et des K plus proches voisins
- Appliquer des modèles multi-classes aux problèmes de classification
- Expliquer les perceptrons et les réseaux de neurones et leur utilisation dans les problèmes de classification
- Utiliser des réseaux de neurones convolutionnels pour la classification d'images
Points clés à retenir
- Le cours couvre plusieurs styles de modélisation, y compris la régression, Naive Bayes, les machines à vecteurs de support, les arbres de décision, les modèles de forêts aléatoires, l'optimisation du gradient, les K plus proches voisins et les modèles multi-classes.
- Pour chaque style de modélisation, le cours examine ses forces et faiblesses relatives ainsi que les compromis entre eux.
- Le cours présente les réseaux de neurones et leur utilisation dans les problèmes de classification courants tels que la classification d'images.
- Les réseaux de neurones convolutionnels sont présentés dans le contexte de la classification d'images.
Foire aux questions
Quels algorithmes de classification ce cours couvre-t-il ?
Il couvre la régression, Naive Bayes, les machines à vecteurs de support, les arbres de décision, les modèles de forêts aléatoires, l'optimisation du gradient, les k plus proches voisins, les modèles multiclasses, les perceptrons et les réseaux de neurones, et les réseaux de neurones convolutionnels pour la classification d'images.
Apprendrai-je les différences entre ces algorithmes ?
Oui. Pour chaque style de modélisation, vous apprendrez ses forces et faiblesses relatives et les compromis entre eux.
Le cours couvre-t-il les réseaux de neurones ?
Oui. Il présente les réseaux de neurones et leur utilisation dans les problèmes de classification courants, y compris la classification d'images et les réseaux de neurones convolutionnels.
Quelles compétences ce cours aide-t-il à développer ?
Il développe des compétences en classification de données, apprentissage par arbre de décision, apprentissage automatique, algorithmes d'apprentissage automatique, méthodes d'apprentissage automatique et entraînement de modèles d'apprentissage automatique.
Transcription
Transcription
Dans ce chapitre, nous allons mettre la main sur avec certains des algorithmes spécifiques que vous pourriez utiliser pour la modélisation de la classification. Une des méthodes les plus courantes de faire de la modélisation de classification est avec une régression logistique. Maintenant, la régression est l'un des styles les plus courants de l'apprentissage automatique utilisé dans la pratique et il a une très longue histoire. La régression logistique est basée sur la même théorie comme une régression linéaire mais au lieu de prédire une valeur spécifique, il prédit la probabilité d'appartenir à une classe déterminée. Pour ce faire, il utilise la fonction logistique ou sigmoïde. Cette fonction part d'une probabilité nulle à 100% de probabilité. Un avantage de l'utilisation de la régression logistique est que vous avez cette probabilité qui peut être interprété assez simplement. Cela vous permet de regarder une variable d'entrée spécifique et voir comment les changements dans les valeurs de cette variable d'entrée impact sur la probabilité globale d'un point de données appartenant à une classe déterminée. Alors, voyons comment cela pourrait fonctionner. Donc ici, j'ai un exemple de programme qui exécutera un modèle spécifique sur trois jeux de données synthétiques différents. Les jeux de données synthétiques sont mis en place afin qu'ils aient des propriétés spécifiques de sorte que lorsque nous comparons les résultats des différents modèles, nous pouvons déterminer où certains des modèles fonctionnent vraiment bien et d'autres modèles font relativement mal. Ainsi, dans le cas de la régression logistique, Je dois d'abord importer le module de SK learn. Ensuite, je dois intituler mon graphique, et enfin, je dois entrer le classificateur lui-même que je veux courir, dans ce cas, c'est la régression logistique. Ainsi, lorsque nous exécutons cela, il affiche d'abord les ensembles de données synthétiques et puis il nous montre la performance de la régression logistique. Le premier ensemble de données est comme deux lunes imbriquées, le second est comme deux cercles, l'un autour de l'autre. Et le dernier est essentiellement un blob qui est approximativement linéairement séparable. Bon, alors comment ça s'est passé ? Ainsi, l'ombrage dans les graphiques de résultats nous indique où le modèle prédit une valeur par rapport à une autre. Prédire si le point de données appartient à la classe rouge ou à la classe bleue et la grille nous montre où le modèle pense être une région qui est beaucoup plus associé soit à la classe rouge ou la classe bleue. Donc vous pouvez voir ici dans le premier rappelez-vous que nous avons ce genre de relation linéaire entre les deux variables du modèle. Donc, ce que cela signifie, c'est qu'il va en quelque sorte se superposer cette fonction sigmoïde basée sur la probabilité sur la grille de façon linéaire. Donc, pour nos exemples, cela ne fonctionne pas vraiment très bien il n'attrape pas la structure dans les lunes et surtout pas dans les cercles. Maintenant le dernier, l'ensemble de données séparables linéairement vous pouvez voir qu'il fait en fait beaucoup mieux, mais la chose intéressante est la probabilité de 100 % les domaines où le modèle est tout à fait certain que le point de données appartient à cette classe sont en fait assez loin. Ainsi, vous pouvez voir que la plupart des points de données c'est en fait les catégoriser très proches à cette barre des 50 %, soit juste au-dessus, soit juste en dessous. Cela nous donne donc une idée des types d'ensembles de données cela pourrait ne pas être aussi bien modélisé par des régressions logistiques. Cela devrait donc vous donner une petite intuition sur la façon dont une régression logistique pourrait fonctionner dans des données réelles. Il y a des défis à ce modèle même si c'est une méthode extrêmement courante de modélisation vous pouvez certainement dire que cela ne fonctionne pas très bien pour certains types de relations entre vos variables d'entrée. En fait, il n'infère aucun type de relation complexe dans vos variables d'entrée. Vous auriez besoin de créer ces variables d'entrée comme de nouvelles fonctionnalités afin de les utiliser. La bonne chose est qu'il est assez facile à interpréter ce qui se passe dans le modèle. Et donc si vous avez un style d'ensemble de données qui a une assez bonne précision, puis l'interpréter est assez facile car vous n'avez que quelques coefficients que vous devez interpréter pour comprendre l'importance chacun de ces éléments le sont. Et vous pouvez directement les mettre sous forme de probabilités et vous pouvez y penser en probabilités qui est une façon vraiment intuitive de penser à modélisation du classement. Le dernier problème avec la régression logistique est que il est assez sensible aux valeurs aberrantes. Cela signifie que votre ensemble d'entraînement peut vraiment affecter le résultat modélisé. Soyez donc conscient des valeurs aberrantes dans vos données, c'est quelque chose que vous devriez toujours vérifier de toute façon mais c'est vraiment important lorsque vous utilisez la régression logistique. L'autre défi de la régression logistique est que il est construit sur un ensemble d'hypothèses qui peuvent ne pas être remplies avec de nombreuses sources de données différentes que vous utilisez. Ainsi, par exemple, ayant une variance inégale dans vos différentes variables d'entrée est quelque chose qui peut affecter massivement le modèle que vous construisez. Alors souvenez-vous de nos données de card deco nous avons vu beaucoup de variance inégale dans les variables d'entrée. Et donc dans ce cas, nous voudrions nous assurer alors que nous avions une variable d'entrée qui fonctionnerait dans notre modèle. Alors maintenant, vous devriez avoir une bonne idée de la façon dont une régression logistique peut être mise en œuvre en utilisant la bibliothèque d'apprentissage SK et les façons dont vous pouvez utiliser certaines des visualisations afin d'interpréter ce que le modèle vous dit et ce qui se passe avec la prédiction. Vous pouvez construire votre intuition sur certains d'entre eux ensembles de données synthétiques pour vous faire une idée de la façon dont les différents modèles se comparent quand vous allez l'utiliser dans vos vrais défis.
Apprendre en déplacement
Apprenez partout — l'application KnowledgeCity vous permet de suivre les leçons en déplacement.