KnowledgeCity

Klassifikationsalgorithmen und -modelle

In diesen Lektionen lernen Sie die gebräuchlichsten Klassifizierungsalgorithmen kennen und erfahren, für welche Probleme sie typischerweise…

In diesen Lektionen lernen Sie die gebräuchlichsten Klassifizierungsalgorithmen kennen und erfahren, für welche Probleme sie typischerweise eingesetzt werden. Es werden verschiedene Modellierungsarten behandelt, darunter: Regression, Naive Bayes, Support Vector Machines, Entscheidungsbäume, Random-Forest-Modelle, k-Nearest-Neighbor Algorithmus und Mehrklassenmodelle.

Für jeden dieser Modellierungsstile werden Sie die relativen Stärken und Schwächen sowie die Kompromisse zwischen ihnen kennenlernen. In diesem Kapitel wird auch eine Einführung in neuronale Netze und ihre Verwendung bei allgemeinen Klassifizierungsproblemen gegeben, wie z. B. Bildklassifizierung und neuronale Faltungsnetze.

Lernziele

  • Kennenlernen der am häufigsten verwendeten Klassifizierungsalgorithmen
  • Stärken und Schwächen der Algorithmen kennen lernen
  • Einführung in neuronale Netze und ihre Verwendung bei Klassifizierungsproblemen

Autor: Briana Brownell

Dauer: 34m · 8 Lektionen
Niveau: Intermediate
Sprache: Deutsch

Fähigkeiten, die du erwirbst

Klassifizierung der DatenEntscheidungsbaum-LernenMaschinelles LernenAlgorithmen für maschinelles LernenMethoden des maschinellen LernensModelltraining für maschinelles Lernen

Was Sie lernen werden

  • Identifizieren Sie die am häufigsten verwendeten Klassifizierungsalgorithmen und die Probleme, auf die sie typischerweise angewendet werden
  • Vergleichen Sie die Stärken, Schwächen und Kompromisse von Regression, Naive Bayes, Support Vector Machines, Entscheidungsbäumen, Random-Forest-Modellen und k-nächsten Nachbarn
  • Wenden Sie Mehrklassen-Modelle auf Klassifizierungsprobleme an
  • Erklären Sie Perzeptronen und neuronale Netze und ihre Verwendung in Klassifizierungsproblemen
  • Verwenden Sie Faltungsneuronale Netze für Bildklassifizierung

Wichtige Erkenntnisse

  • Der Kurs behandelt mehrere Modellierungsstile, einschließlich Regression, Naive Bayes, Support Vector Machines, Entscheidungsbäume, Random-Forest-Modelle, Gradient Boosting, k-nächste Nachbarn und Mehrklassen-Modelle.
  • Für jeden Modellierungsstil untersucht der Kurs seine relativen Stärken und Schwächen sowie die Kompromisse zwischen ihnen.
  • Der Kurs führt neuronale Netze und ihre Verwendung in häufigen Klassifizierungsproblemen wie Bildklassifizierung ein.
  • Faltungsneuronale Netze werden im Kontext der Bildklassifizierung präsentiert.

Häufig gestellte Fragen

Welche Klassifizierungsalgorithmen behandelt dieser Kurs?

Er behandelt Regression, Naive Bayes, Support Vector Machines, Entscheidungsbäume, Random-Forest-Modelle, Gradient Boosting, k-nächste Nachbarn, Mehrklassen-Modelle, Perzeptronen und neuronale Netze sowie Faltungsneuronale Netze für Bildklassifizierung.

Werde ich die Unterschiede zwischen diesen Algorithmen lernen?

Ja. Für jeden Modellierungsstil werden Sie seine relativen Stärken und Schwächen sowie die Kompromisse zwischen ihnen lernen.

Behandelt der Kurs neuronale Netze?

Ja. Er führt neuronale Netze und ihre Verwendung in häufigen Klassifizierungsproblemen ein, einschließlich Bildklassifizierung und Faltungsneuronaler Netze.

Welche Fähigkeiten hilft dieser Kurs beim Aufbau?

Er baut Fähigkeiten in Datenklassifizierung, Decision-Tree-Learning, maschinellem Lernen, Algorithmen des maschinellen Lernens, Methoden des maschinellen Lernens und maschinellem Lernen - Modelltraining auf.

Transkript

Transkript

In diesem Kapitel legen wir Hand an mit einigen der spezifischen Algorithmen, die Sie möglicherweise verwenden für Klassifikationsmodellierung. Eine der gängigsten Methoden Klassifikationsmodellierung zu tun ist mit einer logistischen Regression. Nun ist Regression einer der häufigsten Stile des maschinellen Lernens in der Praxis und es hat eine wirklich lange Geschichte. Die logistische Regression basiert auf derselben Theorie als lineare Regression, sondern statt Vorhersage einen bestimmten Wert, sagt er die Wahrscheinlichkeit voraus der Zugehörigkeit zu einer bestimmten Klasse. Dazu verwendet es die logistische oder Sigmoidfunktion. Diese Funktion geht von Null Wahrscheinlichkeit aus zu 100% Wahrscheinlichkeit. Ein Vorteil der Verwendung der logistischen Regression ist, dass Sie diese Wahrscheinlichkeit haben das lässt sich relativ einfach interpretieren. Auf diese Weise können Sie sich eine bestimmte Eingangsvariable ansehen und sehen Sie, wie sich die Werte dieser Eingabevariablen ändern die Gesamtwahrscheinlichkeit eines Datenpunkts beeinflussen Zugehörigkeit zu einer bestimmten Klasse. Mal sehen, wie es funktionieren könnte. Also hier habe ich ein Beispielprogramm das wird ein bestimmtes Modell ausführen auf drei verschiedenen synthetischen Datensätzen. Die synthetischen Datensätze werden eingerichtet damit sie bestimmte Eigenschaften haben Wenn wir also die Ergebnisse der verschiedenen Modelle vergleichen, Wir können feststellen, wo einige der Modelle wirklich gut abschneiden und andere Modelle schneiden relativ schlecht ab. Im Fall der logistischen Regression gilt also: Zuerst muss ich das Modul von SK Learn importieren. Dann muss ich mein Diagramm betiteln, und schließlich muss ich den eigentlichen Klassifikator selbst eingeben dass ich in diesem Fall laufen möchte, es ist die logistische Regression. Wenn wir das also ausführen, zeigt es zuerst die synthetischen Datensätze und dann zeigt es uns die Leistung der logistischen Regression. Der erste Datensatz ist wie zwei ineinandergreifende Monde, der zweite ist wie zwei Kreise, einer um den anderen. Und der letzte ist im Wesentlichen ein Blob das ist ungefähr linear trennbar. Okay, wie hat es geklappt? Das sagt uns die Schattierung in den Ergebnisgrafiken wo das Modell einen Wert im Vergleich zu einem anderen vorhersagt. Also vorhersagen, ob der Datenpunkt gehört zur roten Klasse oder zur blauen Klasse und das Raster zeigt uns, wo das Modell glaubt, dass es sich um eine Region handelt das ist viel eher mit der roten Klasse verbunden oder die blaue Klasse. So können Sie hier im ersten sehen Denken Sie daran, wir haben diese Art von linearer Beziehung zwischen den beiden Variablen im Modell. Das bedeutet also, dass es eine Art Überlagerung geben wird diese wahrscheinlichkeitsbasierte Sigmoidfunktion auf dem Gitter auf lineare Weise. Für unsere Beispiele funktioniert das also nicht wirklich gut es erfasst nicht die Struktur innerhalb der Monde und vor allem nicht innerhalb der Kreise. Nun der letzte, der linear trennbare Datensatz Sie können sehen, dass es tatsächlich viel besser funktioniert, aber das interessante ist die 100% Wahrscheinlichkeit die Bereiche, in denen das Modell ziemlich sicher ist dass der Datenpunkt zu dieser Klasse gehört sind eigentlich ziemlich weit weg. So können Sie die meisten Datenpunkte sehen es kategorisiert sie wirklich sehr nahe bis zu dieser 50%-Marke, entweder knapp darüber oder knapp darunter. Das gibt uns also eine gewisse Intuition in die Arten von Datensätzen das könnte durch logistische Regressionen nicht so gut modelliert werden. Das sollte Ihnen also ein wenig Intuition vermitteln darüber, wie eine logistische Regression funktionieren könnte in realen Daten. Es gibt jedoch Herausforderungen für dieses Modell Es ist eine sehr verbreitete Methode zur Modellierung man kann definitiv sagen, dass es nicht sehr gut funktioniert für bestimmte Arten von Beziehungen zwischen Ihren Eingabevariablen. Tatsächlich wird daraus keinerlei komplexe Beziehung abgeleitet innerhalb Ihrer Eingabevariablen. Sie müssten diese Eingabevariablen erstellen als neue Features, um sie zu nutzen. Das Schöne ist, dass es ziemlich einfach zu interpretieren ist was ist los in dem modell. Wenn Sie also einen Datensatzstil haben das hat ziemlich gute Genauigkeit, dann interpretieren ist recht einfach, da Sie nur wenige Koeffizienten haben die Sie interpretieren müssen, um zu verstehen, wie wichtig jedes dieser Elemente sind. Und Sie können sie direkt in Form von Wahrscheinlichkeiten ausdrücken und Sie können sie in Wahrscheinlichkeiten betrachten Das ist eine wirklich intuitive Art, darüber nachzudenken Klassifikationsmodellierung. Das letzte Problem bei der logistischen Regression ist das es ist ziemlich empfindlich gegenüber Ausreißern. Das bedeutet, dass Ihr Trainingsset wirklich kann beeinflussen das modellierte Ergebnis. Achten Sie also auf Ausreißer in Ihren Daten, es ist etwas, was Sie sowieso immer überprüfen sollten aber es ist wirklich wichtig, wenn Sie die logistische Regression verwenden. Die andere Herausforderung bei der logistischen Regression ist die Es basiert auf einer Reihe von Annahmen, die möglicherweise nicht erfüllt werden mit vielen der verschiedenen Datenquellen, die Sie verwenden. Also zum Beispiel ungleiche Varianz innerhalb Ihrer verschiedenen Eingabevariablen ist etwas, das das Modell massiv beeinflussen kann die du baust. Merken Sie sich also unsere Daten von card deco Wir haben eine Menge ungleicher Varianzen in den Eingabevariablen gesehen. Und in diesem Fall würden wir dann sichergehen wollen dass wir eine Eingabevariable hatten, die in unserem Modell funktionieren würde. Jetzt sollten Sie also eine gute Idee haben wie eine logistische Regression implementiert werden kann Verwenden der SK-Lernbibliothek und Möglichkeiten, die Sie verwenden können einige der Visualisierungen, um sie zu interpretieren was das Modell Ihnen sagt und was los ist mit der Vorhersage. Auf einigen davon können Sie Ihre Intuition aufbauen synthetische Datensätze, damit Sie sich ein Bild machen können wie sich die verschiedenen Modelle vergleichen wenn Sie dies bei Ihren wirklichen Herausforderungen verwenden werden.

Unterwegs lernen

Lerne überall — mit der KnowledgeCity-App schaust du Lektionen unterwegs.