Grundlagen maschinelles Lernens PDF

Microsoft Azure KI Grundlagen 2. Grundlagen des maschinellen Lernens Einführung Maschinelles Lernen ist ein Schnittpunkt zwischen Data Science und Softawareentwicklung. Das Ziel ist anhand von Daten ein Vorhesagemodell zu erstellen, das mit einer Softwareanwendung oder einem Dienst integriert werden kann. Was ist Machine Learning? Die Grundidee des maschinellen Lernens besteht darin, Daten aus früheren Beobachtungen zu verwenden, um unbekannte Ergebnisse oder Werte vorherzusagen. Beispiel: ✓ Der Besitzer einer Eisdiele könnte eine App verwenden, die historische Umsatz- und Wetteraufzeichnungen kombiniert, um basierend auf der Wettervorhersage vorherzusagen, wie viel Eiscreme er wahrscheinlich an einem bestimmten Tag verkaufen wird. ✓ Ärzt*innen könnten klinische Daten früherer Patient*innen verwenden, um automatische Tests durchzuführen, die anhand von Faktoren wie Gewicht, Blutzuckerspiegel und anderen Messwerten vorhersagen, ob für neue Patient*innen ein Diabetesrisiko besteht. Maschinelles Lernen als Funktion Grundsätzlich ist ein Machine Learning-Modell eine Softwareanwendung, die eine Funktion zur Berechnung eines Ausgabewerts basierend auf einem oder mehreren Eingabewerten kapselt. 1. Die Trainingsdaten bestehen aus früheren Beobachtungen. In den meisten Fällen umfassen die Beobachtungen die beobachteten Attribute oder Features der beobachteten Sache , für die Sie ein Modell trainieren möchten, um sie vorherzusagen (auch Bezeichnung genannt).In der Mathematik werden die Features oft mit dem Kurzvariablennamen x und die Bezeichnung mit y bezeichnet. In der Regel besteht eine Beobachtung aus mehreren Featurewerten. Daher ist x tatsächlich ein Vektor (ein Array mit mehreren Werten), wie folgt: [x1,x2,x3,...]. Im Eisdielenszenario ist es unser Ziel, ein Modell zu trainieren, das die Anzahl der Eisverkäufe auf der Grundlage des Wetters vorhersagen kann. Die Wettermessungen für den Tag (Temperatur, Niederschlag, Windgeschwindigkeit usw.) wären die Features (x), und die Anzahl der an jedem Tag verkauften Eissorten wäre die Bezeichnung (y). Im medizinischen Szenario geht es darum, anhand der klinischen Messwerte vorherzusagen, ob für Patient*innen ein Diabetesrisiko besteht oder nicht. Die Messwerte der Patient*innen (Gewicht, Blutzuckerspiegel usw.) sind die Features (x), und die Diabeteswahrscheinlichkeit (z. B. 1 für risikobehaftet, 0 für nicht gefährdet) ist die Bezeichnung (y). 2. Ein Algorithmus wird auf die Daten angewendet, um eine Beziehung zwischen den Features und der Bezeichnung zu ermitteln und diese Beziehung als Berechnung zu verallgemeinern, die mit x durchgeführt werden kann, um y zu berechnen. Der jeweils verwendete Algorithmus hängt von der Art des Vorhersageproblems ab. 3. Das Ergebnis des Algorithmus ist ein Modell, das die vom Algorithmus abgeleitete Berechnung als Funktion kapselt, die wir f nennen. Mathematische Notation: y = f(x) 4. Nachdem die Trainingsphase abgeschlossen ist, kann das trainierte Modell zum Rückschließen verwendet werden. Das Modell ist im Wesentlichen ein Softwareprogramm, das die durch den Trainingsprozess erzeugte Funktion kapselt. Arten von ML Überwachtes maschinelles Lernen ist ein allgemeiner Begriff für Machine- Learning-Algorithmen, bei denen die Trainingsdaten sowohl Feature-Werte als auch bekannte Bezeichnungswerte enthalten. Überwachtes maschinelles Lernen wird verwendet, um Modelle zu trainieren, indem eine Beziehung zwischen den Features und Bezeichnungen in früheren Beobachtungen bestimmt wird, sodass in zukünftigen Fällen unbekannte Bezeichnungen für Features vorhergesagt werden können. Regression Regression ist eine Form des überwachten maschinellen Lernens, bei der die vom Modell vorhergesagte Bezeichnung ein numerischer Wert ist. Beispiel: Die Anzahl der verkauften Portionen Eiscreme an einem bestimmten Tag, basierend auf Temperatur, Niederschlag und Windgeschwindigkeit. Klassifizierung Klassifizierung ist eine Form des überwachten maschinellen Lernens, bei der die Bezeichnung eine Kategorisierung oder Klasse darstellt. Es gibt zwei gängige Klassifizierungsszenarien. Binäre Klassifizierung Anders ausgedrückt: Binäre Klassifizierungsmodelle prognostizieren eines von zwei sich gegenseitig ausschließenden Ergebnissen. In all diesen Beispielen gibt das Modell eine binäre true/-false- oder positiv/negativ- Vorhersage.Beispiel: Ob ein Patient ein Diabetesrisiko hat, basierend auf klinischen Metriken wie Gewicht, Alter, Blutzuckerspiegel usw. Multiklassen-Klassifizierung Multiklassen-Klassifizierung erweitert die binäre Klassifizierung, um eine Bezeichnung vorherzusagen, die eine von mehreren möglichen Klassen darstellt. Die Art eines Pinguins (Adelie, Gentoo oder Chinstrap) basierend auf seinen Körpermaßen. Nicht überwachtes maschinelles Lernen Unüberwachtes maschinelles Lernen umfasst das Trainieren von Modellen mit Daten, die nur aus Feature-Werten ohne bekannte Bezeichnungen bestehen. Clustering Die häufigste Form des nicht überwachten maschinellen Lernens ist Clustering. Ein Clustering-Algorithmus identifiziert Ähnlichkeiten zwischen Beobachtungen basierend auf ihren Features und gruppiert sie in unterschiedliche Cluster. Beispiel: Gruppieren ähnlicher Blumen basierend auf ihrer Größe, der Anzahl der Blätter und der Anzahl der Blütenblätter. Regression 5. Teilen Sie die Trainingsdaten (nach dem Zufallsprinzip) auf, um ein Dataset zu erstellen, mit dem das Modell trainiert werden soll, während Sie eine Teilmenge der Daten zurückhalten, die Sie zum Überprüfen des trainierten Modells verwenden. 6. Verwenden Sie einen Algorithmus, um die Trainingsdaten an ein Modell anzupassen. z. B. die lineare Regression. 7. Verwenden Sie die Validierungsdaten, die Sie zurückgehalten haben, um das Modell zu testen, indem Sie Bezeichnungen für die Features vorhersagen. 8. Vergleichen Sie die bekannten tatsächlichen Bezeichnungen im Validierungsdataset mit den Bezeichnungen, die das Modell vorhergesagt hat. Aggregieren Sie dann die Unterschiede zwischen den vorhergesagten und tatsächlichen Bezeichnungen, um eine Metrik zu berechnen, die angibt, wie genau das Modell Vorhersagen für die Validierungsdaten getroffen hat. Regressionsauswertungsmetriken ▪ Mittlere absolute Abweichung (Mean Absolute Error, MAE) Im Beispiel mit der Eiscreme beträgt der Mittelwert (Durchschnitt) der absoluten Abweichungen (2, 3, 3, 1, 2 und 3) 2,33. ▪ Mittlere quadratische Abweichung (MQA) n unserem Beispiel mit der Eiscreme ist der Mittelwert der quadratischen absoluten Werte (4, 9, 9, 1, 4 und 9) 6. ▪ Mittlere quadratische Gesamtabweichung (Root Mean Squared Error, RMSE) Wenn wir die Abweichung in Bezug auf die Anzahl der Eiscremes messen möchten, müssen wir die Quadratwurzel der MQA berechnen. Dadurch entsteht eine Metrik mit dem Namen Mittlere quadratische Gesamtabweichung. In diesem Fall ist das √6, was 2,45 entspricht (Eiscreme). ▪ Bestimmtheitsmaß (R2) st eine Metrik, die den Anteil der Varianz in den Validierungsergebnissen misst, der durch das Modell erklärt werden kann, im Gegensatz zu einem anomalen Aspekt der Validierungsdaten das Ergebnis ein Wert zwischen 0 und 1 ist, Je näher dieser Wert bei 1 liegt, desto besser passt das Modell zu den Validierungsdaten R2 = 1- ∑(y-ŷ)2 ÷ ∑(y-ȳ)2 In diesem Fall ist R2 0,95. ▪ Iteratives Training Um ein Modell wiederholt zu trainieren und auszuwerten, wobei folgendes variiert: Feature Auswahl und Vorbereitung (Auswahl der Features, die in das Modell einbezogen werden sollen, und die auf sie angewendeten Berechnungen, um eine bessere Anpassung sicherzustellen). Algorithmus Auswahl (wir haben die lineare Regression im vorherigen Beispiel untersucht, aber es gibt viele andere Regressionsalgorithmen) Algorithmus Parameter (numerische Einstellungen zum Steuern des Algorithmusverhaltens, genauer als Hyperparameter bezeichnet, um sie von den Parametern x und y zu unterscheiden). Binäre Klassifizierung Im Wesentlichen dienen sie zur Vorhersage von true bzw. wahr oder false bzw falsch. In den meisten realen Szenarien bestehen die Datenbeobachtungen, die zum Trainieren und Überprüfen des Modells verwendet werden, aus mehreren Featurewerten (x) und einem y-Wert, der entweder 1 oder 0 lautet. Es gibt viele Algorithmen, die für die binäre Klassifizierung verwendet werden können, z. B. die logistische Regression, die wie folgt eine Sigmoidfunktion (S-förmige Funktion) mit Werten zwischen 0,0 und 1,0 ableitet: Die vom Algorithmus erzeugte Funktion beschreibt die Wahrscheinlichkeit, dassy für einen bestimmten Wert von x wahr ist (y=1). Mathematisch lässt sich die Funktion wie folgt ausdrücken: f(x) = P(y=1 | x Das Diagramm enthält auch eine horizontale Linie, um den Schwellenwert anzugeben, ab dem ein Modell basierend auf dieser Funktion true (1) oder false (0) vorhersagt. Der Schwellenwert liegt in der Mitte für y (P(y) = 0,5). Auswerten eines binären Klassifizierungsmodells wie bei der Regression halten Sie beim Training eines binären Klassifikationsmodells eine zufällige Teilmenge der Daten zurück, mit der Sie das trainierte Modell validieren. Anschließend können wir die vorhergesagten Klassenbezeichnungen (ŷ) mit den tatsächlichen Klassenbezeichnungen (y) vergleichen, wie hier gezeigt: Genauigkeit Die einfachste Metrik, die Sie aus der Konfusionsmatrix berechnen können, ist die Genauigkeit: der Anteil der richtigen Vorhersagen des Modells. (TN+TP) ÷ (TN+FN+FP+TP) Im Fall unseres Diabetesbeispiels lautet die Berechnung: (2+3) ÷ (2+1+0+3) =5÷6 = 0,83 83 % der Fälle korrekte Vorhersagen. Abruf Abruf ist eine Metrik, die den Anteil positiver Fälle misst, die das Modell richtig identifiziert hat. Die Formel für den Abruf lautet: TP ÷ (TP+FN) Für unser Diabetesbeispiel gilt: 3 ÷ (3+1) =3÷4 = 0,75 75 % der Patient*inen mit Diabetes richtig als Diabetiker*innen identifiziert. Precision Genauigkeit ist eine ähnliche Metrik wie der Abruf, misst jedoch den Anteil der vorhergesagten positiven Fälle, in denen die wahre Bezeichnung tatsächlich positiv ist. Die Formel für Genauigkeit lautet: TP ÷ (TP+FP) Für unser Diabetesbeispiel gilt: 3 ÷ (3+0) =3÷3 = 1,0 lso haben 100 % der Patient*innen, für die unser Modell Diabetes vorhersagt, haben tatsächlich Diabetes. F1-Score F1-Score ist eine Gesamtmetrik, die Abruf und Genauigkeit kombiniert. (2 x Genauigkeit x Abruf) ÷ (Genauigkeit + Abruf) (2 x 1,0 x 0,75) ÷ (1,0 + 0,75) = 1,5 ÷ 1,75 = 0,86 AUC (Area under the curve, Fläche unter der Kurve) false Positive Rate (FPR), die mit FP÷(FP+TN) Diese Metriken werden häufig verwendet, um ein Modell auszuwerten, indem eine ROC- Kurve (Received Operator Characteristic) dargestellt wird, die TPR und FPR für jeden möglichen Schwellenwert zwischen 0,0 und 1,0 vergleicht: m Fall unseres Diabetesmodells wird die obige Kurve erzeugt, und die Metrik der Fläche unter der Kurve (AUC, Area under the curve) beträgt 0,875 Multiklassen Kassifizierung die Flipperlänge (x) jedes Pinguins aufgezeichnet wird. Für jede Beobachtung enthalten die Daten die Pinguinart (y), die wie folgt codiert ist: 0: Adeliepinguin 1: Eselspinguin 2: Zügelpinguin zwei Arten von Algorithmus, die Sie dazu verwenden können: One-vs-Rest-Algorithmen (OvR) Multinomiale Algorithmen One-vs-Rest-Algorithmen (OvR) Jede Funktion berechnet die Wahrscheinlichkeit, dass die Beobachtung eine bestimmte Klasse im Vergleich zu jeder anderen Klasse ist. f0(x) = P(y=0 | x) f1(x) = P(y=1 | x) f2(x) = P(y=2 | x) Jeder Algorithmus erzeugt eine Sigmoidfunktion, die einen Wahrscheinlichkeitswert zwischen 0,0 und 1,0 berechnet. Multinomiale Algorithmen Alternativ können Sie einen multinomialen Algorithmus verwenden, der eine einzelne Funktion erstellt, die eine mehrwertige Ausgabe zurückgibt. Die Ausgabe ist ein Vektor (ein Array von Werten), der die Wahrscheinlichkeitsverteilung für alle möglichen Klassen enthält Ein Beispiel für diese Art von Funktion ist eine softmax-Funktion, die eine Ausgabe wie im folgenden Beispiel erzeugen könnte: [0,2; 0,3; 0,5] Die Elemente im Vektor stellen die Wahrscheinlichkeiten für die Klassen 0, 1 bzw. 2 dar; In diesem Fall ist die Klasse mit der höchsten Wahrscheinlichkeit also 2. Auswerten eines Multiklassen-Klassifizierungsmodells Sie können einen Multiklassen-Klassifizierer auswerten, indem Sie binäre Klassifizierungsmetriken für jede einzelne Klasse berechnen. Aggregatmetriken berechnen, die alle Klassen berücksichtigen Clustering Trainieren eines Clustermodells Einer der am häufigsten verwendeten Algorithmen ist k-Means-Clustering. 9. Die Merkmalswerte (×) werden vektorisiert, um n-dimensionale Koordinaten zu definieren (dabei ist n die Anzahl der Merkmale). Das Blumenbeispiel umfasst zwei Merkmale: die Anzahl der Blätter (×1) und die Anzahl der Blütenblätter (×2). Der Featurevektor verfügt daher über zwei Koordinaten, mit denen wir die Datenpunkte konzeptionell in einen zweidimensionalen Raum ([×1,×2]) zeichnen können. 10. Sie entscheiden nun, wie viele Cluster zum Gruppieren der Blumen verwendet werden sollen, und nennen diesen Wert k. Wenn Sie z. B. drei Cluster erstellen möchten, verwenden Sie einen k-Wert von 3. Anschließend werden die k-Punkte an zufälligen Koordinaten dargestellt. Diese Punkte stellen dann die Mittelpunkte der einzelnen Cluster dar und werden daher auch als Schwerpunkte bezeichnet. 11. Jeder Datenpunkt (in diesem Fall eine Blume) wird dem nächstliegenden Schwerpunkt zugewiesen. 12. Jeder Schwerpunkt wird basierend auf der durchschnittlichen Entfernung zwischen den Punkten in die Mitte der ihm zugewiesenen Datenpunkte verschoben. 13. Nach dem Verschieben des Schwerpunkts befinden sich die Datenpunkte jetzt möglicherweise näher an einem anderen Schwerpunkt und werden daher dem Cluster zugewiesen, dessen Schwerpunkt ihnen jetzt am nächsten liegt. 14. Die Schwerpunkte werden so lange verschoben und die Cluster neu zugeordnet, bis die Cluster stabil sind oder eine vorher festgelegte Anzahl von Iterationen erreicht ist. Bewerten eines Clusteringmodells Es gibt mehrere Metriken, die Sie verwenden können, um die Clustertrennung zu bewerten, einschließlich: Durchschnittliche Entfernung zum Mittelpunkt des Clusters: Diese Metrik gibt an, wie nah sich jeder Punkt im Cluster durchschnittlich am Schwerpunkt des Clusters befindet. Durchschnittliche Entfernung zu anderen Mittelpunkten: Diese Metrik gibt an, wie nah sich jeder Punkt im Cluster durchschnittlich an den Schwerpunkten aller anderen Cluster befindet. Maximaler Abstand zur Clustermitte: Der weiteste Abstand zwischen einem Punkt im Cluster und seinem Schwerpunkt. Silhouette: Ein Wert zwischen -1 und 1, der das Verhältnis des Abstands zwischen Punkten im selben Cluster und Punkten in verschiedenen Clustern zusammenfasst (je näher an 1, desto besser die Clustertrennung). Deep Learning Deep Learning ist eine weiterentwickelte Form von maschinellem Lernen ,die zu emulieren versucht, wie das menschliche Gehirn lernt. Der Schlüssel zu Deep Learning ist die Bildung eines künstlichen neuronalen Netzes, das die elektrochemische Aktivität in biologischen Neuronen mithilfe mathematischer Funktionen simuliert, wie hier gezeigt. Wie lernt ein neuronales Netz? Azure Machine Learning Microsoft Azure Machine Learning ist ein Clouddienst für das bedarfsorientierte Trainieren, Bereitstellen und Verwalten von Machine Learning-Modellen Features und Funktionen von Azure Machine Learning Azure Maschine Learning Studio Automatisiertes maschinelles Lernen: mit diesem Feature können Laien (common person) schnell ein effektives Maschine Learning-Modell aus Daten erstellen. Azure Maschine Learning-Designer: eine grafische Schnittstelle, welche die Entwicklung von Maschine Learning-Lösungen ohne Code ermöglicht. Datenmetrikvisualisierung: analysieren und optimieren Ihrer Experimente mit Visualisierung. Notebooks: schreiben und ausführen Ihres eigenen Codes auf verwalteten Jupyter Notebook-Servern aus, die direkt in Studio integriert sind.

Grundlagen maschinelles Lernens PDF

Document Details

Tags

Related

Summary

Full Transcript