Podcast
Questions and Answers
Was ist das Hauptproblem bei der Algorithmenauswahl?
Was ist das Hauptproblem bei der Algorithmenauswahl?
Welche Rolle spielt der 'Feature Space' (F) in der Algorithmenauswahl?
Welche Rolle spielt der 'Feature Space' (F) in der Algorithmenauswahl?
Welche der folgenden Aussagen beschreibt die Beziehung zwischen Algorithmenauswahl und Modellkombination korrekt?
Welche der folgenden Aussagen beschreibt die Beziehung zwischen Algorithmenauswahl und Modellkombination korrekt?
Welche Rolle spielt das 'No Free Lunch'-Theorem in der Algorithmenauswahl?
Welche Rolle spielt das 'No Free Lunch'-Theorem in der Algorithmenauswahl?
Signup and view all the answers
Wie wichtig ist die Konstruktion der Trainingsdaten in Metalearning für die Algorithmenauswahl?
Wie wichtig ist die Konstruktion der Trainingsdaten in Metalearning für die Algorithmenauswahl?
Signup and view all the answers
Welche der folgenden Punkte ist nicht ein wichtiges Kriterium bei der Auswahl von Basis-Algorithmen für die Algorithmenauswahl?
Welche der folgenden Punkte ist nicht ein wichtiges Kriterium bei der Auswahl von Basis-Algorithmen für die Algorithmenauswahl?
Signup and view all the answers
Welche der folgenden Aussagen zu 'Metalearning' für die Algorithmenauswahl ist richtig?
Welche der folgenden Aussagen zu 'Metalearning' für die Algorithmenauswahl ist richtig?
Signup and view all the answers
Welches Ziel verfolgt die Modellkombination im Kontext der Algorithmenauswahl?
Welches Ziel verfolgt die Modellkombination im Kontext der Algorithmenauswahl?
Signup and view all the answers
Wie nennt man die Rate, wenn fälschlicherweise beschuldigte Täter als niedriges Risiko eingestuft werden?
Wie nennt man die Rate, wenn fälschlicherweise beschuldigte Täter als niedriges Risiko eingestuft werden?
Signup and view all the answers
Welche Aussage über COMPAS und das Risiko von Rückfällen ist korrekt?
Welche Aussage über COMPAS und das Risiko von Rückfällen ist korrekt?
Signup and view all the answers
Was beschreibt die Formel für die Fehlerquote im Zusammenhang mit der Verwirrungsmatrix?
Was beschreibt die Formel für die Fehlerquote im Zusammenhang mit der Verwirrungsmatrix?
Signup and view all the answers
Wann ist eine symmetrische Funktion k: 𝒳 × 𝒳 → ℝ positiv semi-definiert (PSD)?
Wann ist eine symmetrische Funktion k: 𝒳 × 𝒳 → ℝ positiv semi-definiert (PSD)?
Signup and view all the answers
Was misst die False Positive Rate?
Was misst die False Positive Rate?
Signup and view all the answers
Welche Aussage beschreibt die Faktorisierung der Matrix K korrekt?
Welche Aussage beschreibt die Faktorisierung der Matrix K korrekt?
Signup and view all the answers
Zu welchem Zweck ist die True Negative Rate für Richter von Bedeutung?
Zu welchem Zweck ist die True Negative Rate für Richter von Bedeutung?
Signup and view all the answers
Welche der folgenden Eigenschaften ist für eine positive semi-definite Matrix K nicht erforderlich?
Welche der folgenden Eigenschaften ist für eine positive semi-definite Matrix K nicht erforderlich?
Signup and view all the answers
Was ist die notwendige Bedingung für die Positivität der Matrix K in Bezug auf c ∈ ℝ𝑛?
Was ist die notwendige Bedingung für die Positivität der Matrix K in Bezug auf c ∈ ℝ𝑛?
Signup and view all the answers
Welche Aussage über die Symmetrie der Matrix K ist wahr?
Welche Aussage über die Symmetrie der Matrix K ist wahr?
Signup and view all the answers
Was ist Hyperparameteroptimierung?
Was ist Hyperparameteroptimierung?
Signup and view all the answers
Welche der folgenden Schritte kann als nominaler Hyperparameter betrachtet werden?
Welche der folgenden Schritte kann als nominaler Hyperparameter betrachtet werden?
Signup and view all the answers
Welches AutoML-System wird in Kapitel 6 von Hutter et al. (2018) behandelt?
Welches AutoML-System wird in Kapitel 6 von Hutter et al. (2018) behandelt?
Signup and view all the answers
Was verwendet SMAC zur Modellierung von pM(f | λ)?
Was verwendet SMAC zur Modellierung von pM(f | λ)?
Signup and view all the answers
Welches der folgenden Tools ist nicht Teil der AutoML-Systems?
Welches der folgenden Tools ist nicht Teil der AutoML-Systems?
Signup and view all the answers
In welchem Jahr erschien das Buch über AutoML von Hutter et al.?
In welchem Jahr erschien das Buch über AutoML von Hutter et al.?
Signup and view all the answers
Wie wird die Optimierung in SMAC beschrieben?
Wie wird die Optimierung in SMAC beschrieben?
Signup and view all the answers
Was sind Meta-Features in Bezug auf Hyperparameteroptimierung?
Was sind Meta-Features in Bezug auf Hyperparameteroptimierung?
Signup and view all the answers
Was wird durch die Schichtung innerhalb eines Perzeptrons ermöglicht?
Was wird durch die Schichtung innerhalb eines Perzeptrons ermöglicht?
Signup and view all the answers
Was beschreibt die Funktion des 'σ' in einem Perzeptron?
Was beschreibt die Funktion des 'σ' in einem Perzeptron?
Signup and view all the answers
Welches Konzept wird durch die Begriffe 'Konjunktion' und 'Disjunktion' bei Perzeptronen beschrieben?
Welches Konzept wird durch die Begriffe 'Konjunktion' und 'Disjunktion' bei Perzeptronen beschrieben?
Signup and view all the answers
Welches Element wird erforderlichenfalls in einem Perzeptron für die Mehrdimensionalität hinzugefügt?
Welches Element wird erforderlichenfalls in einem Perzeptron für die Mehrdimensionalität hinzugefügt?
Signup and view all the answers
Welche Rolle spielt der Parameter 'w' in einem Perzeptron?
Welche Rolle spielt der Parameter 'w' in einem Perzeptron?
Signup and view all the answers
Wie wird eine Boolesche Funktion in einem Perzeptron repräsentiert?
Wie wird eine Boolesche Funktion in einem Perzeptron repräsentiert?
Signup and view all the answers
Was beschreibt der Begriff 'konvexer Körper' im Zusammenhang mit Perzeptren?
Was beschreibt der Begriff 'konvexer Körper' im Zusammenhang mit Perzeptren?
Signup and view all the answers
Wie wird die Interaktion zwischen verschiedenen Eingaben in einem Perzeptron beschrieben?
Wie wird die Interaktion zwischen verschiedenen Eingaben in einem Perzeptron beschrieben?
Signup and view all the answers
Welche Aussage beschreibt die Funktion von 'halfspaces' in Bezug auf Perzeptren am besten?
Welche Aussage beschreibt die Funktion von 'halfspaces' in Bezug auf Perzeptren am besten?
Signup and view all the answers
Was ist ein Hauptvorteil der Schichtung in einem Perzeptron?
Was ist ein Hauptvorteil der Schichtung in einem Perzeptron?
Signup and view all the answers
Was sagt die positive Semi-definitheit einer symmetrischen Matrix 𝐾 aus?
Was sagt die positive Semi-definitheit einer symmetrischen Matrix 𝐾 aus?
Signup and view all the answers
Welche der folgenden Aussagen über die Eigenwerte einer positiven semi-definiten Matrix ist korrekt?
Welche der folgenden Aussagen über die Eigenwerte einer positiven semi-definiten Matrix ist korrekt?
Signup and view all the answers
Was ist eine notwendige Bedingung für eine Funktion 𝑘: 𝒳 × 𝒳 → ℝ, damit die zugehörige Matrix 𝐾 positiv semi-definite ist?
Was ist eine notwendige Bedingung für eine Funktion 𝑘: 𝒳 × 𝒳 → ℝ, damit die zugehörige Matrix 𝐾 positiv semi-definite ist?
Signup and view all the answers
Welche der folgenden Aussagen beschreibt eine Eigenschaft einer positiven semi-definiten Matrix?
Welche der folgenden Aussagen beschreibt eine Eigenschaft einer positiven semi-definiten Matrix?
Signup and view all the answers
Was bedeutet es, dass für alle $x_1, x_2 \in 𝒳$ die Matrix $K_{ij} = k(x_i, x_j)$ positiv semi-definite ist?
Was bedeutet es, dass für alle $x_1, x_2 \in 𝒳$ die Matrix $K_{ij} = k(x_i, x_j)$ positiv semi-definite ist?
Signup and view all the answers
Welche der folgenden Aussagen über die Matrixfaktorisierung 𝐾 = 𝐹^t 𝐹 trifft zu?
Welche der folgenden Aussagen über die Matrixfaktorisierung 𝐾 = 𝐹^t 𝐹 trifft zu?
Signup and view all the answers
Welches Merkmal einer symmetrischen Matrix zeigt an, dass sie positiv semi-definit ist?
Welches Merkmal einer symmetrischen Matrix zeigt an, dass sie positiv semi-definit ist?
Signup and view all the answers
Was tritt auf, wenn die Eigenwerte einer Matrix alle positiv sind?
Was tritt auf, wenn die Eigenwerte einer Matrix alle positiv sind?
Signup and view all the answers
Study Notes
Vorlesungsnotizen: Machine Learning
- Kurs: 194.025: Einführung in maschinelles Lernen
- Dozent: Nysret Musliu
- Gruppe: Datenbanken und Künstliche Intelligenz Gruppe (dbai)
- Thema: Automatisiertes Maschinelles Lernen (AutoML)
Motivation: Algorithmusselektion
- Verschiedene maschinelle Lernalgorithmen stehen zur Verfügung, z.B. k-NN, Entscheidungsbäume, Random Forest, Bayes'sche Netze, Support Vector Machines, Neuronale Netze
- Das No-Free-Lunch-Theorem (NFL) besagt, dass kein Algorithmus für alle Probleme die beste Leistung zeigt. Die optimale Wahl des Algorithmus hängt vom Datensatz ab.
Motivation: Hyperparameter-Optimierung
- Maschinelle Lernalgorithmen haben verschiedene Hyperparameter, z.B. k-NN: Anzahl der Nachbarn, Distanzmetrik; Neuronale Netze: Anzahl der Schichten, Aktivierungsfunktionen; Random Forest: Anzahl der Bäume, Anzahl der Features.
- Die Konfiguration der Parameter hat großen Einfluss auf die Ergebnisse.
- Es gibt einen großen Suchraum möglicher Parameterkonfigurationen.
- Wie wählt man die besten Werte für Hyperparameter aus?
Hyperparameter-Optimierung (formale Definition)
- Formaler Problemdefinition des Problems der Hyperparameter-Optimierung
- Ein maschinelles Lernalgorithmus A
- Parameter: Λ₁, ...,Λn
- Hyperparameter-Raum: A = Λ₁ ×... × Λn
- A: Algorithmus A verwendet die Hyperparameter-Einstellung Λ
- L(AΛ, Dtrain, Dvalid): Validierungsverlust (z.B. Fehlerrate).
- Optimierungsproblem unter k-facher Kreuzvalidierung ist die Minimierung der folgenden Blackbox-Funktion: f(λ) = 1/k Σ(ki=1 L(Aλ, Dtrain(i), Dvalid(i))
AutoML-Systeme
- Prozess zur Automatisierung des maschinellen Lernens auf einem Datensatz.
- Automatische Optimierung von Hyperparametern
- Automatische Algorithmusselektion
- Automatische Featureselektion, Preprocessing
Algorithmusselektion in Maschinellem Lernen (Metalearning)
- Lernen über das Lernen
- Metalearning akkumuliert Erfahrungen über die Leistung von Algorithmen in mehreren Anwendungen.
- Dynamisch: Modellauswahl, Methodenkombination
Algorithmusselektion mit Rices Framework
- Problemraum (P) und Performance-Raum (Y)
- Feature-Extraktion (f) aus P
- Algorithmenraum (A)
- Auswahl des Algorithmus (a) in A, um Leistung (y) in Y zu maximieren.
- Auswahl-Abbildung S(f(x))
Algorithmus Auswahl Probleme
- Auswahl des richtigen Algorithmus (f)
- Konstruktion von Trainingsdaten (S)
- Komplexität der Berechnungs-, Aufwand von f und H
AutoML Systeme (Beispiele)
- Auto-Sklearn
- Auto-WEKA
- TPOT
- H2O
- Auto-PyTorch
Parameter-Optimierung (Beispiel: SMAC)
- Für die Optimierung von Parametern für beliebige Algorithmen.
- Basiert auf einer Menge von Instanzen.
- Optimierung von kombinatorischen Problemen.
- Hyperparameter-Optimierung für maschinelle Lernalgorithmen.
- Verwendet Random Forest, um pm(f | λ) zu modellieren.
Feature-Raum
- Auswahl geeigneter Features ist sehr wichtig.
- Features müssen eine gewisse prädiktive Aussagekraft haben.
- Verschiedene Charakterisierungen, z.B. statistischer und informationstheoretischer Natur, modellbasiert, Landmarking
Statistische und informationstheoretische Features
- Extraktion von Features aus dem Datensatz (z.B., Anzahl der Attribute, Anzahl der Klassen, Verhältnis von Beispielen zu Attributen, durchschnittliche Klassenentropie, Korrelationsgrad zwischen Features und Zielkonzept)
- Annahme: Lernalgorithmen sind sensibel für die Struktur des Datensatzes.
- Größe des Datasets hat einen Einfluss.
Modellbasierte Charakterisierung
- Eigenschaften der auf einem bestimmten Problem induzierten Hypothesen als indirekte Form der Charakterisierung.
- Entscheidungsbäume wurden betrachtet: Knoten pro Feature, maximale Baumtiefe, Baum-Unbalanciertheit
Landmarking
- Jeder Lernalgorithmus hat eine Klasse von Aufgaben, auf denen er gut performt (Expertisenbereich).
- Die Leistung eines Algorithmus auf einer Aufgabe sagt etwas über die Natur der Aufgabe aus.
- Der Landmarker (Landmark learner) ist ein Lernmechanismus, dessen Leistung zur Beschreibung einer Aufgabe verwendet wird.
- Lokalisieren der Aufgabe im Expertenraum.
- Expertenkarte (Expertise map): Hauptauskunftquelle im Landmarking
Numerischer Aufwand von f und S
- Die Kosten für die Berechnung von f(x) sollten viel geringer sein als die Berechnung von t(x)
- Induktion des Metamodells.
- Kosten der Vorhersage mit dem Metamodell.
- Im Allgemeinen nicht problematisch.
Auswahl von y
- Vorhersagegenauigkeit ist das Hauptkriterium für die Algorithmusselektion.
- Andere Leistungsmaße: Rechenkomplexität, Kompaktheit, Ausdrucksstärke.
- Eine weitere Möglichkeit ist die Rangfolge der Algorithmen nach abnehmender Performance bei jedem neuen Problem werden die Algorithmen nach absteigender Performance geordnet.
Hyperparameter-Optimierung (Methoden)
- Gittersuche (Grid search): Exhaustive Suche aller Kombinationen im Gitter.
- Randomisierte Suche: Zufällige Auswahl von Konfigurationen im Suchraum.
- Sequentielle modellbasierte bayesianische Optimierung (SMBO): Probabilistisches Modell M zur Modellierung von f(x) und Auswahl vielversprechender Eingabewerte zur nächsten Bewertung von f(x)
Automatisierte Überwachte Lernpipeline
- Automatisierung von überwachten maschinellen Lernpipelines (z.B. T-P-O-T)
Metalearning und Hyperparameter-Optimierung
- Hyperparameter-Optimierung ist ein Spezialfall der Modellauswahl.
- Auswahl eines bestimmten Lernalgorithmus kann als Optimierung eines nominalen Hyperparameters aufgefasst werden.
- Vorverarbeitungsschritte wie Daten-Normalisierung können als nominale Hyperparameter behandelt werden.
- Verwendung von Meta-Features zur Initialisierung der Parameter des einzelnen Datensatzes.
Literatur
- Bücher und Artikel (AutoML, Metalearning, Algorithmusselektion, Hyperparameter-Optimierung)
Bias und Fairness in ML
- ML-Systeme können voreingenommen sein
- Fehlerquoten für weiße und schwarze Angeklagte
- Die Bedeutung von Verzerrungen und Fairness bei der Modelltraining
- Wie lässt sich der Verlust bestimmter Gruppen im Datensatz reduzieren?
Fairness-Definitionen (Beispiel)
- Naive Versuche zur Fairness
- Kalibrierung (Fairness Definition 2)
- Gleichgewichtsrate der Fehlerraten (Fairness Definition 3)
- Kompromisse zwischen Fairness-Definitionen
Implikationen der Unmöglichkeits-Ergebnisse
- Es besteht kein einziger Ansatz oder Algorithmus, der in allen Szenarien gerecht und optimal funktioniert.
- Eine Beeinflussung der Fairness ist in der Regel ein Trade-off zwischen verschiedenen Definitionen.
- Die Zusammenarbeit mit Experten aus anderen Bereichen ist entscheidend, um verschiedene Perspektiven und wichtige Aspekte zu berücksichtigen.
- Verschiedene Arten von Verlusten sind unterschiedlich wichtig und bedürfen einer sorgfältigen Abwägung
Fairness durch Unwissenheit
- Berücksichtigung geschützter Attribute bei der Datenanalyse
- Korrelationen, die geschützte Attribute offenbaren
- Auch wenn man diese Attribute entfernt, finden ML-Algorithmen diese Korrelationen trotzdem.
Fairnessdefinition 4: Individuelle Fairness
- Individuelle Fairness: Personen mit ähnlichen Attributen sollten gleich behandelt werden.
- Distanzmass (d(x,x')).
- Distanz der Risiko-Scores S(x) und S(x') zur Distanz zwischen den Merkmalsvektoren d(x, y').
- Vorteile: Berücksichtigung von Heterogenität innerhalb der Gruppen, anwendbar, wenn geschützte Gruppen unbekannt sind.
- Nachteile: Definition geeigneter Distanzmass ist aufwendig
Einige Worte zum Bias
- Das Lernen aus Datasets erfasst auch Bias in den Datasets.
- ML-Algorithmen reproduzieren den Bias in den trainierten Datasets.
- Die Reduktion des Bias im Datensatz ist nicht ausreichend.
- Verschiedene Kosten von Fehlern (z.B.., Krankheit vs. Betrug)
Transparenz von Klassifiziern
- Verwendung von "Modell-Karten"
- Standardliste von Fragen zur Freigabe trainierter Klassifizierer
- Von Google, OpenAI unterstützt, unterstützt durch Hugging Face
Menschen und Risiko-Scores
- Bewusstsein über Bias in ML-Systemen
- Nicht nur technische Lösungen zur Überwindung von Bias
- Darstellung der Ergebnisse als Information, damit der Mensch die Entscheidung trifft
- Schwierige/unbeabsichtigte Folgen.
KPRA-Beispiel (Kentucky Pretrial Risk Assessment)
- Politikänderung (HB463) in Kentucky (2011). Anwendungsbereich: Entscheidungen über die Freilassung (frühe/späte) von Inhaftierten
- Zwei mögliche Entscheidungen (Geldstrafe/Keine Geldstrafe)
- Risiken der Straftäter wurden als niedrig/mittel/hoch kategorisiert (automatisch).
- Berücksichtigung war optional.
Zusammenfassung: Algorithmusselektion und Hyperparameter Optimierung
- Algorithmenselektion und Hyperparameter-Optimierung in der Praxis.
- Vorteile und Nachteile der beiden Methoden.
- Wichtigkeit der Berücksichtigung der Anwendungsszenarien.
- Automatisierte Pipelines
Zusammenfassung: Automatisiertes Maschinelles Lernen
- Der Prozess der Automatisierung des maschinellen Lernens.
- Automatische Optimierung von Hyperparametern
- Automatische Algorithmus-Auswahl.
- Automatisierte Feature-Selektion und Vorverarbeitung.
Zusammenfassung: Metalearning (und Algorithmusselektion)
- Erfassung von Lernerfahrungen über Leistung von ML-Algorithmen in mehreren Anwendungen.
- Umgang mit unterschiedlichen ML-Techniken. - Dynamische Verfahren wie Modellauswahl, Methodenkombination.
- Framewrok für Algorithmusselektion wie Rice's Framework.
Zusammenfassung: Datensatz Bias
- Datensätze können Bias enthalten.
- Die Qualität der Daten beeinflusst die Genauigkeit und Leistung der ML-Modells.
- Der Bias in den Datasets sollte reduziert werden.
Zusammenfassung: Training von DNNs
- Berechnung der Ausgabe des Modells.
- Verlust (Loss) berechnen.
- Gradienten der Verlustfunktion bzgl. jedes Gewichts berechnen.
- Gewichte mithilfe der Gradienten aktualisieren.
Studying That Suits You
Use AI to generate personalized quizzes and flashcards to suit your learning preferences.
Related Documents
Description
In diesem Quiz werden zentrale Konzepte der Algorithmenauswahl und ihrer Beziehung zum Metalearning untersucht. Es werden Fragen zur Rolle des 'Feature Space', dem 'No Free Lunch'-Theorem und der Modellkombination gestellt, um ein tieferes Verständnis dieser Themen zu fördern.