Algorithmenauswahl und Metalearning

Choose a study mode

Play Quiz
Study Flashcards
Spaced Repetition
Chat to Lesson

Podcast

Play an AI-generated podcast conversation about this lesson

Questions and Answers

Was ist das Hauptproblem bei der Algorithmenauswahl?

  • Die Bestimmung der optimalen Parameter für einen bestimmten Algorithmus
  • Die Bewertung der Leistung von Algorithmen auf verschiedenen Datensätzen
  • Die Auswahl des besten Algorithmus für eine bestimmte Aufgabe (correct)
  • Die Entwicklung neuer Algorithmen für spezifische Aufgaben

Welche Rolle spielt der 'Feature Space' (F) in der Algorithmenauswahl?

  • F enthält messbare Merkmale der Probleminstanzen, die für die Algorithmenauswahl relevant sind. (correct)
  • F repräsentiert die Menge aller möglichen Algorithmen für eine bestimmte Aufgabe.
  • F bestimmt die Komplexität der Algorithmen für die Lösung einer Aufgabe.
  • F beschreibt die Leistungsmerkmale der Algorithmen auf verschiedenen Datensätzen.

Welche der folgenden Aussagen beschreibt die Beziehung zwischen Algorithmenauswahl und Modellkombination korrekt?

  • Algorithmenauswahl und Modellkombination sind völlig unabhängige Prozesse.
  • Modellkombination basiert auf der Algorithmenauswahl, um die beste Kombination von Algorithmen zu finden.
  • Modellkombination ist ein Sonderfall der Algorithmenauswahl. (correct)
  • Algorithmenauswahl ist ein Sonderfall der Modellkombination.

Welche Rolle spielt das 'No Free Lunch'-Theorem in der Algorithmenauswahl?

<p>Es zeigt, dass kein Algorithmus für alle Aufgaben gleich gut ist. (A)</p> Signup and view all the answers

Wie wichtig ist die Konstruktion der Trainingsdaten in Metalearning für die Algorithmenauswahl?

<p>Sie ist entscheidend, um eine korrekte Lernfunktion für die Algorithmenauswahl zu trainieren. (B)</p> Signup and view all the answers

Welche der folgenden Punkte ist nicht ein wichtiges Kriterium bei der Auswahl von Basis-Algorithmen für die Algorithmenauswahl?

<p>Die Popularität der Algorithmen in der wissenschaftlichen Literatur (A)</p> Signup and view all the answers

Welche der folgenden Aussagen zu 'Metalearning' für die Algorithmenauswahl ist richtig?

<p>Metalearning ist eine Methode zur Auswahl des besten Algorithmus für eine bestimmte Aufgabe. (D)</p> Signup and view all the answers

Welches Ziel verfolgt die Modellkombination im Kontext der Algorithmenauswahl?

<p>Die Reduktion der Wahrscheinlichkeit von Fehlklassifizierungen durch Kombination verschiedener Algorithmen. (B)</p> Signup and view all the answers

Wie nennt man die Rate, wenn fälschlicherweise beschuldigte Täter als niedriges Risiko eingestuft werden?

<p>False Negative Rate (C)</p> Signup and view all the answers

Welche Aussage über COMPAS und das Risiko von Rückfällen ist korrekt?

<p>Schwarze Angeklagte wurden häufiger fälschlicherweise als Hochrisiko eingestuft. (D)</p> Signup and view all the answers

Was beschreibt die Formel für die Fehlerquote im Zusammenhang mit der Verwirrungsmatrix?

<p>(FP + FN) / (TN + TP + FP + FN) (A)</p> Signup and view all the answers

Wann ist eine symmetrische Funktion k: 𝒳 × 𝒳 → ℝ positiv semi-definiert (PSD)?

<p>Wenn für alle n ∈ ℕ und x1, x2, … xn die Matrix K positiv semi-definiert ist. (B)</p> Signup and view all the answers

Was misst die False Positive Rate?

<p>Wie oft wurden Nicht-Rückfällige als Rückfällige vorhergesagt? (D)</p> Signup and view all the answers

Welche Aussage beschreibt die Faktorisierung der Matrix K korrekt?

<p>K kann faktorisierbar sein, wenn K = F t F für einige F ∈ ℝℓ×𝑛. (D)</p> Signup and view all the answers

Zu welchem Zweck ist die True Negative Rate für Richter von Bedeutung?

<p>Um sicherzustellen, dass Nicht-Rückfällige nicht fälschlicherweise als Rückfällige beurteilt werden. (A)</p> Signup and view all the answers

Welche der folgenden Eigenschaften ist für eine positive semi-definite Matrix K nicht erforderlich?

<p>K kann negative Eigenwerte enthalten. (C)</p> Signup and view all the answers

Was ist die notwendige Bedingung für die Positivität der Matrix K in Bezug auf c ∈ ℝ𝑛?

<p>Für jeden Vektor c gilt c t Kc ≥ 0. (A)</p> Signup and view all the answers

Welche Aussage über die Symmetrie der Matrix K ist wahr?

<p>Eine asymmetrische Matrix kann nie positiv semi-definiert sein. (A)</p> Signup and view all the answers

Was ist Hyperparameteroptimierung?

<p>Ein spezieller Fall der Modellauswahl (B)</p> Signup and view all the answers

Welche der folgenden Schritte kann als nominaler Hyperparameter betrachtet werden?

<p>Datennormalisierung (D)</p> Signup and view all the answers

Welches AutoML-System wird in Kapitel 6 von Hutter et al. (2018) behandelt?

<p>Auto-Sklearn (A)</p> Signup and view all the answers

Was verwendet SMAC zur Modellierung von pM(f | λ)?

<p>Zufallswald (B)</p> Signup and view all the answers

Welches der folgenden Tools ist nicht Teil der AutoML-Systems?

<p>Neural Network Designer (D)</p> Signup and view all the answers

In welchem Jahr erschien das Buch über AutoML von Hutter et al.?

<p>2018 (B)</p> Signup and view all the answers

Wie wird die Optimierung in SMAC beschrieben?

<p>Optimierung von harten kombinatorischen Problemlösern (A)</p> Signup and view all the answers

Was sind Meta-Features in Bezug auf Hyperparameteroptimierung?

<p>Parameterinitialisierung von Datensätzen (A)</p> Signup and view all the answers

Was wird durch die Schichtung innerhalb eines Perzeptrons ermöglicht?

<p>Die Verarbeitung von nichtlinearen Funktionen (A)</p> Signup and view all the answers

Was beschreibt die Funktion des 'σ' in einem Perzeptron?

<p>Eine nichtlineare Aktivierungsfunktion (B)</p> Signup and view all the answers

Welches Konzept wird durch die Begriffe 'Konjunktion' und 'Disjunktion' bei Perzeptronen beschrieben?

<p>Die Durchführung von logischen Operationen (A)</p> Signup and view all the answers

Welches Element wird erforderlichenfalls in einem Perzeptron für die Mehrdimensionalität hinzugefügt?

<p>Zusätzliche Aktivierungsschichten (A)</p> Signup and view all the answers

Welche Rolle spielt der Parameter 'w' in einem Perzeptron?

<p>Er gewichtet die Beiträge der Eingaben (B)</p> Signup and view all the answers

Wie wird eine Boolesche Funktion in einem Perzeptron repräsentiert?

<p>Durch Konjunktion und Disjunktion (B)</p> Signup and view all the answers

Was beschreibt der Begriff 'konvexer Körper' im Zusammenhang mit Perzeptren?

<p>Ein geometrisches Konzept in der Entscheidungsfindung (A)</p> Signup and view all the answers

Wie wird die Interaktion zwischen verschiedenen Eingaben in einem Perzeptron beschrieben?

<p>Durch Schichtung und Gewichtungen (D)</p> Signup and view all the answers

Welche Aussage beschreibt die Funktion von 'halfspaces' in Bezug auf Perzeptren am besten?

<p>Sie definieren Entscheidungsgrenzen in mehrdimensionalen Räumen (A)</p> Signup and view all the answers

Was ist ein Hauptvorteil der Schichtung in einem Perzeptron?

<p>Ermöglichung der Verarbeitung von komplexen Funktionen (D)</p> Signup and view all the answers

Was sagt die positive Semi-definitheit einer symmetrischen Matrix 𝐾 aus?

<p>Für alle $c \in \mathbb{R}^n$ gilt $c^t K c \geq 0$. (A), Die Matrix 𝐾 kann als Produkt aus zwei Matrizen dargestellt werden. (C)</p> Signup and view all the answers

Welche der folgenden Aussagen über die Eigenwerte einer positiven semi-definiten Matrix ist korrekt?

<p>Sie sind immer non-negativ. (C)</p> Signup and view all the answers

Was ist eine notwendige Bedingung für eine Funktion 𝑘: 𝒳 × 𝒳 → ℝ, damit die zugehörige Matrix 𝐾 positiv semi-definite ist?

<p>Die Funktion 𝑘 muss symmetrisch sein. (A)</p> Signup and view all the answers

Welche der folgenden Aussagen beschreibt eine Eigenschaft einer positiven semi-definiten Matrix?

<p>Es gibt eine Faktorisierung in der Form 𝐾 = 𝐹^t𝐹. (D)</p> Signup and view all the answers

Was bedeutet es, dass für alle $x_1, x_2 \in 𝒳$ die Matrix $K_{ij} = k(x_i, x_j)$ positiv semi-definite ist?

<p>Die Matrix zeigt eine positive Definite Eigenschaft in Bezug auf alle kombinierenden $x$. (C)</p> Signup and view all the answers

Welche der folgenden Aussagen über die Matrixfaktorisierung 𝐾 = 𝐹^t 𝐹 trifft zu?

<p>Die Matrix 𝐾 hat immer vollrank. (B)</p> Signup and view all the answers

Welches Merkmal einer symmetrischen Matrix zeigt an, dass sie positiv semi-definit ist?

<p>Es gibt keine negativen Eigenwerte. (D)</p> Signup and view all the answers

Was tritt auf, wenn die Eigenwerte einer Matrix alle positiv sind?

<p>Die Matrix ist positiv definit. (C)</p> Signup and view all the answers

Flashcards

Algorithmenraum (A)

Die Menge aller betrachteten Algorithmen zur Lösung eines Problems.

Algorithmenauswahl

Ein Algorithmus, der aus einer Menge von Merkmalen eines Problems den optimalen Algorithmen zur Lösung des Problems auswählt.

Performance-Raum (Y)

Der Prozess, um Algorithmen anhand ihrer Eigenschaften und Performance zu bewerten.

Merkmalsraum (F)

Der Raum der Merkmale oder Eigenschaften, die ein Problem beschreiben.

Signup and view all the flashcards

Problemraum (P)

Die Menge aller möglichen Instanzen oder Fälle eines Problems.

Signup and view all the flashcards

Modellkombination

Verschiedene Lernalgorithmen werden kombiniert, um ein einziges System zu bilden.

Signup and view all the flashcards

Meta-Lernen

Eine Form des maschinellen Lernens, die darauf abzielt, die besten Algorithmen auszuwählen.

Signup and view all the flashcards

Algorithmenauswahl im Meta-Lernen

Ein Algorithmus, der aus einer Menge von Merkmalen einen einzelnen Lernalgorithmus auswählt.

Signup and view all the flashcards

Confusion Matrix

Die Confusion Matrix ist eine Tabelle, die die Ergebnisse eines Klassifikationsmodells darstellt. Sie zeigt, wie viele Fälle richtig und falsch klassifiziert wurden.

Signup and view all the flashcards

False-Positive-Rate (FPR)

Die False-Positive-Rate (FPR) gibt an, wie oft das Modell einen Fall fälschlicherweise als positiv klassifiziert hat, obwohl er eigentlich negativ war.

Signup and view all the flashcards

False-Negative-Rate (FNR)

Die False-Negative-Rate (FNR) gibt an, wie oft das Modell einen Fall fälschlicherweise als negativ klassifiziert hat, obwohl er eigentlich positiv war.

Signup and view all the flashcards

Fehlerquote

Die Fehlerquote eines Klassifikationsmodells misst den Anteil der falschen Vorhersagen an der Gesamtzahl der Vorhersagen.

Signup and view all the flashcards

Kritik an COMPAS

Die COMPAS-Software wurde kritisiert, weil sie bei der Vorhersage der Rückfallwahrscheinlichkeit gegenüber schwarzen Angeklagten voreingenommen war.

Signup and view all the flashcards

Hyperparameter-Optimierung - Was ist das?

Hyperparameter-Optimierung ist ein Sonderfall der Modellselektion. Sie befasst sich mit der Suche nach den optimalen Parametern, die für einen Algorithmus die beste Leistung erbringen.

Signup and view all the flashcards

Lernalgorithmus als Hyperparameter

Die Wahl eines bestimmten Lernalgorithmus kann als Optimierung eines nominalen Hyperparameters betrachtet werden. Dieser Hyperparameter bestimmt, welcher Algorithmus eingesetzt wird.

Signup and view all the flashcards

Datenvorverarbeitung als Hyperparameter

Vorkonditionierungsschritte, wie beispielsweise die Normalisierung von Daten, können als nominale Hyperparameter behandelt werden. Diese Hyperparameter bestimmen, wie die Daten vor der Verarbeitung vorbereitet werden.

Signup and view all the flashcards

AutoML-Systeme

AutoML-Systeme nutzen automatisierte Verfahren, um den gesamten Prozess der maschinellen Lernens zu vereinfachen. Dabei optimieren sie automatisch Modelle und Parameter, um so den Prozess der Modellentwicklung zu beschleunigen und zu vereinfachen.

Signup and view all the flashcards

SMAC - Parameteroptimierung

SMAC ist ein Werkzeug zur Optimierung beliebiger Algorithmen und Parameter. Es verwendet einen Random Forest, um zukünftige Algorithmus-Performances vorherzusagen und so die optimale Parameterkombination zu finden.

Signup and view all the flashcards

Regressionsbäume anpassen

Das Anpassen eines Regressionsbaums an Daten dient dazu, ein Modell zu erstellen, das die Beziehung zwischen Eingangswerten und Ausgangswerten lernt. Dieses Modell kann dann verwendet werden, um zukünftige Werte vorherzusagen.

Signup and view all the flashcards

Auto-Sklearn

Auto-Sklearn ist ein AutoML-System, das die automatisierte Optimierung von Machine-Learning-Modellen ermöglicht. Es bietet eine Vielzahl von Algorithmen und Verfahren, die automatisch konfiguriert und ausgewählt werden.

Signup and view all the flashcards

Metalearning und Algorithmus-Auswahl

Metalearning ist eine Technik, die es ermöglicht, aus früheren Lernerfahrungen zu lernen, um neue Aufgaben effizienter zu lösen. Es hilft bei der Auswahl des besten Algorithmus und der optimalen Parameter für eine bestimmte Aufgabe.

Signup and view all the flashcards

Positiv Semi-Definite (PSD) Kernel-Funktion

Eine symmetrische Funktion 𝑘: 𝒳 × 𝒳 → ℝ ist positiv semi-definit (PSD), wenn für alle 𝑛 ∈ ℕ und 𝑥1 , 𝑥2 , … 𝑥𝑛 ∈ 𝒳 die Matrix 𝐾 ∈ ℝ𝑛×𝑛 mit 𝐾𝑖𝑗 = 𝑘 𝑥𝑖 , 𝑥𝑗 positiv semi-definit ist.

Signup and view all the flashcards

Kernmatrix-Äquivalenzen

Für jede symmetrische Matrix 𝐾 ∈ ℝ𝑛×𝑛 sind die folgenden Aussagen äquivalent: 1. 𝐾 ist positiv semi-definit (PSD). 2. 𝐾 kann faktorisiert werden ∃ℓ ∈ ℕ, 𝐹 ∈ ℝℓ×𝑛 : 𝐾 = 𝐹 𝑡 𝐹.

Signup and view all the flashcards

Kernabschlusseigenschaft

Die Eigenschaft, dass die Komposition von zwei PSD-Kernfunktionen wieder eine PSD-Kernfunktion ist.

Signup and view all the flashcards

Kernel-Funktion

Eine Funktion 𝑘: 𝒳 × 𝒳 → ℝ, die als Kernfunktion in einem Kernel-Methoden-Modell verwendet werden kann.

Signup and view all the flashcards

Kernmatrix

Eine symmetrische Matrix, die die Beziehung zwischen allen Datenpunkten in einem Datensatz beschreibt.

Signup and view all the flashcards

Positiv semidefinite Matrix

Eine symmetrische Matrix 𝐾 ∈ ℝ𝑛×𝑛 ist positiv semidefinit (PSD), wenn für alle 𝑐 ∈ ℝ𝑛 gilt: 𝑐 𝑡 𝐾𝑐 ≥ 0.

Signup and view all the flashcards

Positiv semidefinite Funktion

Eine symmetrische Funktion 𝑘: 𝒳 × 𝒳 → ℝ ist positiv semidefinit (PSD), wenn für alle 𝑛 ∈ ℕ und 𝑥1 , 𝑥2 , … 𝑥𝑛 ∈ 𝒳 die Matrix 𝐾 ∈ ℝ𝑛×𝑛 mit 𝐾𝑖𝑗 = 𝑘 𝑥𝑖 , 𝑥𝑗 positiv semidefinit ist.

Signup and view all the flashcards

Faktorisierung einer Matrix

Eine Matrix 𝐾 ∈ ℝ𝑛×𝑛 kann faktorisiert werden, wenn es eine natürliche Zahl ℓ und eine Matrix 𝐹 ∈ ℝℓ×𝑛 gibt, sodass 𝐾 = 𝐹 𝑡 𝐹 gilt.

Signup and view all the flashcards

Eigenwerte einer PSD Matrix

Eine symmetrische Matrix 𝐾 ∈ ℝ𝑛×𝑛 hat nur nicht-negative Eigenwerte, wenn sie positiv semidefinit ist.

Signup and view all the flashcards

PSD Matrix und Eigenwerte

Eine Matrix 𝐾 ∈ ℝ𝑛×𝑛 ist positiv semidefinit (PSD), wenn sie nur nicht-negative Eigenwerte hat.

Signup and view all the flashcards

PSD Matrix und Faktorisierung

Eine Matrix 𝐾 ∈ ℝ𝑛×𝑛 ist positiv semidefinit (PSD), wenn sie faktorisiert werden kann.

Signup and view all the flashcards

Äquivalenz von Faktorisierung und Eigenwerten

Die Eigenschaft, eine Matrix 𝐾 ∈ ℝ𝑛×𝑛 in das Produkt zweier Matrizen zu zerlegen, ist äquivalent zu der Eigenschaft, dass die Matrix nur nicht-negative Eigenwerte hat.

Signup and view all the flashcards

Kernel einer PSD Matrix

Der Kernel 𝑘: 𝒳 × 𝒳 → ℝ einer PSD Matrix 𝐾 ∈ ℝ𝑛×𝑛 ist eine positive semidefinite Funktion.

Signup and view all the flashcards

Halbraum

Eine Hyperebene trennt den Merkmalsraum in zwei Hälften, die durch ein lineares Ungleichungssystem definiert sind.

Signup and view all the flashcards

Perzeptron

Ein Perzeptron ist ein lineares Klassifikationsmodell, das durch ein einzelnes Neuron implementiert wird. Es trennt Datenpunkte in verschiedene Klassen, indem es eine Hyperebene im Merkmalsraum findet.

Signup and view all the flashcards

Mehrschichtiges Perzeptron

Ein Perzeptron kann nicht-lineare Entscheidungen treffen, indem es mehrere Perzeptrone in Schichten aneinanderreiht. Jede Schicht lernt eine komplexere Darstellung der Daten.

Signup and view all the flashcards

Schicht im Mehrschichtigen Perzeptron

Eine Schicht im Mehrschichtigen Perzeptron ist eine Sammlung von Perzeptronen, die gleichzeitig auf die gleichen Daten angewendet werden. Jede Schicht berechnet eine bestimmte Eigenschaft der Daten.

Signup and view all the flashcards

Komplexität des Mehrschichtigen Perzeptrons

Ein Mehrschichtiges Perzeptron kann durch Hinzufügen weiterer Schichten beliebig komplexe Entscheidungsgrenzen lernen. Diese können sowohl konvexe als auch nicht-konvexe Formen annehmen.

Signup and view all the flashcards

Aktivierungsfunktion

Die Aktivierungsfunktion eines Perzeptrons bestimmt, ob das Neuron feuert oder nicht. Sie transformiert den gewichteten Summen-Eingang des Neurons in einen Ausgangswert.

Signup and view all the flashcards

Gewichtsvektor

Die Gewichtsvektoren eines Perzeptrons repräsentieren die Stärke der Verbindung zwischen den Neuronen und bestimmen die Position der Entscheidungsgrenze.

Signup and view all the flashcards

Approximation von Booleschen Funktionen

Die Kombination von mehreren Perzeptronen ermöglicht es, beliebige Boolesche Funktionen zu approximieren. Dies ermöglicht die Modellierung von komplexen Zusammenhängen in den Daten.

Signup and view all the flashcards

Disjunktion von Halbräumen

Ein Mehrschichtiges Perzeptron, das eine disjunkte Kombination von Halbräumen lernt, kann eine komplexe Entscheidungsgrenze erstellen, die eine Vielzahl von Datenpunkten klassifizieren kann.

Signup and view all the flashcards

Konjunktion von Halbräumen

Ein Mehrschichtiges Perzeptron, das eine konjunktive Kombination von Halbräumen lernt, kann eine komplexe Entscheidungsgrenze erstellen, die nur Datenpunkte klassifiziert, die alle Bedingungen erfüllen.

Signup and view all the flashcards

Study Notes

Vorlesungsnotizen: Machine Learning

  • Kurs: 194.025: Einführung in maschinelles Lernen
  • Dozent: Nysret Musliu
  • Gruppe: Datenbanken und Künstliche Intelligenz Gruppe (dbai)
  • Thema: Automatisiertes Maschinelles Lernen (AutoML)

Motivation: Algorithmusselektion

  • Verschiedene maschinelle Lernalgorithmen stehen zur Verfügung, z.B. k-NN, Entscheidungsbäume, Random Forest, Bayes'sche Netze, Support Vector Machines, Neuronale Netze
  • Das No-Free-Lunch-Theorem (NFL) besagt, dass kein Algorithmus für alle Probleme die beste Leistung zeigt. Die optimale Wahl des Algorithmus hängt vom Datensatz ab.

Motivation: Hyperparameter-Optimierung

  • Maschinelle Lernalgorithmen haben verschiedene Hyperparameter, z.B. k-NN: Anzahl der Nachbarn, Distanzmetrik; Neuronale Netze: Anzahl der Schichten, Aktivierungsfunktionen; Random Forest: Anzahl der Bäume, Anzahl der Features.
  • Die Konfiguration der Parameter hat großen Einfluss auf die Ergebnisse.
  • Es gibt einen großen Suchraum möglicher Parameterkonfigurationen.
  • Wie wählt man die besten Werte für Hyperparameter aus?

Hyperparameter-Optimierung (formale Definition)

  • Formaler Problemdefinition des Problems der Hyperparameter-Optimierung
  • Ein maschinelles Lernalgorithmus A
  • Parameter: Λ₁, ...,Λn
  • Hyperparameter-Raum: A = Λ₁ ×... × Λn
  • A: Algorithmus A verwendet die Hyperparameter-Einstellung Λ
  • L(AΛ, Dtrain, Dvalid): Validierungsverlust (z.B. Fehlerrate).
  • Optimierungsproblem unter k-facher Kreuzvalidierung ist die Minimierung der folgenden Blackbox-Funktion: f(λ) = 1/k Σ(ki=1 L(Aλ, Dtrain(i), Dvalid(i))

AutoML-Systeme

  • Prozess zur Automatisierung des maschinellen Lernens auf einem Datensatz.
  • Automatische Optimierung von Hyperparametern
  • Automatische Algorithmusselektion
  • Automatische Featureselektion, Preprocessing

Algorithmusselektion in Maschinellem Lernen (Metalearning)

  • Lernen über das Lernen
  • Metalearning akkumuliert Erfahrungen über die Leistung von Algorithmen in mehreren Anwendungen.
  • Dynamisch: Modellauswahl, Methodenkombination

Algorithmusselektion mit Rices Framework

  • Problemraum (P) und Performance-Raum (Y)
  • Feature-Extraktion (f) aus P
  • Algorithmenraum (A)
  • Auswahl des Algorithmus (a) in A, um Leistung (y) in Y zu maximieren.
  • Auswahl-Abbildung S(f(x))

Algorithmus Auswahl Probleme

  • Auswahl des richtigen Algorithmus (f)
  • Konstruktion von Trainingsdaten (S)
  • Komplexität der Berechnungs-, Aufwand von f und H

AutoML Systeme (Beispiele)

  • Auto-Sklearn
  • Auto-WEKA
  • TPOT
  • H2O
  • Auto-PyTorch

Parameter-Optimierung (Beispiel: SMAC)

  • Für die Optimierung von Parametern für beliebige Algorithmen.
  • Basiert auf einer Menge von Instanzen.
  • Optimierung von kombinatorischen Problemen.
  • Hyperparameter-Optimierung für maschinelle Lernalgorithmen.
  • Verwendet Random Forest, um pm(f | λ) zu modellieren.

Feature-Raum

  • Auswahl geeigneter Features ist sehr wichtig.
  • Features müssen eine gewisse prädiktive Aussagekraft haben.
  • Verschiedene Charakterisierungen, z.B. statistischer und informationstheoretischer Natur, modellbasiert, Landmarking

Statistische und informationstheoretische Features

  • Extraktion von Features aus dem Datensatz (z.B., Anzahl der Attribute, Anzahl der Klassen, Verhältnis von Beispielen zu Attributen, durchschnittliche Klassenentropie, Korrelationsgrad zwischen Features und Zielkonzept)
  • Annahme: Lernalgorithmen sind sensibel für die Struktur des Datensatzes.
  • Größe des Datasets hat einen Einfluss.

Modellbasierte Charakterisierung

  • Eigenschaften der auf einem bestimmten Problem induzierten Hypothesen als indirekte Form der Charakterisierung.
  • Entscheidungsbäume wurden betrachtet: Knoten pro Feature, maximale Baumtiefe, Baum-Unbalanciertheit

Landmarking

  • Jeder Lernalgorithmus hat eine Klasse von Aufgaben, auf denen er gut performt (Expertisenbereich).
  • Die Leistung eines Algorithmus auf einer Aufgabe sagt etwas über die Natur der Aufgabe aus.
  • Der Landmarker (Landmark learner) ist ein Lernmechanismus, dessen Leistung zur Beschreibung einer Aufgabe verwendet wird.
  • Lokalisieren der Aufgabe im Expertenraum.
  • Expertenkarte (Expertise map): Hauptauskunftquelle im Landmarking

Numerischer Aufwand von f und S

  • Die Kosten für die Berechnung von f(x) sollten viel geringer sein als die Berechnung von t(x)
  • Induktion des Metamodells.
  • Kosten der Vorhersage mit dem Metamodell.
  • Im Allgemeinen nicht problematisch.

Auswahl von y

  • Vorhersagegenauigkeit ist das Hauptkriterium für die Algorithmusselektion.
  • Andere Leistungsmaße: Rechenkomplexität, Kompaktheit, Ausdrucksstärke.
  • Eine weitere Möglichkeit ist die Rangfolge der Algorithmen nach abnehmender Performance bei jedem neuen Problem werden die Algorithmen nach absteigender Performance geordnet.

Hyperparameter-Optimierung (Methoden)

  • Gittersuche (Grid search): Exhaustive Suche aller Kombinationen im Gitter.
  • Randomisierte Suche: Zufällige Auswahl von Konfigurationen im Suchraum.
  • Sequentielle modellbasierte bayesianische Optimierung (SMBO): Probabilistisches Modell M zur Modellierung von f(x) und Auswahl vielversprechender Eingabewerte zur nächsten Bewertung von f(x)

Automatisierte Überwachte Lernpipeline

  • Automatisierung von überwachten maschinellen Lernpipelines (z.B. T-P-O-T)

Metalearning und Hyperparameter-Optimierung

  • Hyperparameter-Optimierung ist ein Spezialfall der Modellauswahl.
  • Auswahl eines bestimmten Lernalgorithmus kann als Optimierung eines nominalen Hyperparameters aufgefasst werden.
  • Vorverarbeitungsschritte wie Daten-Normalisierung können als nominale Hyperparameter behandelt werden.
  • Verwendung von Meta-Features zur Initialisierung der Parameter des einzelnen Datensatzes.

Literatur

  • Bücher und Artikel (AutoML, Metalearning, Algorithmusselektion, Hyperparameter-Optimierung)

Bias und Fairness in ML

  • ML-Systeme können voreingenommen sein
  • Fehlerquoten für weiße und schwarze Angeklagte
  • Die Bedeutung von Verzerrungen und Fairness bei der Modelltraining
  • Wie lässt sich der Verlust bestimmter Gruppen im Datensatz reduzieren?

Fairness-Definitionen (Beispiel)

  • Naive Versuche zur Fairness
  • Kalibrierung (Fairness Definition 2)
  • Gleichgewichtsrate der Fehlerraten (Fairness Definition 3)
  • Kompromisse zwischen Fairness-Definitionen

Implikationen der Unmöglichkeits-Ergebnisse

  • Es besteht kein einziger Ansatz oder Algorithmus, der in allen Szenarien gerecht und optimal funktioniert.
  • Eine Beeinflussung der Fairness ist in der Regel ein Trade-off zwischen verschiedenen Definitionen.
  • Die Zusammenarbeit mit Experten aus anderen Bereichen ist entscheidend, um verschiedene Perspektiven und wichtige Aspekte zu berücksichtigen.
  • Verschiedene Arten von Verlusten sind unterschiedlich wichtig und bedürfen einer sorgfältigen Abwägung

Fairness durch Unwissenheit

  • Berücksichtigung geschützter Attribute bei der Datenanalyse
  • Korrelationen, die geschützte Attribute offenbaren
  • Auch wenn man diese Attribute entfernt, finden ML-Algorithmen diese Korrelationen trotzdem.

Fairnessdefinition 4: Individuelle Fairness

  • Individuelle Fairness: Personen mit ähnlichen Attributen sollten gleich behandelt werden.
  • Distanzmass (d(x,x')).
  • Distanz der Risiko-Scores S(x) und S(x') zur Distanz zwischen den Merkmalsvektoren d(x, y').
  • Vorteile: Berücksichtigung von Heterogenität innerhalb der Gruppen, anwendbar, wenn geschützte Gruppen unbekannt sind.
  • Nachteile: Definition geeigneter Distanzmass ist aufwendig

Einige Worte zum Bias

  • Das Lernen aus Datasets erfasst auch Bias in den Datasets.
  • ML-Algorithmen reproduzieren den Bias in den trainierten Datasets.
  • Die Reduktion des Bias im Datensatz ist nicht ausreichend.
  • Verschiedene Kosten von Fehlern (z.B.., Krankheit vs. Betrug)

Transparenz von Klassifiziern

  • Verwendung von "Modell-Karten"
  • Standardliste von Fragen zur Freigabe trainierter Klassifizierer
  • Von Google, OpenAI unterstützt, unterstützt durch Hugging Face

Menschen und Risiko-Scores

  • Bewusstsein über Bias in ML-Systemen
  • Nicht nur technische Lösungen zur Überwindung von Bias
  • Darstellung der Ergebnisse als Information, damit der Mensch die Entscheidung trifft
  • Schwierige/unbeabsichtigte Folgen.

KPRA-Beispiel (Kentucky Pretrial Risk Assessment)

  • Politikänderung (HB463) in Kentucky (2011). Anwendungsbereich: Entscheidungen über die Freilassung (frühe/späte) von Inhaftierten
  • Zwei mögliche Entscheidungen (Geldstrafe/Keine Geldstrafe)
  • Risiken der Straftäter wurden als niedrig/mittel/hoch kategorisiert (automatisch).
  • Berücksichtigung war optional.

Zusammenfassung: Algorithmusselektion und Hyperparameter Optimierung

  • Algorithmenselektion und Hyperparameter-Optimierung in der Praxis.
  • Vorteile und Nachteile der beiden Methoden.
  • Wichtigkeit der Berücksichtigung der Anwendungsszenarien.
  • Automatisierte Pipelines

Zusammenfassung: Automatisiertes Maschinelles Lernen

  • Der Prozess der Automatisierung des maschinellen Lernens.
  • Automatische Optimierung von Hyperparametern
  • Automatische Algorithmus-Auswahl.
  • Automatisierte Feature-Selektion und Vorverarbeitung.

Zusammenfassung: Metalearning (und Algorithmusselektion)

  • Erfassung von Lernerfahrungen über Leistung von ML-Algorithmen in mehreren Anwendungen.
  • Umgang mit unterschiedlichen ML-Techniken. - Dynamische Verfahren wie Modellauswahl, Methodenkombination.
  • Framewrok für Algorithmusselektion wie Rice's Framework.

Zusammenfassung: Datensatz Bias

  • Datensätze können Bias enthalten.
  • Die Qualität der Daten beeinflusst die Genauigkeit und Leistung der ML-Modells.
  • Der Bias in den Datasets sollte reduziert werden.

Zusammenfassung: Training von DNNs

  • Berechnung der Ausgabe des Modells.
  • Verlust (Loss) berechnen.
  • Gradienten der Verlustfunktion bzgl. jedes Gewichts berechnen.
  • Gewichte mithilfe der Gradienten aktualisieren.

Studying That Suits You

Use AI to generate personalized quizzes and flashcards to suit your learning preferences.

Quiz Team

Related Documents

More Like This

생성 패턴 퀴즈
13 questions

생성 패턴 퀴즈

WorldFamousOnyx6547 avatar
WorldFamousOnyx6547
Algorithm Selection: DFS vs BFS
12 questions

Algorithm Selection: DFS vs BFS

NoiselessCharacterization4759 avatar
NoiselessCharacterization4759
Use Quizgecko on...
Browser
Browser