Algorithmenauswahl und Metalearning
44 Questions
0 Views

Choose a study mode

Play Quiz
Study Flashcards
Spaced Repetition
Chat to lesson

Podcast

Play an AI-generated podcast conversation about this lesson

Questions and Answers

Was ist das Hauptproblem bei der Algorithmenauswahl?

  • Die Bestimmung der optimalen Parameter für einen bestimmten Algorithmus
  • Die Bewertung der Leistung von Algorithmen auf verschiedenen Datensätzen
  • Die Auswahl des besten Algorithmus für eine bestimmte Aufgabe (correct)
  • Die Entwicklung neuer Algorithmen für spezifische Aufgaben
  • Welche Rolle spielt der 'Feature Space' (F) in der Algorithmenauswahl?

  • F enthält messbare Merkmale der Probleminstanzen, die für die Algorithmenauswahl relevant sind. (correct)
  • F repräsentiert die Menge aller möglichen Algorithmen für eine bestimmte Aufgabe.
  • F bestimmt die Komplexität der Algorithmen für die Lösung einer Aufgabe.
  • F beschreibt die Leistungsmerkmale der Algorithmen auf verschiedenen Datensätzen.
  • Welche der folgenden Aussagen beschreibt die Beziehung zwischen Algorithmenauswahl und Modellkombination korrekt?

  • Algorithmenauswahl und Modellkombination sind völlig unabhängige Prozesse.
  • Modellkombination basiert auf der Algorithmenauswahl, um die beste Kombination von Algorithmen zu finden.
  • Modellkombination ist ein Sonderfall der Algorithmenauswahl. (correct)
  • Algorithmenauswahl ist ein Sonderfall der Modellkombination.
  • Welche Rolle spielt das 'No Free Lunch'-Theorem in der Algorithmenauswahl?

    <p>Es zeigt, dass kein Algorithmus für alle Aufgaben gleich gut ist. (A)</p> Signup and view all the answers

    Wie wichtig ist die Konstruktion der Trainingsdaten in Metalearning für die Algorithmenauswahl?

    <p>Sie ist entscheidend, um eine korrekte Lernfunktion für die Algorithmenauswahl zu trainieren. (B)</p> Signup and view all the answers

    Welche der folgenden Punkte ist nicht ein wichtiges Kriterium bei der Auswahl von Basis-Algorithmen für die Algorithmenauswahl?

    <p>Die Popularität der Algorithmen in der wissenschaftlichen Literatur (A)</p> Signup and view all the answers

    Welche der folgenden Aussagen zu 'Metalearning' für die Algorithmenauswahl ist richtig?

    <p>Metalearning ist eine Methode zur Auswahl des besten Algorithmus für eine bestimmte Aufgabe. (D)</p> Signup and view all the answers

    Welches Ziel verfolgt die Modellkombination im Kontext der Algorithmenauswahl?

    <p>Die Reduktion der Wahrscheinlichkeit von Fehlklassifizierungen durch Kombination verschiedener Algorithmen. (B)</p> Signup and view all the answers

    Wie nennt man die Rate, wenn fälschlicherweise beschuldigte Täter als niedriges Risiko eingestuft werden?

    <p>False Negative Rate (C)</p> Signup and view all the answers

    Welche Aussage über COMPAS und das Risiko von Rückfällen ist korrekt?

    <p>Schwarze Angeklagte wurden häufiger fälschlicherweise als Hochrisiko eingestuft. (D)</p> Signup and view all the answers

    Was beschreibt die Formel für die Fehlerquote im Zusammenhang mit der Verwirrungsmatrix?

    <p>(FP + FN) / (TN + TP + FP + FN) (A)</p> Signup and view all the answers

    Wann ist eine symmetrische Funktion k: 𝒳 × 𝒳 → ℝ positiv semi-definiert (PSD)?

    <p>Wenn für alle n ∈ ℕ und x1, x2, … xn die Matrix K positiv semi-definiert ist. (B)</p> Signup and view all the answers

    Was misst die False Positive Rate?

    <p>Wie oft wurden Nicht-Rückfällige als Rückfällige vorhergesagt? (D)</p> Signup and view all the answers

    Welche Aussage beschreibt die Faktorisierung der Matrix K korrekt?

    <p>K kann faktorisierbar sein, wenn K = F t F für einige F ∈ ℝℓ×𝑛. (D)</p> Signup and view all the answers

    Zu welchem Zweck ist die True Negative Rate für Richter von Bedeutung?

    <p>Um sicherzustellen, dass Nicht-Rückfällige nicht fälschlicherweise als Rückfällige beurteilt werden. (A)</p> Signup and view all the answers

    Welche der folgenden Eigenschaften ist für eine positive semi-definite Matrix K nicht erforderlich?

    <p>K kann negative Eigenwerte enthalten. (C)</p> Signup and view all the answers

    Was ist die notwendige Bedingung für die Positivität der Matrix K in Bezug auf c ∈ ℝ𝑛?

    <p>Für jeden Vektor c gilt c t Kc ≥ 0. (A)</p> Signup and view all the answers

    Welche Aussage über die Symmetrie der Matrix K ist wahr?

    <p>Eine asymmetrische Matrix kann nie positiv semi-definiert sein. (A)</p> Signup and view all the answers

    Was ist Hyperparameteroptimierung?

    <p>Ein spezieller Fall der Modellauswahl (B)</p> Signup and view all the answers

    Welche der folgenden Schritte kann als nominaler Hyperparameter betrachtet werden?

    <p>Datennormalisierung (D)</p> Signup and view all the answers

    Welches AutoML-System wird in Kapitel 6 von Hutter et al. (2018) behandelt?

    <p>Auto-Sklearn (A)</p> Signup and view all the answers

    Was verwendet SMAC zur Modellierung von pM(f | λ)?

    <p>Zufallswald (B)</p> Signup and view all the answers

    Welches der folgenden Tools ist nicht Teil der AutoML-Systems?

    <p>Neural Network Designer (D)</p> Signup and view all the answers

    In welchem Jahr erschien das Buch über AutoML von Hutter et al.?

    <p>2018 (B)</p> Signup and view all the answers

    Wie wird die Optimierung in SMAC beschrieben?

    <p>Optimierung von harten kombinatorischen Problemlösern (A)</p> Signup and view all the answers

    Was sind Meta-Features in Bezug auf Hyperparameteroptimierung?

    <p>Parameterinitialisierung von Datensätzen (A)</p> Signup and view all the answers

    Was wird durch die Schichtung innerhalb eines Perzeptrons ermöglicht?

    <p>Die Verarbeitung von nichtlinearen Funktionen (A)</p> Signup and view all the answers

    Was beschreibt die Funktion des 'σ' in einem Perzeptron?

    <p>Eine nichtlineare Aktivierungsfunktion (B)</p> Signup and view all the answers

    Welches Konzept wird durch die Begriffe 'Konjunktion' und 'Disjunktion' bei Perzeptronen beschrieben?

    <p>Die Durchführung von logischen Operationen (A)</p> Signup and view all the answers

    Welches Element wird erforderlichenfalls in einem Perzeptron für die Mehrdimensionalität hinzugefügt?

    <p>Zusätzliche Aktivierungsschichten (A)</p> Signup and view all the answers

    Welche Rolle spielt der Parameter 'w' in einem Perzeptron?

    <p>Er gewichtet die Beiträge der Eingaben (B)</p> Signup and view all the answers

    Wie wird eine Boolesche Funktion in einem Perzeptron repräsentiert?

    <p>Durch Konjunktion und Disjunktion (B)</p> Signup and view all the answers

    Was beschreibt der Begriff 'konvexer Körper' im Zusammenhang mit Perzeptren?

    <p>Ein geometrisches Konzept in der Entscheidungsfindung (A)</p> Signup and view all the answers

    Wie wird die Interaktion zwischen verschiedenen Eingaben in einem Perzeptron beschrieben?

    <p>Durch Schichtung und Gewichtungen (D)</p> Signup and view all the answers

    Welche Aussage beschreibt die Funktion von 'halfspaces' in Bezug auf Perzeptren am besten?

    <p>Sie definieren Entscheidungsgrenzen in mehrdimensionalen Räumen (A)</p> Signup and view all the answers

    Was ist ein Hauptvorteil der Schichtung in einem Perzeptron?

    <p>Ermöglichung der Verarbeitung von komplexen Funktionen (D)</p> Signup and view all the answers

    Was sagt die positive Semi-definitheit einer symmetrischen Matrix 𝐾 aus?

    <p>Für alle $c \in \mathbb{R}^n$ gilt $c^t K c \geq 0$. (A), Die Matrix 𝐾 kann als Produkt aus zwei Matrizen dargestellt werden. (C)</p> Signup and view all the answers

    Welche der folgenden Aussagen über die Eigenwerte einer positiven semi-definiten Matrix ist korrekt?

    <p>Sie sind immer non-negativ. (C)</p> Signup and view all the answers

    Was ist eine notwendige Bedingung für eine Funktion 𝑘: 𝒳 × 𝒳 → ℝ, damit die zugehörige Matrix 𝐾 positiv semi-definite ist?

    <p>Die Funktion 𝑘 muss symmetrisch sein. (A)</p> Signup and view all the answers

    Welche der folgenden Aussagen beschreibt eine Eigenschaft einer positiven semi-definiten Matrix?

    <p>Es gibt eine Faktorisierung in der Form 𝐾 = 𝐹^t𝐹. (D)</p> Signup and view all the answers

    Was bedeutet es, dass für alle $x_1, x_2 \in 𝒳$ die Matrix $K_{ij} = k(x_i, x_j)$ positiv semi-definite ist?

    <p>Die Matrix zeigt eine positive Definite Eigenschaft in Bezug auf alle kombinierenden $x$. (C)</p> Signup and view all the answers

    Welche der folgenden Aussagen über die Matrixfaktorisierung 𝐾 = 𝐹^t 𝐹 trifft zu?

    <p>Die Matrix 𝐾 hat immer vollrank. (B)</p> Signup and view all the answers

    Welches Merkmal einer symmetrischen Matrix zeigt an, dass sie positiv semi-definit ist?

    <p>Es gibt keine negativen Eigenwerte. (D)</p> Signup and view all the answers

    Was tritt auf, wenn die Eigenwerte einer Matrix alle positiv sind?

    <p>Die Matrix ist positiv definit. (C)</p> Signup and view all the answers

    Study Notes

    Vorlesungsnotizen: Machine Learning

    • Kurs: 194.025: Einführung in maschinelles Lernen
    • Dozent: Nysret Musliu
    • Gruppe: Datenbanken und Künstliche Intelligenz Gruppe (dbai)
    • Thema: Automatisiertes Maschinelles Lernen (AutoML)

    Motivation: Algorithmusselektion

    • Verschiedene maschinelle Lernalgorithmen stehen zur Verfügung, z.B. k-NN, Entscheidungsbäume, Random Forest, Bayes'sche Netze, Support Vector Machines, Neuronale Netze
    • Das No-Free-Lunch-Theorem (NFL) besagt, dass kein Algorithmus für alle Probleme die beste Leistung zeigt. Die optimale Wahl des Algorithmus hängt vom Datensatz ab.

    Motivation: Hyperparameter-Optimierung

    • Maschinelle Lernalgorithmen haben verschiedene Hyperparameter, z.B. k-NN: Anzahl der Nachbarn, Distanzmetrik; Neuronale Netze: Anzahl der Schichten, Aktivierungsfunktionen; Random Forest: Anzahl der Bäume, Anzahl der Features.
    • Die Konfiguration der Parameter hat großen Einfluss auf die Ergebnisse.
    • Es gibt einen großen Suchraum möglicher Parameterkonfigurationen.
    • Wie wählt man die besten Werte für Hyperparameter aus?

    Hyperparameter-Optimierung (formale Definition)

    • Formaler Problemdefinition des Problems der Hyperparameter-Optimierung
    • Ein maschinelles Lernalgorithmus A
    • Parameter: Λ₁, ...,Λn
    • Hyperparameter-Raum: A = Λ₁ ×... × Λn
    • A: Algorithmus A verwendet die Hyperparameter-Einstellung Λ
    • L(AΛ, Dtrain, Dvalid): Validierungsverlust (z.B. Fehlerrate).
    • Optimierungsproblem unter k-facher Kreuzvalidierung ist die Minimierung der folgenden Blackbox-Funktion: f(λ) = 1/k Σ(ki=1 L(Aλ, Dtrain(i), Dvalid(i))

    AutoML-Systeme

    • Prozess zur Automatisierung des maschinellen Lernens auf einem Datensatz.
    • Automatische Optimierung von Hyperparametern
    • Automatische Algorithmusselektion
    • Automatische Featureselektion, Preprocessing

    Algorithmusselektion in Maschinellem Lernen (Metalearning)

    • Lernen über das Lernen
    • Metalearning akkumuliert Erfahrungen über die Leistung von Algorithmen in mehreren Anwendungen.
    • Dynamisch: Modellauswahl, Methodenkombination

    Algorithmusselektion mit Rices Framework

    • Problemraum (P) und Performance-Raum (Y)
    • Feature-Extraktion (f) aus P
    • Algorithmenraum (A)
    • Auswahl des Algorithmus (a) in A, um Leistung (y) in Y zu maximieren.
    • Auswahl-Abbildung S(f(x))

    Algorithmus Auswahl Probleme

    • Auswahl des richtigen Algorithmus (f)
    • Konstruktion von Trainingsdaten (S)
    • Komplexität der Berechnungs-, Aufwand von f und H

    AutoML Systeme (Beispiele)

    • Auto-Sklearn
    • Auto-WEKA
    • TPOT
    • H2O
    • Auto-PyTorch

    Parameter-Optimierung (Beispiel: SMAC)

    • Für die Optimierung von Parametern für beliebige Algorithmen.
    • Basiert auf einer Menge von Instanzen.
    • Optimierung von kombinatorischen Problemen.
    • Hyperparameter-Optimierung für maschinelle Lernalgorithmen.
    • Verwendet Random Forest, um pm(f | λ) zu modellieren.

    Feature-Raum

    • Auswahl geeigneter Features ist sehr wichtig.
    • Features müssen eine gewisse prädiktive Aussagekraft haben.
    • Verschiedene Charakterisierungen, z.B. statistischer und informationstheoretischer Natur, modellbasiert, Landmarking

    Statistische und informationstheoretische Features

    • Extraktion von Features aus dem Datensatz (z.B., Anzahl der Attribute, Anzahl der Klassen, Verhältnis von Beispielen zu Attributen, durchschnittliche Klassenentropie, Korrelationsgrad zwischen Features und Zielkonzept)
    • Annahme: Lernalgorithmen sind sensibel für die Struktur des Datensatzes.
    • Größe des Datasets hat einen Einfluss.

    Modellbasierte Charakterisierung

    • Eigenschaften der auf einem bestimmten Problem induzierten Hypothesen als indirekte Form der Charakterisierung.
    • Entscheidungsbäume wurden betrachtet: Knoten pro Feature, maximale Baumtiefe, Baum-Unbalanciertheit

    Landmarking

    • Jeder Lernalgorithmus hat eine Klasse von Aufgaben, auf denen er gut performt (Expertisenbereich).
    • Die Leistung eines Algorithmus auf einer Aufgabe sagt etwas über die Natur der Aufgabe aus.
    • Der Landmarker (Landmark learner) ist ein Lernmechanismus, dessen Leistung zur Beschreibung einer Aufgabe verwendet wird.
    • Lokalisieren der Aufgabe im Expertenraum.
    • Expertenkarte (Expertise map): Hauptauskunftquelle im Landmarking

    Numerischer Aufwand von f und S

    • Die Kosten für die Berechnung von f(x) sollten viel geringer sein als die Berechnung von t(x)
    • Induktion des Metamodells.
    • Kosten der Vorhersage mit dem Metamodell.
    • Im Allgemeinen nicht problematisch.

    Auswahl von y

    • Vorhersagegenauigkeit ist das Hauptkriterium für die Algorithmusselektion.
    • Andere Leistungsmaße: Rechenkomplexität, Kompaktheit, Ausdrucksstärke.
    • Eine weitere Möglichkeit ist die Rangfolge der Algorithmen nach abnehmender Performance bei jedem neuen Problem werden die Algorithmen nach absteigender Performance geordnet.

    Hyperparameter-Optimierung (Methoden)

    • Gittersuche (Grid search): Exhaustive Suche aller Kombinationen im Gitter.
    • Randomisierte Suche: Zufällige Auswahl von Konfigurationen im Suchraum.
    • Sequentielle modellbasierte bayesianische Optimierung (SMBO): Probabilistisches Modell M zur Modellierung von f(x) und Auswahl vielversprechender Eingabewerte zur nächsten Bewertung von f(x)

    Automatisierte Überwachte Lernpipeline

    • Automatisierung von überwachten maschinellen Lernpipelines (z.B. T-P-O-T)

    Metalearning und Hyperparameter-Optimierung

    • Hyperparameter-Optimierung ist ein Spezialfall der Modellauswahl.
    • Auswahl eines bestimmten Lernalgorithmus kann als Optimierung eines nominalen Hyperparameters aufgefasst werden.
    • Vorverarbeitungsschritte wie Daten-Normalisierung können als nominale Hyperparameter behandelt werden.
    • Verwendung von Meta-Features zur Initialisierung der Parameter des einzelnen Datensatzes.

    Literatur

    • Bücher und Artikel (AutoML, Metalearning, Algorithmusselektion, Hyperparameter-Optimierung)

    Bias und Fairness in ML

    • ML-Systeme können voreingenommen sein
    • Fehlerquoten für weiße und schwarze Angeklagte
    • Die Bedeutung von Verzerrungen und Fairness bei der Modelltraining
    • Wie lässt sich der Verlust bestimmter Gruppen im Datensatz reduzieren?

    Fairness-Definitionen (Beispiel)

    • Naive Versuche zur Fairness
    • Kalibrierung (Fairness Definition 2)
    • Gleichgewichtsrate der Fehlerraten (Fairness Definition 3)
    • Kompromisse zwischen Fairness-Definitionen

    Implikationen der Unmöglichkeits-Ergebnisse

    • Es besteht kein einziger Ansatz oder Algorithmus, der in allen Szenarien gerecht und optimal funktioniert.
    • Eine Beeinflussung der Fairness ist in der Regel ein Trade-off zwischen verschiedenen Definitionen.
    • Die Zusammenarbeit mit Experten aus anderen Bereichen ist entscheidend, um verschiedene Perspektiven und wichtige Aspekte zu berücksichtigen.
    • Verschiedene Arten von Verlusten sind unterschiedlich wichtig und bedürfen einer sorgfältigen Abwägung

    Fairness durch Unwissenheit

    • Berücksichtigung geschützter Attribute bei der Datenanalyse
    • Korrelationen, die geschützte Attribute offenbaren
    • Auch wenn man diese Attribute entfernt, finden ML-Algorithmen diese Korrelationen trotzdem.

    Fairnessdefinition 4: Individuelle Fairness

    • Individuelle Fairness: Personen mit ähnlichen Attributen sollten gleich behandelt werden.
    • Distanzmass (d(x,x')).
    • Distanz der Risiko-Scores S(x) und S(x') zur Distanz zwischen den Merkmalsvektoren d(x, y').
    • Vorteile: Berücksichtigung von Heterogenität innerhalb der Gruppen, anwendbar, wenn geschützte Gruppen unbekannt sind.
    • Nachteile: Definition geeigneter Distanzmass ist aufwendig

    Einige Worte zum Bias

    • Das Lernen aus Datasets erfasst auch Bias in den Datasets.
    • ML-Algorithmen reproduzieren den Bias in den trainierten Datasets.
    • Die Reduktion des Bias im Datensatz ist nicht ausreichend.
    • Verschiedene Kosten von Fehlern (z.B.., Krankheit vs. Betrug)

    Transparenz von Klassifiziern

    • Verwendung von "Modell-Karten"
    • Standardliste von Fragen zur Freigabe trainierter Klassifizierer
    • Von Google, OpenAI unterstützt, unterstützt durch Hugging Face

    Menschen und Risiko-Scores

    • Bewusstsein über Bias in ML-Systemen
    • Nicht nur technische Lösungen zur Überwindung von Bias
    • Darstellung der Ergebnisse als Information, damit der Mensch die Entscheidung trifft
    • Schwierige/unbeabsichtigte Folgen.

    KPRA-Beispiel (Kentucky Pretrial Risk Assessment)

    • Politikänderung (HB463) in Kentucky (2011). Anwendungsbereich: Entscheidungen über die Freilassung (frühe/späte) von Inhaftierten
    • Zwei mögliche Entscheidungen (Geldstrafe/Keine Geldstrafe)
    • Risiken der Straftäter wurden als niedrig/mittel/hoch kategorisiert (automatisch).
    • Berücksichtigung war optional.

    Zusammenfassung: Algorithmusselektion und Hyperparameter Optimierung

    • Algorithmenselektion und Hyperparameter-Optimierung in der Praxis.
    • Vorteile und Nachteile der beiden Methoden.
    • Wichtigkeit der Berücksichtigung der Anwendungsszenarien.
    • Automatisierte Pipelines

    Zusammenfassung: Automatisiertes Maschinelles Lernen

    • Der Prozess der Automatisierung des maschinellen Lernens.
    • Automatische Optimierung von Hyperparametern
    • Automatische Algorithmus-Auswahl.
    • Automatisierte Feature-Selektion und Vorverarbeitung.

    Zusammenfassung: Metalearning (und Algorithmusselektion)

    • Erfassung von Lernerfahrungen über Leistung von ML-Algorithmen in mehreren Anwendungen.
    • Umgang mit unterschiedlichen ML-Techniken. - Dynamische Verfahren wie Modellauswahl, Methodenkombination.
    • Framewrok für Algorithmusselektion wie Rice's Framework.

    Zusammenfassung: Datensatz Bias

    • Datensätze können Bias enthalten.
    • Die Qualität der Daten beeinflusst die Genauigkeit und Leistung der ML-Modells.
    • Der Bias in den Datasets sollte reduziert werden.

    Zusammenfassung: Training von DNNs

    • Berechnung der Ausgabe des Modells.
    • Verlust (Loss) berechnen.
    • Gradienten der Verlustfunktion bzgl. jedes Gewichts berechnen.
    • Gewichte mithilfe der Gradienten aktualisieren.

    Studying That Suits You

    Use AI to generate personalized quizzes and flashcards to suit your learning preferences.

    Quiz Team

    Related Documents

    Description

    In diesem Quiz werden zentrale Konzepte der Algorithmenauswahl und ihrer Beziehung zum Metalearning untersucht. Es werden Fragen zur Rolle des 'Feature Space', dem 'No Free Lunch'-Theorem und der Modellkombination gestellt, um ein tieferes Verständnis dieser Themen zu fördern.

    More Like This

    Use Quizgecko on...
    Browser
    Browser