Podcast
Questions and Answers
Welche Aussage beschreibt am besten das Ziel des maschinellen Lernens?
Welche Aussage beschreibt am besten das Ziel des maschinellen Lernens?
- Das Erstellen von Systemen, die menschliches Verhalten exakt nachahmen können.
- Das Lernen aus Daten, um optimale Entscheidungen zu treffen oder Vorhersagen zu machen. (correct)
- Das explizite Programmieren von intelligenten Systemen.
- Die Entwicklung von Systemen, die ausschließlich auf vorgegebenen Algorithmen basieren.
Welche der folgenden Anwendungen ist KEIN typisches Beispiel für den Einsatz von maschinellem Lernen?
Welche der folgenden Anwendungen ist KEIN typisches Beispiel für den Einsatz von maschinellem Lernen?
- Bild- und Spracherkennung
- Manuelle Dateneingabe in Tabellenkalkulationen (correct)
- Empfehlungssysteme
- Autonome Fahrzeuge
Welche Art des maschinellen Lernens verwendet Belohnungen aus Interaktionen mit der Umgebung, um zu lernen?
Welche Art des maschinellen Lernens verwendet Belohnungen aus Interaktionen mit der Umgebung, um zu lernen?
- Halbüberwachtes Lernen
- Überwachtes Lernen
- Unüberwachtes Lernen
- Verstärkungslernen (correct)
Was ist ein Hauptmerkmal von tiefen neuronalen Netzen (DNNs) im Vergleich zu traditionellen Algorithmen?
Was ist ein Hauptmerkmal von tiefen neuronalen Netzen (DNNs) im Vergleich zu traditionellen Algorithmen?
In welchem Bereich werden tiefe neuronale Netze (DNNs) zunehmend eingesetzt und übertreffen oft menschliche Fähigkeiten?
In welchem Bereich werden tiefe neuronale Netze (DNNs) zunehmend eingesetzt und übertreffen oft menschliche Fähigkeiten?
Was ist die Hauptfunktion von Aktivierungsfunktionen in neuronalen Netzen?
Was ist die Hauptfunktion von Aktivierungsfunktionen in neuronalen Netzen?
Welche zwei Eigenschaften sind besonders nützlich für Aktivierungsfunktionen?
Welche zwei Eigenschaften sind besonders nützlich für Aktivierungsfunktionen?
Warum ist Differenzierbarkeit eine wichtige Eigenschaft von Aktivierungsfunktionen?
Warum ist Differenzierbarkeit eine wichtige Eigenschaft von Aktivierungsfunktionen?
Welche Art von Aktivierungsfunktion wird häufig im Ausgangslayer für Klassifikationsaufgaben verwendet, um eine Verteilungsdichtefunktion nachzubilden?
Welche Art von Aktivierungsfunktion wird häufig im Ausgangslayer für Klassifikationsaufgaben verwendet, um eine Verteilungsdichtefunktion nachzubilden?
Wozu dient die Beschränkung des Wertebereichs am Ausgang einer Aktivierungsfunktion?
Wozu dient die Beschränkung des Wertebereichs am Ausgang einer Aktivierungsfunktion?
Welche der folgenden Aussagen beschreibt den Zweck des Validation Sets beim Training eines neuronalen Netzes am besten?
Welche der folgenden Aussagen beschreibt den Zweck des Validation Sets beim Training eines neuronalen Netzes am besten?
Welche Art von Datensatz wird verwendet, um die endgültige Leistung eines trainierten neuronalen Netzes zu bewerten?
Welche Art von Datensatz wird verwendet, um die endgültige Leistung eines trainierten neuronalen Netzes zu bewerten?
Was passiert typischerweise, wenn während des Trainings festgestellt wird, dass keine weitere Verbesserung der Performance auf dem Validierungsdatensatz erzielt wird?
Was passiert typischerweise, wenn während des Trainings festgestellt wird, dass keine weitere Verbesserung der Performance auf dem Validierungsdatensatz erzielt wird?
Welche der folgenden Optionen sind typische Anpassungen, die vorgenommen werden, wenn die Leistung eines neuronalen Netzes auf dem Validierungsdatensatz nicht gut genug ist?
Welche der folgenden Optionen sind typische Anpassungen, die vorgenommen werden, wenn die Leistung eines neuronalen Netzes auf dem Validierungsdatensatz nicht gut genug ist?
Welche Aussage beschreibt am besten die Rolle der Kostenfunktion beim Training eines neuronalen Netzes?
Welche Aussage beschreibt am besten die Rolle der Kostenfunktion beim Training eines neuronalen Netzes?
Warum ist die Differenzierbarkeit der Kostenfunktion wichtig für das Training neuronaler Netze?
Warum ist die Differenzierbarkeit der Kostenfunktion wichtig für das Training neuronaler Netze?
Welche der folgenden Kostenfunktionen ist am besten für Regressionsaufgaben geeignet?
Welche der folgenden Kostenfunktionen ist am besten für Regressionsaufgaben geeignet?
Welche der folgenden Kostenfunktionen ist am besten für Klassifikationsaufgaben mit Softmax-Ausgangsschicht geeignet?
Welche der folgenden Kostenfunktionen ist am besten für Klassifikationsaufgaben mit Softmax-Ausgangsschicht geeignet?
Was ist das Hauptziel des Gradientenabstiegs beim Training neuronaler Netze?
Was ist das Hauptziel des Gradientenabstiegs beim Training neuronaler Netze?
Was ist die grundlegende Idee hinter dem Backpropagation-Algorithmus?
Was ist die grundlegende Idee hinter dem Backpropagation-Algorithmus?
Welche zwei Hauptphasen umfasst der Backpropagation-Algorithmus?
Welche zwei Hauptphasen umfasst der Backpropagation-Algorithmus?
Was ist das Ziel der Forward Propagation Phase im Backpropagation-Algorithmus?
Was ist das Ziel der Forward Propagation Phase im Backpropagation-Algorithmus?
Was geschieht in der Backward Propagation Phase des Backpropagation-Algorithmus?
Was geschieht in der Backward Propagation Phase des Backpropagation-Algorithmus?
Warum ist es wichtig, die Berechnung des Gradienten für Klassifikations-DNNs zu verstehen?
Warum ist es wichtig, die Berechnung des Gradienten für Klassifikations-DNNs zu verstehen?
Was ist das Ziel, wenn der Gradient der Kostenfunktion berechnet wird?
Was ist das Ziel, wenn der Gradient der Kostenfunktion berechnet wird?
Was ist die Kettenregel im Kontext des Backpropagation-Algorithmus?
Was ist die Kettenregel im Kontext des Backpropagation-Algorithmus?
Stichastic Gradient Descent (SGD) ist ein Verfahren zur Beschleunigung des Trainings. Was ist die grundlegende Idee?
Stichastic Gradient Descent (SGD) ist ein Verfahren zur Beschleunigung des Trainings. Was ist die grundlegende Idee?
Nennen Sie ein Beispiel für eine Situation, in der das Vorliegen von Daten, an denen ein Parameter auf zwei Pfaden oder mehr wirkt, berücksichtigt werden muss.
Nennen Sie ein Beispiel für eine Situation, in der das Vorliegen von Daten, an denen ein Parameter auf zwei Pfaden oder mehr wirkt, berücksichtigt werden muss.
Was ist der Parametervektor?
Was ist der Parametervektor?
Was ist kein Vorteil von DNNs (Deep Neural Networks)?
Was ist kein Vorteil von DNNs (Deep Neural Networks)?
Die Neuronen im menschlichen Gehirn...
Die Neuronen im menschlichen Gehirn...
Welche Aussage über die Aktivierungsfunktion ist falsch?
Welche Aussage über die Aktivierungsfunktion ist falsch?
Welche Art von Lernen wird verwendet, wenn ein Algorithmus Muster in Daten ohne vorgegebene Labels erkennen soll?
Welche Art von Lernen wird verwendet, wenn ein Algorithmus Muster in Daten ohne vorgegebene Labels erkennen soll?
Wann werden DNNs mit Reinforcement Learning eingesetzt?
Wann werden DNNs mit Reinforcement Learning eingesetzt?
Welche der folgenden Aussagen beschreibt am besten den Nutzen des maschinellen Lernens?
Welche der folgenden Aussagen beschreibt am besten den Nutzen des maschinellen Lernens?
In welchen der folgenden Bereiche werden tiefe neuronale Netze (DNNs) typischerweise eingesetzt?
In welchen der folgenden Bereiche werden tiefe neuronale Netze (DNNs) typischerweise eingesetzt?
Beim Training eines neuronalen Netzes, was ist der Zweck der Aufteilung der Daten in Trainings-, Validierungs- und Testdatensätze?
Beim Training eines neuronalen Netzes, was ist der Zweck der Aufteilung der Daten in Trainings-, Validierungs- und Testdatensätze?
Was ist der Hauptnachteil beim Verwenden des mittleren quadratischen Fehlers (Mean Square Error) als Kostenfunktion für Klassifikationsaufgaben?
Was ist der Hauptnachteil beim Verwenden des mittleren quadratischen Fehlers (Mean Square Error) als Kostenfunktion für Klassifikationsaufgaben?
Warum ist die Kreuzentropie eine gut geeignete Kostenfunktion für Klassifikationsaufgaben mit Softmax-Ausgangsschicht?
Warum ist die Kreuzentropie eine gut geeignete Kostenfunktion für Klassifikationsaufgaben mit Softmax-Ausgangsschicht?
Was ist das Ziel des Gradientenabstiegs beim Training von DNNs?
Was ist das Ziel des Gradientenabstiegs beim Training von DNNs?
Was ist die Kettenregel im Zusammenhang mit dem Backpropagation-Algorithmus?
Was ist die Kettenregel im Zusammenhang mit dem Backpropagation-Algorithmus?
Was ist die Hauptidee hinter Stochastic Gradient Descent (SGD)?
Was ist die Hauptidee hinter Stochastic Gradient Descent (SGD)?
Was ist beim Backpropagation Algorithmus ein Parametervektor?
Was ist beim Backpropagation Algorithmus ein Parametervektor?
Was ist der Ansatz beim überwachten Lernen?
Was ist der Ansatz beim überwachten Lernen?
Welchen Vorteil bieten tiefe neuronale Netze (DNNs) gegenüber flachen neuronalen Netzen?
Welchen Vorteil bieten tiefe neuronale Netze (DNNs) gegenüber flachen neuronalen Netzen?
Welche Aussage beschreibt den Zweck des Validierungsdatensatzes beim Training eines neuronalen Netzes am besten?
Welche Aussage beschreibt den Zweck des Validierungsdatensatzes beim Training eines neuronalen Netzes am besten?
Eine der Strategien mit denen ein Modell besser für unbekannte Daten generalisiert ist Regularisierung. Welche gehört NICHT zu den Regularisierungsmethoden?
Eine der Strategien mit denen ein Modell besser für unbekannte Daten generalisiert ist Regularisierung. Welche gehört NICHT zu den Regularisierungsmethoden?
Wozu dient die Begrenzung des Wertebereichs am Ausgang einer Aktivierungsfunktion in neuronalen Netzen?
Wozu dient die Begrenzung des Wertebereichs am Ausgang einer Aktivierungsfunktion in neuronalen Netzen?
In welcher Phase des Backpropagation-Algorithmus werden die Ausgaben des neuronalen Netzes mit den tatsächlichen Werten verglichen?
In welcher Phase des Backpropagation-Algorithmus werden die Ausgaben des neuronalen Netzes mit den tatsächlichen Werten verglichen?
Was ist das besondere an tiefem Reinforcement Learning?
Was ist das besondere an tiefem Reinforcement Learning?
Warum ist Differenzierbarkeit eine wichtige Eigenschaft von Aktivierungsfunktionen in neuronalen Netzen?
Warum ist Differenzierbarkeit eine wichtige Eigenschaft von Aktivierungsfunktionen in neuronalen Netzen?
Welche Aufgabe hat eine Aktivierungsfunktion?
Welche Aufgabe hat eine Aktivierungsfunktion?
Welche Aussage beschreibt am besten die Beziehung zwischen Trainingsdaten, Validierungsdaten und Testdaten?
Welche Aussage beschreibt am besten die Beziehung zwischen Trainingsdaten, Validierungsdaten und Testdaten?
Was ist die Hauptfunktion der Forward Propagation im Backpropagation-Algorithmus?
Was ist die Hauptfunktion der Forward Propagation im Backpropagation-Algorithmus?
Flashcards
Maschinelles Lernen (ML)
Maschinelles Lernen (ML)
Ein Teilgebiet der künstlichen Intelligenz, das es Systemen ermöglicht, aus Daten zu lernen.
Überwachtes Lernen
Überwachtes Lernen
Eine Art des maschinellen Lernens, bei der der Algorithmus anhand von Beispielen mit vorgegebenen Ausgängen lernt.
Unüberwachtes Lernen
Unüberwachtes Lernen
Eine Art des maschinellen Lernens, bei der der Algorithmus Muster in Daten ohne vorgegebene Labels identifiziert.
Verstärkungslernen
Verstärkungslernen
Eine Art des maschinellen Lernens, die durch Belohnungen aus Interaktionen mit der Umgebung lernt.
Signup and view all the flashcards
Tiefe neuronale Netze (DNN)
Tiefe neuronale Netze (DNN)
Neuronale Netze mit vielen Schichten, die durch maschinelles Lernen an Aufgaben angepasst werden.
Signup and view all the flashcards
Aktivierungsfunktion
Aktivierungsfunktion
Eine Funktion, die in neuronalen Netzen verwendet wird, um eine nichtlineare Transformation der Eingabe zu erzeugen.
Signup and view all the flashcards
Eigenschaften von Aktivierungsfunktionen
Eigenschaften von Aktivierungsfunktionen
Zwei nützliche Eigenschaften von Aktivierungsfunktionen: Differenzierbarkeit und Beschränkung des Wertebereichs.
Signup and view all the flashcards
Training Set
Training Set
Ein Datensatz, der zum Trainieren eines neuronalen Netzes verwendet wird.
Signup and view all the flashcards
Validation Set
Validation Set
Ein Datensatz, der zur Fortschrittskontrolle und für das Tuning freier Parameter verwendet wird.
Signup and view all the flashcards
Test Set
Test Set
Ein Datensatz, der zum Bewerten der Performance eines trainierten neuronalen Netzes verwendet wird.
Signup and view all the flashcards
Kostenfunktion
Kostenfunktion
Eine Funktion, die misst, wie gut ein neuronales Netz eine Klassifikationsaufgabe löst.
Signup and view all the flashcards
Gradientenabstieg
Gradientenabstieg
Ein iterativer Optimierungsalgorithmus zur Minimierung einer Kostenfunktion. Nützlich beim Training und wichtig für die Differenzierbarkeit.
Signup and view all the flashcards
Backpropagation
Backpropagation
Berechnung des Gradienten der Kostenfunktion bezüglich der Gewichte eines neuronalen Netzes.
Signup and view all the flashcards
Stochastic Gradient Descent (SGD)
Stochastic Gradient Descent (SGD)
Eine Variante des Gradientenabstiegs, die auf zufälligen Teilmengen des Trainingsdatensatzes basiert.
Signup and view all the flashcards
Forward propagation
Forward propagation
Vorwärtsrechnung - DNN durchrechnen für aktuelle Eingabe.
Signup and view all the flashcardsStudy Notes
- Die Präsentation befasst sich mit den Grundlagen der automatischen Spracherkennung und gibt eine Einführung in neuronale Netze (Kapitel 8-9).
- Die Präsentation wurde von Prof. Dr.-Ing. Dorothea Kolossa am 17. Dezember 2024 gehalten und stammt von der FG Elektronische Systeme der Medizintechnik (mtec).
Überblick
- Einführung
- DNN-Strukturen vol. 1
- DNN-Training
Maschinelles Lernen
- Maschinelles Lernen (ML) ist ein Teilgebiet der künstlichen Intelligenz (KI).
- Maschinelles Lernen ermöglicht es, intelligente Systeme zu entwickeln, deren Verhalten aus Daten und Zielvorgaben gelernt wird, anstatt explizit programmiert zu werden.
- Das Ziel ist es, aus Daten zu lernen, um optimale Entscheidungen zu treffen oder Vorhersagen zu machen.
Anwendungsbeispiele für Maschinelles Lernen
- Bild- und Spracherkennung.
- Mensch-Maschine-Interaktion in natürlicher Sprache (Chatbots, Large Language Models - LLMs).
- Empfehlungssysteme.
- Autonome Fahrzeuge.
- Vorhersagemodelle in verschiedenen Branchen.
Arten von Maschinellem Lernen
- Überwachtes Lernen: Algorithmen lernen anhand von Beispielen mit vorgegebenen Ausgängen (Labels).
- Unüberwachtes Lernen: Algorithmen identifizieren Muster in Daten ohne vorgegebene Labels.
- Halbüberwachtes Lernen: Nur wenige Labels werden benötigt, die bei aktivem Lernen vom Nutzer erfragt werden.
- Verstärkungslernen: Algorithmen lernen durch Belohnungen aus Interaktionen mit der Umgebung.
Tiefe Neuronale Netze (DNN)
- Tiefe neuronale Netze (Deep Neural Networks - DNN) werden ebenfalls mit Hilfe maschinellen Lernens an ihre Aufgaben angepasst.
- Alle vier genannten Arten des Lernens können je nach Aufgabe zum Einsatz kommen.
- DNNs erzielen regelmäßig hohe Erfolgsraten und übertreffen die menschliche Leistung in Bereichen wie Spracherkennung, Lippenlesen, Gesichtserkennung und standardisierten Universitäts- und Jura-Aufnahmetests.
Beispiel für Verstärkungslernen
- In der Regelungstechnik werden DNNs zunehmend mit Reinforcement Learning eingesetzt.
- DNNs können menschliche Gegner in Spielen oft leicht schlagen.
Biologisches Vorbild Neuron
- Ein biologisches Neuron besteht aus Soma (Zellkörper), Dendriten, Axon, Axonhügel, Myelin, Synapse und Axonterminal.
- Das menschliche Gehirn enthält etwa 10^11 Neuronen und 10^14 Synapsen, was zu einer höheren Konnektivität als in Supercomputern führt.
- Der Energiebedarf des Gehirns beträgt ca. 20 Watt für 10^18 Operationen pro Sekunde (statt MW).
Erste DNN-Struktur: Multi-Layer Perzeptron (MLP)
- Die Netztopologie eines Multi-Layer Perzeptrons (MLP) besteht aus mehreren Schichten, einschließlich Eingangs-, Ausgangs- und verborgenen Schichten.
Einzelneuron
- Ein Einzelneuron im MLP führt eine gewichtete Summe der Eingänge und eine Aktivierungsfunktion aus, um den Ausgang zu erzeugen.
- Es entspricht der Formel: nN = fa(1, x1, x2 ...xD) * (bN, w1N, ..., wDN)
- Die Formel kann auch geschrieben werden als: nN = fa((w0N,w1N, ..., wDN) mit w0N = bN
Aktivierungsfunktionen
- Für Aktivierungsfunktionen sind zwei Eigenschaften nützlich: Differenzierbarkeit und Beschränkung des Wertebereichs am Ausgang.
- Beispiele für Aktivierungsfunktionen der Schichten 1... A-1: tansig (Hyperbolic Tangent Sigmoid Transfer Function), elliotsig (Elliot Symmetric Sigmoid Transfer Function), logsig (Logarithmic Sigmoid Transfer Function).
- Eine recheneffiziente Aktivierungsfunktion ist die Rectified Linear Unit (ReLU).
Aktivierungsfunktion des Ausgangslayers
- Im Ausgangslayer soll eine Verteilungsdichtefunktion nachgebildet werden, wenn es sich um ein Netz zur Klassifikation handelt, d.h.: Summe(nAi) = 1 und n,A! >= 0 für alle i.
- Das lässt sich mit der Softmax-Funktion erreichen: p(k = j\nA-1) = exp (wTj. nA-1) / (Summe(exp (wm .nA-1))
- Hier können die Logits definiert werden: zj = wTj. nA-1
- Das vereinfacht die Gleichung für den Softmax-Layer: ^p(k = j \ n^A-1) = e^zj / (Summe(exp(zm)))
Binäre Klassifikation
- Bei binärer Klassifikation kann die Sigmoid-Funktion verwendet werden: p(k = 0|nA-1) = 1 / (1 + exp(-wT. nA-1))
- p(k = 1|nA-1) = 1 − p(k = 0|nA-1)
Trainingsprozess eines DNNs
- Zunächst werden Daten für die Anwendung gefunden oder gesammelt.
- Die Daten werden in drei Teil-Datensätze eingeteilt:
- Training Set: Zum Training des Neuronalen Netzes.
- Validation Set: Zur Fortschrittskontrolle und für das Tuning freier Parameter.
- Test Set: Zum Bewerten der Performance am Schluss.
- Der Ablauf des Trainings kann anhand der Performance auf Trainings- und Validierungsdaten verfolgt werden.
Kostenfunktionen
- Die Kostenfunktion misst die Klassifikationsgüte oder Approximationsgenauigkeit des Netzes und ist wichtig für die Differenzierbarkeit im Training.
- Beispiele:
- Mittlerer quadratischer Fehler (Mean square error): Gut für Regressionsaufgaben, nicht für Klassifikation.
- Klassifikationsfehler (Classification error): Misst Güte der Klassifikation, aber differenzierbare Approximation benötigt.
- Kreuzentropie (Cross entropy): Sehr gut geeignet für Klassifikation mit Softmax-Ausgangsschicht & informationstheoretisch gut motiviert; Bei binären Problemen wird die Kreuzentropie oft als "binäre Kreuzentropie" bezeichnet.
Gradientenabstieg
- Der Grundgedanke dahinter ist der Gradientenabstieg, definiert durch den Parametervektor w = [w01 , w02 ... wANA], sodass wneu = w - η * (deltaC/delta01,..., deltaC/delta wA-1NA)).
- Bzw. mit i als Iterationsindex: wi+1 = wi - η (deltaC/ delta w01,..., deltaC/ delta wA-1NA))
- Die Formel benötigt die Lernrate η und vor allem den Gradienten.
Gradient der Kostenfunktion
- Die Definition dafür lautet: delta/ delta wkij C(w) = delta/ delta wkij Summe(c(xn,k,w)) = Summe (delta/ delta wkij c(xn,w)) = Summe(delta/ delta wkij -log p^(kn/ xn,w))
Kettenregel
- Die Kettenregel besagt: [f(g(z))]' = f'(g(z)) * g'(z)
- Damit ist dann f =-log(), g = p^() und f' =-1/()
Backpropagation
- Ziel der Backpropagation: Berechnung von delta/delta wAij nAkn
- Lösung: 2 Phasen:
- Phase 1: Forward propagation
- Phase 2: Backpropagation
- Abschließend das Berechnen der Werte.
- Gradientenabstieg: Gradienten auf großen Trainingsdaten zu bestimmen ist sehr langwierig und trifft evtl. auf lokale Optima.
- Stochastic Gradient Descent (SGD): Man vermeidet es, in lokalen Optima hängebzubleiben.
- Anwedung: Der Gradient wird zufällig und verfälscht.
Studying That Suits You
Use AI to generate personalized quizzes and flashcards to suit your learning preferences.