Podcast
Questions and Answers
Welche Aussage beschreibt am besten, was ein Zufallsexperiment im Kontext der Wahrscheinlichkeitsrechnung ausmacht?
Welche Aussage beschreibt am besten, was ein Zufallsexperiment im Kontext der Wahrscheinlichkeitsrechnung ausmacht?
- Ein Experiment, das unter identischen Bedingungen beliebig oft wiederholt werden kann, wobei der Ausgang eines konkreten Versuchs im Voraus nicht bekannt ist. (correct)
- Ein Experiment, bei dem der Raum aller möglichen Ergebnisse unbekannt ist.
- Ein Experiment, bei dem die Ergebnisse von vorherigen Durchführungen den Ausgang zukünftiger Versuche deterministisch beeinflussen.
- Ein Experiment, dessen Ausgang immer vorhersehbar ist, wenn die Anfangsbedingungen bekannt sind.
Wie wird die Wahrscheinlichkeit eines Ereignisses A im Rahmen der frequentistischen Wahrscheinlichkeitsdefinition nach von Mises idealerweise bestimmt?
Wie wird die Wahrscheinlichkeit eines Ereignisses A im Rahmen der frequentistischen Wahrscheinlichkeitsdefinition nach von Mises idealerweise bestimmt?
- Durch die Anwendung der Bayes-Formel unter Berücksichtigung aller verfügbaren Informationen.
- Als Grenzwert der relativen Häufigkeit des Ereignisses A bei einer unendlich großen Anzahl von Versuchen. (correct)
- Basierend auf einer Kombination aus theoretischen Überlegungen und empirischen Daten mit gleicher Gewichtung.
- Durch die subjektive Einschätzung eines Experten.
Welche der folgenden Aussagen beschreibt NICHT korrekt eines der Axiome von Kolmogoroff für Wahrscheinlichkeiten?
Welche der folgenden Aussagen beschreibt NICHT korrekt eines der Axiome von Kolmogoroff für Wahrscheinlichkeiten?
- Die Wahrscheinlichkeit eines unmöglichen Ereignisses ist immer größer als Null. (correct)
- Die Wahrscheinlichkeit des sicheren Ereignisses (Ω) ist gleich eins: $P(Ω) = 1$.
- Für zwei disjunkte Ereignisse A und B ist die Wahrscheinlichkeit ihrer Vereinigung gleich der Summe ihrer Einzelwahrscheinlichkeiten: $P(A \cup B) = P(A) + P(B)$.
- Die Wahrscheinlichkeit eines Ereignisses ist immer größer oder gleich null: $P(A) \geq 0$.
Was ist die wichtigste Eigenschaft einer Sigma-Algebra $\mathcal{A}$ im Kontext der Wahrscheinlichkeitstheorie?
Was ist die wichtigste Eigenschaft einer Sigma-Algebra $\mathcal{A}$ im Kontext der Wahrscheinlichkeitstheorie?
Welche der folgenden Bedingungen muss NICHT erfüllt sein, damit eine Funktion $P(A)$ für $A \in \mathcal{A}$ ein Wahrscheinlichkeitsmaß darstellt?
Welche der folgenden Bedingungen muss NICHT erfüllt sein, damit eine Funktion $P(A)$ für $A \in \mathcal{A}$ ein Wahrscheinlichkeitsmaß darstellt?
E.T. Jaynes schlägt vor, Wahrscheinlichkeiten anders einzuführen. Welche der folgenden Aussagen entspricht NICHT einem seiner Grundprinzipien?
E.T. Jaynes schlägt vor, Wahrscheinlichkeiten anders einzuführen. Welche der folgenden Aussagen entspricht NICHT einem seiner Grundprinzipien?
Was impliziert die Aussage, dass eine Definition der Wahrscheinlichkeit 'objektiv' ist, im Sinne von Jaynes?
Was impliziert die Aussage, dass eine Definition der Wahrscheinlichkeit 'objektiv' ist, im Sinne von Jaynes?
Wie unterscheidet sich eine Zufallsvariable von den Ergebnissen eines Zufallsexperiments?
Wie unterscheidet sich eine Zufallsvariable von den Ergebnissen eines Zufallsexperiments?
Was charakterisiert eine diskrete Zufallsvariable im Wesentlichen?
Was charakterisiert eine diskrete Zufallsvariable im Wesentlichen?
Was stellt die Verteilungsfunktion $F_X(a)$ einer diskreten Zufallsvariablen X dar?
Was stellt die Verteilungsfunktion $F_X(a)$ einer diskreten Zufallsvariablen X dar?
Wie unterscheidet sich der Mittelwert einer Messreihe vom Erwartungswert einer Zufallsvariablen?
Wie unterscheidet sich der Mittelwert einer Messreihe vom Erwartungswert einer Zufallsvariablen?
Wie beeinflusst eine nicht-lineare Transformation $g(X)$ einer Zufallsvariablen $X$ ihren Erwartungswert?
Wie beeinflusst eine nicht-lineare Transformation $g(X)$ einer Zufallsvariablen $X$ ihren Erwartungswert?
Welche Aussage beschreibt korrekt den Unterschied zwischen dem zweiten Moment und dem zentralen zweiten Moment einer Zufallsvariablen?
Welche Aussage beschreibt korrekt den Unterschied zwischen dem zweiten Moment und dem zentralen zweiten Moment einer Zufallsvariablen?
Wie verändert sich die bedingte Wahrscheinlichkeit $P(A|B)$, wenn das Ereignis $B$ eintritt?
Wie verändert sich die bedingte Wahrscheinlichkeit $P(A|B)$, wenn das Ereignis $B$ eintritt?
Unter welcher Bedingung sind zwei Ereignisse A und B statistisch unabhängig?
Unter welcher Bedingung sind zwei Ereignisse A und B statistisch unabhängig?
Was ist das Ziel der Klassifikation im Kontext von statistischen Modellen?
Was ist das Ziel der Klassifikation im Kontext von statistischen Modellen?
Wie unterscheidet sich die Maximum-Likelihood-Klassifikation von der Bayes-Klassifikation?
Wie unterscheidet sich die Maximum-Likelihood-Klassifikation von der Bayes-Klassifikation?
Warum wird der Bayes-Klassifikator auch als MAP-Klassifikator bezeichnet?
Warum wird der Bayes-Klassifikator auch als MAP-Klassifikator bezeichnet?
Unter welchen Umständen ist der Bayes-Klassifikator optimal?
Unter welchen Umständen ist der Bayes-Klassifikator optimal?
Was ist der erste Schritt bei der Entwicklung eines optimalen Klassifikators im Sinne der Kostenminimierung?
Was ist der erste Schritt bei der Entwicklung eines optimalen Klassifikators im Sinne der Kostenminimierung?
Was minimiert man bei der Konstruktion eines optimalen Klassifikators?
Was minimiert man bei der Konstruktion eines optimalen Klassifikators?
Wie beeinflusst die Wahl einer Kostenfunktion die Klassifikationsentscheidung?
Wie beeinflusst die Wahl einer Kostenfunktion die Klassifikationsentscheidung?
Angenommen, Sie entwickeln einen Klassifikator zur Erkennung seltener Krankheiten. Welche Art von Kostenfunktion wäre am besten geeignet, um die Auswirkungen falsch negativer Ergebnisse (d.h. die Krankheit wird nicht erkannt) zu minimieren?
Angenommen, Sie entwickeln einen Klassifikator zur Erkennung seltener Krankheiten. Welche Art von Kostenfunktion wäre am besten geeignet, um die Auswirkungen falsch negativer Ergebnisse (d.h. die Krankheit wird nicht erkannt) zu minimieren?
Wenn eine Kostenfunktion $c_{ij}$ verwendet wird, die jeder Fehlentscheidung die gleichen Kosten c zuordnet (d.h. $c_{ij} = c$ für $i \neq j$), welche Aussage über den resultierenden optimalen Klassifikator ist korrekt?
Wenn eine Kostenfunktion $c_{ij}$ verwendet wird, die jeder Fehlentscheidung die gleichen Kosten c zuordnet (d.h. $c_{ij} = c$ für $i \neq j$), welche Aussage über den resultierenden optimalen Klassifikator ist korrekt?
Inwiefern kann die Verwendung tiefer neuronaler Netze (DNNs) die Klassifikation verbessern, insbesondere im Zusammenhang mit der Schätzung bedingter Wahrscheinlichkeiten $P(j|x)$?
Inwiefern kann die Verwendung tiefer neuronaler Netze (DNNs) die Klassifikation verbessern, insbesondere im Zusammenhang mit der Schätzung bedingter Wahrscheinlichkeiten $P(j|x)$?
Flashcards
Was ist ein Zufallsexperiment?
Was ist ein Zufallsexperiment?
Ein Experiment, bei dem der Raum aller möglichen Ergebnisse bekannt ist, der Ausgang aber im Voraus unbekannt ist und das unter identischen Bedingungen wiederholt werden kann.
Was ist der Ereignisraum(Ω)?
Was ist der Ereignisraum(Ω)?
Der Raum aller möglichen Ergebnisse eines Zufallsexperiments.
Wahrscheinlichkeit (Klassisch)
Wahrscheinlichkeit (Klassisch)
Bei N Versuchen, wenn ein Ereignis aus Teilmenge A ∈ Ω K-mal auftritt, ist P̄N(A) = K/N die relative Häufigkeit von A. Die Wahrscheinlichkeit von A ist der Grenzwert der relativen Häufigkeit.
- Axiom von Kolmogoroff
- Axiom von Kolmogoroff
Signup and view all the flashcards
- Axiom von Kolmogoroff
- Axiom von Kolmogoroff
Signup and view all the flashcards
- Axiom von Kolmogoroff
- Axiom von Kolmogoroff
Signup and view all the flashcards
Was ist eine Sigma-Algebra?
Was ist eine Sigma-Algebra?
Signup and view all the flashcards
Was ist ein Wahrscheinlichkeitsmaß?
Was ist ein Wahrscheinlichkeitsmaß?
Signup and view all the flashcards
Bayes & Jaynes: Plausibilität
Bayes & Jaynes: Plausibilität
Signup and view all the flashcards
Was ist eine Zufallsvariable?
Was ist eine Zufallsvariable?
Signup and view all the flashcards
Was sind diskrete Zufallsvariablen?
Was sind diskrete Zufallsvariablen?
Signup and view all the flashcards
Was ist eine Verteilungsdichte?
Was ist eine Verteilungsdichte?
Signup and view all the flashcards
Was ist eine Verteilungsfunktion?
Was ist eine Verteilungsfunktion?
Signup and view all the flashcards
Normierungsbedingung
Normierungsbedingung
Signup and view all the flashcards
Was ist der Erwartungswert?
Was ist der Erwartungswert?
Signup and view all the flashcards
Was ist die Varianz?
Was ist die Varianz?
Signup and view all the flashcards
Was ist die Standardabweichung?
Was ist die Standardabweichung?
Signup and view all the flashcards
Was ist eine bedingte Wahrscheinlichkeit?
Was ist eine bedingte Wahrscheinlichkeit?
Signup and view all the flashcards
Satz von Bayes
Satz von Bayes
Signup and view all the flashcards
Statistische Unabhängigkeit
Statistische Unabhängigkeit
Signup and view all the flashcards
Was ist Klassifikation?
Was ist Klassifikation?
Signup and view all the flashcards
Was ist ein Featurevektor?
Was ist ein Featurevektor?
Signup and view all the flashcards
Maximum-Likelihood-Klassifikation
Maximum-Likelihood-Klassifikation
Signup and view all the flashcards
Bayes-Klassifikation
Bayes-Klassifikation
Signup and view all the flashcards
Was ist eine Kostenfunktion?
Was ist eine Kostenfunktion?
Signup and view all the flashcards
Study Notes
- Die klassische Wahrscheinlichkeitsrechnung beschäftigt sich mit den Ergebnissen von Zufallsexperimenten.
- Ein Zufallsexperiment ist ein Experiment mit bekanntem Raum aller möglichen Ergebnisse, unbekanntem Ausgang im Voraus und der Möglichkeit zur Wiederholung unter identischen Bedingungen.
- Der Raum aller möglichen Ergebnisse eines Zufallsexperiments wird als Ereignisraum Ω bezeichnet.
- Wenn ein Ereignis A aus einer Teilmenge Ω in N Versuchen K-mal auftritt, wird die relative Häufigkeit von A als Pɴ(A) = K/N bezeichnet.
- Die Wahrscheinlichkeit von A kann als Grenzwert der relativen Häufigkeit definiert werden: P(A) = lim (N→∞) Pɴ(A).
- Die frequentistische Sicht dieser Definition stammt von von Mises.
Axiome nach Kolmogoroff
- P(A) ≥ 0
- P(Ω) = 1
- Wenn A ∩ B = Ø, dann gilt: P(A ∪ B) = P(A) + P(B)
Sigma-Algebra
- Eine Menge von Mengen A wird als σ-Algebra bezeichnet, wenn sie und ihre Elemente Aᵢ folgende Bedingungen erfüllen:
- Ω ∈ A
- Für A ∈ A gilt auch A ∈ A, was bedeutet, dass die Menge unter Komplementbildung abgeschlossen ist.
- Wenn für alle i gilt, dass Aᵢ ∈ A, dann gilt auch ⋃ᵢAᵢ ∈ A, was bedeutet, dass die Menge unter der Vereinigung von endlich oder abzählbar unendlich vielen Teilmengen abgeschlossen ist.
Wahrscheinlichkeitsmaß
- Für eine Sigma-Algebra A, die zu einem Ereignisraum Ω passt, ist P(A) für A ∈ A genau dann ein Wahrscheinlichkeitsmaß, wenn:
- P(A) ≥ 0
- P(Ω) = 1
- Wenn Aᵢ ∩ Aⱼ = Ø gilt, dann gilt: P(Aᵢ ∪ Aⱼ) = P(Aᵢ) + P(Aⱼ)
- Wahrscheinlichkeiten können auch ohne relative Häufigkeiten und explizite Axiome eingeführt werden.
- E.T. Jaynes setzt Wahrscheinlichkeiten mit dem Grad der Plausibilität eines Ereignisses gleich.
- Alle Regeln der Wahrscheinlichkeitsrechnung lassen sich aus drei Annahmen ableiten.
- Plausibilität P sollte durch reelle Zahlen dargestellt werden, wobei eine höhere Zahl eine größere Plausibilität bedeutet.
- Vernünftigkeit impliziert, dass wenn Aussage A plausibler wird durch die Wahrheit von Aussage C, dann P(A|C) > P(A|¬C) gelten soll.
- Konsistenz bedeutet, dass jede äquivalente Art, eine Plausibilität zu berechnen, zum selben Ergebnis führen sollte, z.B. P(A, B) = P(B, A).
- Alle äquivalenten Zustände der Welt sollten den gleichen Grad an Plausibilität haben und alle vorhandenen Informationen sollten verwendet werden.
- Kolmogoroffs Axiome können aus seinen Desiderata abgeleitet werden, wenn P mit der Wahrscheinlichkeit gleichgesetzt wird.
- Die Werkzeuge der Aussagenlogik können auf unsicheres Schließen erweitert werden.
- Diese Definition der Wahrscheinlichkeit ist objektiv; jeder rationale Agent mit dem selben Wissensstand muss zu der selben Einschätzung einer Wahrscheinlichkeit kommen.
- Mit geringen Datenmengen und in 'ill-posed problems' kann man optimal schließen.
Zufallsvariable
- Eine Zufallsvariable ist eine Funktion X: Ω → ℝ, die aus dem Ereignisraum auf ℝ abbildet.
- Beispiel für eine Zufallsvariable ist der Kartenwert beim Skat, der auf Punkte abgebildet wird (z.B. 7 → 0, Bube → 2, As → 11).
- Es wird zwischen diskreten und kontinuierlichen Zufallsvariablen unterschieden.
- Diskrete Zufallsvariablen haben eine endliche Zahl möglicher Werte und werden durch eine Verteilungsdichte P(X = a) = Pₓ(a) beschrieben, wobei X die Zufallsvariable und a einer ihrer möglichen Werte ist.
- Die Verteilungsfunktion ist die kumulative Summe über die Verteilungsdichte: Fₓ(a) = P(X ≤ a).
Normierungsbedinung
- Σₐ∈Ω Pₓ(a) = 1
Mittelwert von Messreihen
- Der Mittelwert einer Messreihe wird berechnet als m = (1/T) * Σ[i=1 bis T] x(i).
- Der Erwartungswert ist eine Eigenschaft der Zufallsvariable X und wird berechnet als E(X) = Σ[x∈Ω] Pₓ(x) * x.
- Der Erwartungswert kann als Mittelwert über unendlich viele Versuche (T → ∞) betrachtet werden.
- Der Erwartungswert einer Funktion g(X) der Zufallsvariable wird ähnlich berechnet: E(g(X)) = Σ[x∈Ω] Pₓ(x) * g(x).
Momente von Zufallsvariablen
- Mit Hilfe dieser Definition lassen sich interessante Erwartungswerte betrachten:
-
- Moment: E(x) = μₓ
-
- Moment: E(x²)
-
- Moment: E(x³)...
- N. Moment: E(xᴺ).
- Zentrales Moment: E((x - μₓ)²) = σₓ² (Varianz), mit σₓ als Standardabweichung.
-
- zentrales Moment: E((x - μₓ)³)...
- N. zentrales Moment: E((x - μₓ)ᴺ)
Bedingte Wahrscheinlichkeit
- Die bedingte Wahrscheinlichkeit eines Ereignisses A, gegeben Ereignis B, ist definiert als P(A|B) = P(A, B) / P(B).
Gemeinscame Wahrscheinlichkeiten
- Gemeinsame Wahrscheinlichkeiten können auf zwei Arten berechnet werden: P(A, B) = P(A|B)P(B) = P(A)P(B|A).
- Daraus ergibt sich der Satz von Bayes: P(A|B) = P(B|A)P(A) / P(B).
- Der Satz von Bayes wird oft zur Umkehr von Schlussrichtungen genutzt.
- Angenommen, ein diagnostischer Test T für eine seltene Krankheit ist positiv, wobei der Test sensitiv ist (P(T|E) = 0.9999), die Krankheit selten ist (P(E) = 1 × 10⁻⁶) und der Test nicht sehr spezifisch ist (P(T) = 0.1).
Statistische Unabhängigkeit
- Zwei Ereignisse A und B sind statistisch unabhängig, wenn P(A, B) = P(A)P(B) gilt.
- Dies ist der Fall, wenn P(A|B) = P(A) bzw. P(B|A) = P(B) gilt.
- Klassifikation ist die Aufgabe, Objekte automatisch in Klassen einzuteilen.
- Die Struktur der Klassifikation umfasst Feature Extraction und Klassifikation zur Bestimmung der Klassenidentität k.
- Feature Extraction beinhaltet die Auswahl eines Featurevektors x, der diskriminativ für die gegebenen Klassen sein sollte.
- Klassifikation umfasst viele Methoden, besonders interessant für Zeitreihen sind statistische Klassifikatoren und Deep Neural Networks (DNNs).
Maximum-Likelihood-Klassifikation
- Gegeben Klassen k = 1...K (z.B. Konsonant, Vokal, Hintergrundgeräusche) und zugehörige Verteilungsdichten pₓ(x|k = 1)...pₓ(x|k = K)
- Die Maximum-Likelihood-Klassifikation wählt die Klasse k̂, die die Likelihood p(x|k) maximiert: k̂ = arg max [k=1...K] p(x|k)
- Die Bayes-Klassifikation wählt die Klasse k̂, die die A-posteriori-Wahrscheinlichkeit p(k|x) maximiert: k̂ = arg max [k=1...K] p(k|x) = arg max [k=1...K] [p(x|k)p(k) / p(x)] = arg max [k=1...K] p(x|k)p(k).
- Weil der Bayes-Klassifikator immer die Klasse mit der maximalen A-posteriori-Wahrscheinlichkeit P(k|x) auswählt, wird er oft als MAP-Klassifikator bezeichnet.
Optimale Klassifiation
- Der Bayes-Klassifikator "erkennt" häufiger die wahrscheinlichen Klassen und kann Vorwissen berücksichtigen, was zu geringeren Fehlerraten führt.
- Allerdings werden unwahrscheinliche Klassen selten erkannt, was problematisch sein kann, wenn seltene Fälle hohe Kosten verursachen.
- Optimale Klassifikation erfordert zunächst die Festlegung des Kriteriums für Optimalität, typischerweise durch Zuordnung von Kosten zu Fehlentscheidungen mittels einer Kostenfunktion cij.
- cij beschreibt die Kosten, wenn Klasse i als Klasse j klassifiziert wird.
- Für zwei Klassen (0 mit defekten Teilen und 1 mit o.k. Teilen):
- c₀₀ = 0
- c₁₁ = 0
- c₁₀ = Herstellungskosten, evtl. Entsorgungskosten
- c₀₁ = Ausfallkosten, Haftung, Imageschäden.
- Nach Festlegung der Kostenfunktion cij wird die Risikofunktion Rj = E(cij) definiert, um die im Mittel auftretenden Kosten zu minimieren.
- Die Risikofunktion als Funktion des Merkmalsvektors x und der Klassifikationsentscheidung wird berechnet als Rj(x) = E(cij) = Σ[i=1 bis N] P(i|x)cij.
- Dabei ist i die wahre Klasse und j die vom Klassifikationsverfahren "erkannte" Klasse.
- Die Klassifikationsentscheidung für Merkmalsvektor x wird so getroffen, dass die zu erwartenden Kosten minimiert werden: k̂ = arg min [j] Rj(x) = arg min [j] Σ[i=1 bis N] P(i|x)cij.
- Die Klassifikationsvorschrift ist vollständig bestimmt, sobald die Entscheidung für eine Kostenfunktion cij gefallen ist.
- Bestraft man alle Fehlentscheidungen gleich hart, dann gilt:
- cij = 0, wenn i = j,
- cij = c, sonst.
- Dies lässt sich kurz darstellen als cij = c(1 - δij) mit der Delta-Funktion δij = 1, wenn i = j, und δij = 0, sonst.
- Die Risikofunktion Rj(x) bei Entscheidung für Klasse j ergibt sich aus Gleichung (1) als Rj(x) = Σ[i=1 bis N] cijP(i|x) = Σ[i=1 bis N] c(1 - δij)P(i|x) = c Σ[i=1, i≠j] P(i|x).
- Vereinfacht ergibt sich Rj(x) = c * [1 - P(j|x)].
- Daher ist die Risikofunktion bei konstanten Kosten: Rj(x) = c - cP(j|x).
- Um diese Risikofunktion bei konstanten Kosten durch Wahl der Klasse j zu minimieren, muss P(j|x) maximiert werden: k̂ = arg min [j] Rj(x) = arg max [j] P(j|x).
Klassifikationsregel des Bayes-Klassifikators
- Das entspricht genau der Klassifikationsregel des Bayes-Klassifikators; dieser ist also immer dann optimal, wenn
- alle Fehlklassifikationen gleich große Probleme verursachen und
- man P(j|x) halbwegs zuverlässig berechnen kann.
- Hierfür werden tiefe neuronale Netze zur Klassifikation verwendet, mit der Schätzung von P(j|x) als Zwischenschritt.
Studying That Suits You
Use AI to generate personalized quizzes and flashcards to suit your learning preferences.