Zusammenfassung QM PDF
Document Details
Uploaded by OpulentAntigorite9813
Universität St. Gallen (HSG)
Tags
Summary
This document provides a summary of the concepts of quantitative methods, including descriptive and inferential statistics, sampling techniques, and different types of measurement scales. It covers topics such as variables, parameters, operationalization, and coding. The document also discusses different types of sampling methods and potential biases.
Full Transcript
Vorlesung 1 - Grundlegende konzepte, stichproben und messung Grundlegende Konzepte Beschreibende Statistik (deskriptive Statistik) ◦Analyse von Daten für eine bestimmte Stichprobe aus einer Population, die der Beschreibung der Daten dient (z.B. Diagramm) Schliessende Statistik (Infere...
Vorlesung 1 - Grundlegende konzepte, stichproben und messung Grundlegende Konzepte Beschreibende Statistik (deskriptive Statistik) ◦Analyse von Daten für eine bestimmte Stichprobe aus einer Population, die der Beschreibung der Daten dient (z.B. Diagramm) Schliessende Statistik (Inferenzstatistik) ◦Analyse von Daten für eine bestimmte Stichprobe, um Rückschlüsse über die Markmale einer Population zu ziehen (z.B. Aussagen machen) Statistik ◦numerische Zusammenfassung einer Stichprobe Parameter ◦numerische Zusammenfassung einer Population - meist jedoch unbekannt, weil zu gross Messung Operationalisierung ◦Operalisationierung von Konzepten in messbare Grössen (z.B. kategoriale Variablen) Codierung ◦Codierung ist das Zuschreiben von messbaren Grössen (z.B. Codes 0 und 1) Messskalen ◦Messskalen von Variablen beschreiben die Ausprägungen einer Variable (d.h., die Werte, die eine Variable annehmen kann) Messskalen für Variablen ◦Quantitative Variablen ‣ Die möglichen Werte der Variable bestehen aus aussagekräfitgen numerischen Werten, die sich in der Grösse unterscheiden (z.B. Alter) ◦Kategoriale Variablen ‣ Die möglichen Werte der Variable bestehen aus Kategorien. Können auch numerisch dargestellt werden, aber keine numerische Interpretation (z.B. Familienstand - 1. ledig …) ◦Kontinuierliche Variablen ‣ Werte aus unendlich vielen reellen Zahlen in einem Kontinuum ◦Diskrete Variablen ‣ Mögliche Werte sind separate Zahlen (z.B. 0,1,2, und 3) ◦Skalenniveaus ‣ Nominalskalierte Variablen Ungeordnete Kategorien, entweder gleich oder ungleich zu anderen Werten (z.B. Familienstand) ‣ Ordinalskalierte Variablen Geordnete Kategorien, wo man sagen kann ob sie grösser/kleiner als andere Werte sind, aber keine Definition der Abstände zwischen den Werten (z.B. religiöse Aktivität) ‣ Intervallskalierte Variablen Geordnete Kategorien mit klar definierten numerischen Abstände zwischen den Werten (z.B. Zeitaufwand) ‣ Je höher das Skalenniveau der Variable, desto mehr Informationen enthält die Variable Stichprobenziehung Zufallsstichproben sind besser, weil sie die entsprechende Population gut repräsentieren Stichprobenfehler (Standardfehler) ◦Differenz zwischen den Stichprobenwerten einer Statistik (z.B. Mittelwert) und dem Populationsparameter (z.B. Mittelwert der Population) -> oft unbekannt, weil Parameter der Population nicht bekannt sind Biases (Verzerrungen) ◦Stichprobenbias: ‣ Selektion: Bei Nicht-Zufallsstichproben haben einige Fälle in der Population eine höhere Wahrscheinlichkeit in die Stichprobe selektiert zu werden ‣ Untererfassung: Einige Fälle können gar nicht erreicht werden (z.B. Junge in Festnetzumfragen) ◦Antwortbias: Befragte Personen geben ihre wahren Präferenzen nicht preis (z.B. bei schlechter Formulierung oder wenn bestimmte Antworten sozial erwünschter scheinen) ◦Bias durch Nichtbeantwortung: Befragte weigern sich teilzunehmen oder bestimmte Fragen in der Umfrage zu beantworten (z.B. wenn Fragen heikel sind). Bias, wenn Nichtbeantwortung systematisch ist und somit nur bestimmte Fälle in der Stichprobe vorkommen. Vorlesung 2 - Deskriptive Statistik Absolute und relative Häufigkeiten Absolute Häufigkeiten ◦Kategoriale Variable ‣ Anzahl der Beobachtungen für jede Kategorie der Variable (z.B. Wahlergebnisse) ◦Quantitative Variable ‣ Anzahl der Beobachtungen, welche innerhalb der Grenzen der verschiedenen Intervalle der Variable liegen (z.B. HDI-Intervalle) ‣ Wenn wir zu wenige Intervalle verwenden, geht eine menge Information verloren. Wenn wir jedoch zu viele Intervalle verwenden, ist die Information schwer zugänglich. Relative Häufigkeiten ◦Ist die absolute Häufigkeit einer Ausprägung oder eines Intervalls von Ausprägungen im Verhältnis zur Gesamtzahl der Beobachtungen für die Variable. ◦Berechnung: absolute Anzahl der Beobachtungen in einer Kategorie durch die Gesamtzahl der Beobachtungen in den Daten. Ausgedrückt als Anteil oder % Diagramme von Häufigkeitsverteilungen ◦Balkendiagramm ◦Histogramm ◦Spaghetti Diagramm Die Form einer Häufigkeitsverteilung ◦Symmetrie: glockenförmig und u-förmig sind symmetrisch ◦Schiefe: rechtsschief (z.B. BIP pro Kopf) oder linksschief (z.B. HDI) Lagemasse bzw. Masse der zentralen Tendenz Mittelwert (Durchschnitt oder Mittel) ◦Notierung: x mit Strich obendrauf ◦nur für quantitative Variablen (wäre sonst unsinnig bei z.B. Nationalität) ◦Berechnung: Formelblatt (1. Formel) ◦Einfluss von Ausreissern: Wird in Richtung möglicher Ausreisser-Beobachtungen verzerrt Median ◦Wert, der in der Mitte der Stichprobe liegt, wenn die Werte sortiert werden ◦Berechnung: sortieren und identifizieren ◦nur für ordinal- oder intervallskalierte Variablen (erfordert geordnete Beobachtungen) ◦Einfluss von Ausreissern: stabil trotz Ausreissern ◦Problem: sehr unterschiedliche Daten können denselben Median haben Schiefe einer Verteilung ◦Median > Mittelwert: linksschiefe Verteilung ◦Median < Mittelwert: rechtsschiefe Verteilung Modus (Modalwert) ◦Gibt den Wert einer Variablen an, der am häufigsten beobachtet wird und beschreibt somit auch das Zentrum der Häufigkeitsverteilung einer Variablen. ◦Berechnung: absolute Häufigkeitsverteilung ◦für alle Skalennniveaus und für quantitative und kategoriale Variablen Vergleich von Lagemassen ◦Je nach Variable beurteilen welches Mass angemessen ist ◦bei symmetrischen Verteilungen: Mittelwert = Modus = Median Streuung Streuungsmasse ◦Spannweite ‣ Differenz zwischen dem grössten und dem kleinsten Wert einer Variablen ‣ Berechnung: grösster Wert - kleinster Wert ◦Abweichungen: ‣ Variable von einem Mass für das Zentrum der Beobachtungswerte der Variable ‣ Die Abweichungen der Beobachtungen vom Mittelwert ist die Differenz zwischen ihnen ‣ Jede Beobachtung in einer Stichprobe hat eine Abweichung vom Stichprobenmittelwert ‣ Die Summe der Abweichungen um den Mittelwert in einer Stichprobe ist 0 ‣ Varianz Berechnung: Formelblatt (2. Formel ohne Wurzel) Problem: wegen quadrierten Abweichungen schwierig zu interpretieren, weil sie nicht auf der gleichen Skala liegt wie die Variable ‣ Standardabweichung Berechnung: Formelblatt (2. Formel) Gleiche Skala wie die Variable und deswegen einfacher zu interpretieren. Je grösser die Standardabweichung ist, desto mehr streuen die Daten um den Mittelwert. Vorlesung 3 - wahrscheinlichkeit Wahrscheinlichkeit Zufallsexperiment ◦Bezeichnet eine Handlung oder Situation, die (theoretisch) unter gleichen Bedingungen beliebig oft wiederholbar ist, deren Resultat genau eines von mehreren möglichen Ereignissen ist, deren Resulat vor dem Auftreten eines Ereignisses unbekannt ist. ◦Wenn die Anzahl der Wiederholungen des Zufallsexperiments über alle Grenzen (ins Unendliche) wächst, dann ist die Wahrscheinlichkeit eines Ereignisses gleich dem Grenzwert der relativen Häufigkeit des Ereignisses. Wahrscheinlichkeitsverteilungen Wahrscheinlichkeitsverteilungen (WV) ◦Geben die Verteilung von (Auftretens-)Wahrscheinlichkeiten aller möglichen Werte (bzw. Ausprägungen) einer Zufallsvariable an. ◦Auftretenswahrscheinlichkeit: P(X=j) ◦kumulierte Wahrscheinlichkeit: P(X≤j) Arten von WV‘s (für kontinuierliche Zufallsvariablen): ◦Normalverteilung ◦t-Verteilung ◦Diese zwei beschreiben die Wahrscheinlichkeitsdichte von kontinuierlichen Zufallsvariablen ◦Die WV von einer diskreten Zufallsvariable nähert sich bei steigendem n auch der Normalverteilung an. WV‘s für kontinuierliche Zufallsvariablen: ◦Wahrscheinlichkeit für Intervalle ◦Approximieren durch Histogramme ◦Wahrscheinlichkeitsdichtefunktion ◦Von Dichte zu Wahrscheinlichkeit ‣ Mithilfe der Integralrechnung für jedes beliebige Intervall die Fläche unterhalb der Wahrscheinlichkeitsdichtefunktionskurve bestimmen ‣ Die gesamte Fläche unter der Kurve ist gleich 1. Die Wahrscheinlichkeit eines beliebigen Wertes einer kontinuierlichen Variable ist 100%, es gibt also vollständige Sicherheit, dass die Variable irgendeinen Wert annimmt. Parameter von WV‘s ◦Jede WV von Zufallsvariablen hat auch Parameter, die ihr Zentrum und ihre Streuung beschreiben. Diese werden Erwartungswert und Varianz genannt. ◦Notierung Erwartungswert: µ ◦Notierung Varianz: σ(hoch 2) -> Standardabweichung: σ Verteilung in der Population ◦Beschreibt die empirisch prinzipiell beobachtbaren Häufigkeiten der verschiedenen Werte dieser Variablen unter allen Beobachtungen in der Population. Verteilung in der Stichprobe ◦Beschreibt die empirisch beobachtbaren Häufigkeiten der verschiedenen Werte dieser Variablen unter allen Beobachtungen in der Stichprobe. ◦Die Häufigkeitsverteilung dieser Zufallsvariable nähert sich der ihr zugrundeliegenden WV an, wenn die Anzahl der Zufallsstichproben wächst. Normalverteilung WV von einer kontinuierlichen Zufallsvariablen, welche Werte zwischen -∞ und +∞ annehmen kann graphisch: glockenförmige, symmetrische Kurve Parameter: Erwartungswert bzw. Mittelwert (µ) und Standardabweichung (σ) Verteilung der Werte (das gilt immer!): ◦Wahrscheinlichkeit 99%: innerhalb von 2.57 (ca. 2.5) Standardabweichungen ◦Wahrscheinlichkeit 95%: innerhalb von 1.96 (ca. 2) Standardabweichungen ◦Wahrscheinlichkeit 90%: innerhalb von 1.64 (ca. 1.5) Standardabweichungen z-Transformation und Standardnormalverteilung ◦Jede beliebige normalverteilte Variable X kann in eine standardnormalverteilte Variable Z mit Hilfe der Standardisierung (z-Transformation) gennant transformiert werden. ◦Berechnung: ◦Die Werte sind sogenannte z-Werte. ◦Es gilt, dass bei einer Standardnormalverteilung der Mittelwert 0 und die Standardabweichung 1 ist. Wichtigkeit von z-Transformation ◦Wichtig für den Vergleich von zwei unterschiedlichen Variablen, die aber das Selbe messen ◦Wichtig, um die Wahrscheinlichkeit zu ermitteln, dass ein bestimmter Wert bei einer Variable auftritt. Quantilwerte zα und Quantilwahrscheinlichkeit α -> Tabelle in Formelsammlung ◦Die Wahrscheinlichkeit von Quantilwert kleiner oder gleich zα ist die dazugehörige Quantilwahrscheinlichkeit α. Die Wahrscheinlichkeit von Quantilwert grösser zα ist 1 minus diese Quantilwahrscheinlichkeit α. Die t-Verteilung Im Gegensatz zur Normalverteilung sind hier die Werte um den Erwartungswert etwas breiter gestreut. Relevant für Inferenzen von Stichprobenmittelwerten auf Populationsmittelwerte, wenn die zur Berechnung herangezogene Stichprobe einen Umfang von n≤30 und/oder die Populationsvarianz der Variable, für die der Mittelwert gesucht wird, nicht bekannt ist. Parameter sind nur durch den Stichprobenumfang n bzw. Freiheitsgrade (n-1) bestimmt -> Tabelle in Formelsammlung Bei steigendem n, wird die Streuung der t-Verteilung kleiner und nähert sich immer mehr der Normalverteilung an. Vorlesung 4 - punkt- und intervallschätzungen Stichprobenkennwerteverteilung Stichprobenkennwerteverteilung (SKW) ◦WV, welche die Wahrscheinlichkeiten für mögliche Werte für Stichprobenstatistiken bzw. Stichprobenkennwerte (z.B. Anteilen oder Mittelwerten) anzeigt, wenn diese Stichprobenstatistiken aus verschiedenen (aber gleich grossen) Stichproben aus ein und derselben Population errechnet werden. Wir können mit Hilfe einer Stichprobenkennwerteverteilung beurteilen, wie stark die Stichprobenstatistiken variieren. ◦Nur wenn die Anzahl der Stichproben ins Unendliche steigt, erhalten wir die wahre Kennwerteverteilung. Parameter: ◦Zentrum der Verteilung bei Stichprobenmittelwerten: Populationsmittelwert ◦Zentrum der Verteilung bei Stichprobenmittelanteilen: Populationsanteil ◦Streuung: Standardfehler ‣ Zeigt an, wie weit die mal grösseren und mal kleineren Stichprobenstatistiken voneiander abweichen. Mass, wie fehlerhaft jede einzelne Stichprobe in Bezug auf den Erwartungswert ist. Nicht verwechseln!: Standardabweichung: Streuung von Werten innerhalb einer einzelnen Stichprobe Standardfehler: Standardabweichung der Stichprobenstatistiken Berechnung: ◦Standardfehler von Stichprobenmittelwerte (y mit Strich oben): Formelsammlung (4. Formel) ◦Standardfehler für Stichprobenanteile (p bzw. π): Formelsammlung (6. Formel) ◦Stichprobengrösse: grössere Stichproben liefern präzisere Schätzungen der Parameter der Population ◦Populationsstreuung: je grösser die Streuung der Werte der Variable in der Population, desto grösser die Streuung der Kennwerteverteilung der sichprobenbasierten Statistik für die Variable Zentraler Grenzwertsatz Zentraler Grenzwertsatz ◦Besagt, dass bei einer Zufallsstichprobe mit einem grossen Stichprobenumfang n die SKV der Stichprobenmittelwerte und der Stichprobenanteile einer Normalverteilung entspricht. Somit kennen wir die Streuung der Verteilung. Stichprobenmittelwerte: Normalverteilung bei n > 30 Stichprobenanteile: Normalverteilung bei n > 60, 15 Beobachtungen in jeder Kategorie des Merkmals oder Spezialfälle: ◦kleine normalverteilte Stichprobe mit n < 30 und n > 3: t-Verteilung ◦nicht normalverteilter Stichprobenumfang n > 15: t-Verteilung ◦Intervall-Schätzung: auch bei n > 30 t-Verteilung Punktschätzung Punktschätzung ◦Bezieht sich auf das Finden einer einzelnen Zahl, die die beste Schätzung für einen Parameter in der Population darstellt (z.B. Punktschätzung von 36%) ◦Stichprobenstatistiken werden auch als Schätzer bezeichnet. ◦Schätzungen von Parametern werden mit dem Symbol ^ (Caret) bezeichnet ‣ Stichprobenmittelwert (y mit Strich oben): Punktschätzung Populationsmittelwert µ^ ‣ Stichprobenanteil (p): Punktschätzung Populationsanteil π^ ‣ Stichprobenstandardabweichung (s): Punktschätzung Populationsstandardabweichung σˆ Erwartungstreue und Effizienz ◦Erwartungstreue: Die SKV des Schätzers ist um den Populationsparameter herum zentriert (z.B. Mittelwert) ◦Effizienz: Die SKV des Schätzers hat einen möglichst kleinen Standardfehler also liegt im Durchschnitt näher am Populationsparameter als alternative Schätzer (z.B. bei normalverteilter Population eher Mittelwert statt Median) Intervallschätzung Konfidenzintervall (KI) ◦Ein KI für einen Parameter ist ein Intervall von Zahlen, welches den Populationsparameter mit einer bestimmten hohen Wahrscheinlichkeit überdeckt. Intervallschätzung mithilfe des zentralen Grenzwertsatzes ◦Berechnung: CI = Punktschätzung ± Fehlerbereich (z.B. 95%-KI = Punktschätzung ± 1.96 * Standardfehler) ◦Das KI wird kleiner, je näher mögliche Stichprobenanteile beieinander liegen, d.h. je kleiner der Standardfehler ist. KI für Anteile ◦Berechnung: Formelblatt (6. Formel) -> KI für Mittelwerte ◦Berechnung: Formelblatt (4. Formel) -> Grösse des KI ◦99%-KI = Punktschätzung ± 2.57 * Standardfehler ◦95%-KI = Punktschätzung ± 1.96 * Standardfehler ◦90%-KI = Punktschätzung ± 1.64 * Standardfehler Berechnung: Fehlerwahrscheinlichkeit α = 1- Konfidenzniveau (z.B. α = 5% bei 95% KI) Vorlesung 5 - hypothesentests für populationswerte Definition und Relevanz von Hypothesentests Hypothesentest ◦Verwendet Daten aus einer Stichprobe, um zu testen, ob eine Schätzung des uns interessierenden Populationsparameters nahe am oder weit entfernt vom hypothetischen Populationsparameter liegt. Richtung von Hypothesen ◦Beidseitige Hypothesentests (ungerichtete Hypothese) ‣ Ein Wert in der Population entspricht nicht genau einem bestimmten Wert (z.B. nicht genau 0.5) ◦Einseitige Hypothesentests (gerichtete Hypothese) ‣ Ein Wert in der Population ist kleiner oder grösser als ein bestimmter Wert (z.B. grösser als 0.5) Hypothesenpaar ◦Null-Hypothese (H0) und Alternativ-Hypothese (Forschungshypothese) (Ha) Durchführung eines Hypothesentests Schritte des Hypothesentests ◦Annahmen: Daten, Zufallsstichprobe, Verteilung des Merkmals, Stichprobenumfang ◦Hypothesen: H0 und Ha ◦Teststatistik: Differenz zwischen dem Populationsparameter, wenn H0 richtig ist, und stichprobenbasierte Punktschätzung ◦P-Wert: Wahrscheinlichkeit, dass die Stichprobenstatistik aus der gleichen Verteilung stammt wie der in der H0 angenommene Populationsparameter ◦Schlussfolgerung: anhand des p-Werts H0 ablehnen oder nicht Signifikanzniveau ◦Man lässt eine bestimmte kleine Wahrscheinlichkeit zu, mit der wir die H0 ablehnen, obwohl sie eigentlich nicht stimmt. Ein Mass dafür, für wie (un)sicher wie uns über die Schlussfolgerung aus dem Hypothesentest sind Beidseitiger Hypothesentest eines Anteils ◦Annahmen ◦Hypothesen (z.B. H0: π = 0.5, Ha: π ≠ 0.5) ◦Teststatistik ‣ Wenn H0 richtig ist, dann sind aus der möglichen Stichprobe geschätzte Anteile π^ um den in H0 für die Population angenommenen Wert π0 normalverteilt. ‣ Wenn Ha richtig ist, dann sind aus der möglichen Stichprobe geschätzte Anteile π^ nicht um den in H0 für die Population angenommenen Wert π0 normalverteilt. ‣ Berechnung: Formelblatt (3. und 8. Formel) ◦P-Wert ‣ Berechnung: Formelblatt (z-Tabelle) -> (1 - z-Wert)*2 ◦Schlussfolgerung: Je nach Signifikanziveau ablehnen oder annehmen von H0 Einseitiger Hypothesentest eines Anteils ◦Annahmen ◦Hypothesen (z.B. H0: π ≤ 0.5, Ha: π > 0.5) ◦Teststatistik ‣ Berechnung: Formelblatt (3. und 8. Formel) ◦P-Wert ‣ wenn Ha: π > π0 -> p-Wert die Wahrscheinlichkeit eine Teststatistik grösser z zu errechnen -> rechtsseitiger Test (Fläche unter der Standardnormalverteilung rechts von z) ‣ wenn Ha: π < π0 -> p-Wert die Wahrscheinlichkeit eine Teststatistik kleiner z zu errechnen -> linksseitiger Test (Fläche unter der Standardnormalverteilung links von z) ‣ Berechnung: Formelblatt (z-Tabelle) grösser z: 1- z-Wert kleiner z: z-Wert ◦Schlussfolgerung: Je nach Signifikanziveau ablehnen oder annehmen von H0 Beidseitiger Hypothesentest eines Mittelwerts ◦Annahmen ◦Hypothesen (z.B. H0: µ = 3.5, Ha: µ ≠ 3.5) ◦Teststatistik ‣ Berechnung: Formelblatt (2., 3. und 4. Formel) ◦P-Wert ‣ Berechnung: Freiheitsgrade df: Stichprobenumfang n minus 1 Formelblatt (t-Tabelle) Verdoppelung des p-Werts ◦Schlussfolgerung: Je nach Signifikanzniveau ablehnen oder annehmen von H0 Einseitiger Hypothesentest eines Mittelwerts ◦Annahmen ◦Hypothesen (z.B. H0: µ > 2, Ha: µ ≤ 2) ◦Teststatistik ‣ Berechnung: Formelblatt (2., 3. und 4. Formel) ◦P-Wert ‣ Berechnung: Freiheitsgrade df: Stichprobenumfang n minus 1 Formelblatt (t-Tabelle) wenn Ha: µ > µ0 -> p-Wert die Wahrscheinlichkeit eine Teststatistik grösser t zu errechnen wenn Ha: µ < µ0 -> p-Wert die Wahrscheinlichkeit eine Teststatistik kleiner t zu errechnen wegen Symmetrie p-Wert von (< -t) gleich dem p-Wert von (> t) ◦Schlussfolgerung: Je nach Signifikanziveau ablehnen oder annehmen von H0 Fehler 1. Art und Fehler 2. Art Fehler 1. Art ◦Die H0 ist wahr, aber wir verwerfen sie fälschlicherweise auf der Grundlage einer Stichprobenstatistik (z.B. Mann sagen er ist schwanger) ◦Je niedriger das Signifikanzniveau bzw. je grösser α, desto grösser die Wahrscheinlichkeit, dass wir die H0 fälschlicherweise ablehnen. ◦Kleinerer p-Wert macht einen Fehler 1. Art unwahrscheinlicher, weil es bedeutet, dass es unwahrscheinlicher ist diese Statistik mittels einer Stichprobe aus einer Population zu errechnen, wenn der in H0 angenommene Parameter für die Population gilt. Fehler 2. Art ◦Die H0 ist falsch, aber wie verwerfen sie fälschlicherweise nicht auf der Grundlage einer Stichprobenstatistik (z.B. Schwangere Frau sagen sie ist nicht schwanger) ◦Indem man α verringert und die Wahrscheinlichkeit eines Fehlers 1. Art macht man einen Fehler 2. Art wahrscheinlicher. ◦Ist der Populationsparameter vom in H0 angenommenen Wert verschieden und liegt aber nah am Wert von H0, ist die Wahrscheinlichkeit eines Fehlers 2. Art höher. Statistische Signifikanz und praktische Relevanz Man muss den substanziellen Unterschied zwischen unserer Punktschätzung des uns interessierenden Populationsparameter und dem von H0 angegebenen Wert untersuchen. ◦Beispiel: Punktschätzung von 6.5 im Vergleich zu einem H0 angenommenen Wert von 4 ist substantiell relevanter als eine Punktschätzung von 4.5 Vorlesung 6 - hypothesentests für populationsdifferenzen Definition und Relevanz von Tests für Populationsunterschiede Tests für Populationsunterschiede ◦Bestimmen, ob sich die Werte der Ergebnisvariablen bzw. abhängigen Variablen systematisch unterscheiden zwischen Gruppen von Beobachtungen bzw. Einheiten in der Population, welche durch die Werte auf der erklärenden bzw. unabhängigen binären Variablen bestimmt werden. ◦Falls ein systematischer Unterschied vorliegt, sagt man, dass die unabhängige und abhängige Variable zusamenhängen. Vorgehensweise bei Hypothesentests für Populationsunterschied Unterschied von zwei gruppenspezifischen Anteilen ◦Testen, ob die Anteile einer Ausprägung einer binären Variable signifikant verschieden sind zwischen Gruppen, welche durch die Ausprägung einer anderen binären Variable definiert werden, nicht nur in der Stichprobe, sondern auch in der Population Unterschied von zwei gruppenspezifischen Mittelwerten ◦Testen, ob die Mittelwerte einer Ausprägung einer quantitativen Variable signifikant verschieden sind zwischen Gruppen, welche durch die Ausprägung einer anderen binären Variable definiert werden, nicht nur in der Stichprobe, sondern auch in der Population Zwei Testtypen ◦KI-basierter Test ‣ Annahmen ‣ Hypothesen ‣ Punktschätzung ‣ KI ‣ Schlussfolgerungen ◦Formaler Test ‣ Annahmen ‣ Hypothesen ‣ Punktschätzung ‣ Teststatistik ‣ P-Wert ‣ Schlussfolgerungen Unabhängige Stichproben ◦Die Auswahl der Elemente der einen (Teil-)Stichprobe ist unabhängig von der Auswahl der Elemente der anderen (Teil-)Stichprobe. Wenn eine einfache Zufallsstichprobe aufgrund eines Merkmals in zwei Teil-Stichproben zerlegt wird, sind diese unabhängig. Test für den Anteilsunterschied Annahmen Hypothesen ◦H0: πTeilpopulation 1 = πTeilpopulation 2 (oder H0: πTeilpopulation 1 - πTeilpopulation 2 = 0) ◦Ha: πTeilpopulation 1 ≠ πTeilpopulation 2 (oder H0: πTeilpopulation 1 - πTeilpopulation 2 ≠ 0) Punktschätzung ◦Differenz zwischen den Anteilen der Teilstichproben als Schätzung für die Differenz zwischen den Anteilen der Teilpopulationen (d.h. π^ (Teilstichprobe 1) - π^ (Teilstichprobe 2) ◦Kontingenztabelle (Kreuztabelle) mit der gemeinsamen Häufigkeitsverteilung ‣ Variable in den Zeilen: Zeilenvariable -> meistens erklärende Variable ‣ Variable in den Spalten: Spaltenvariable -> meistens zu erklärende Variable ◦Tabelle mit zeilenbezogenen Anteilen -> geschätzte Populationsdifferenz der Anteile bzw. unsere Punktschätzung für den Populationsparameter von Interesse ‣ Wir können die H0 nicht aufgrund einer Stichprobe ablehnen, deswegen berechnen wir den Standardfehler entweder für ein KI-basierten Test oder formalen Test: KI-basierter Test für den Anteilsunterschied ◦Standardfehler ‣ für jede Teilpopulation einen eigenen Standardfehler und dann gemeinsamen Standardfehler -> Berechnung: Formelblatt (7. Formel) ‣ wegen zentralem Grenzwertsatz Anteilsunterschiede π^2 - π^1 normalverteilt -> die üblichen Standardfehler der Normalverteilung anwenden ◦KI (z.B. 95%-KI = (π^2 - π^1) ± 1.96 * se) ◦Schlussfolgerung ‣ Je nach dem ob das KI den Null wert einschliesst oder nicht, lehnt man die H0 ab oder nicht (z.B. bei [0.003;0.057] -> H0 ablehnen) ‣ Bei Ablehnen der H0 bedeutet es, dass die beiden binären Variablen statistisch zusammenhängen. Formaler Test für den Anteilsunterschied ◦Gemeinsame Schätzung ‣ Kontingenztabelle mit den absoluten Häufigkeiten ‣ gemeinsame Schätzung π^0 -> Berechnung: ◦Gemeinsamer Standardfehler ‣ Berechnung: Formelblatt (9. Formel) ◦Teststatistik ‣ Berechnung: Formelblatt (3. Formel) -> als Punktschätzung einfach π^0 ◦P-Wert ‣ Berechnung: Formelblatt (z-Tabelle) -> z-Wert verdoppeln (z.B. (1-0.917)*2) ◦Schlussfolgerung ‣ Je nach dem ob der p-Wert kleiner oder grösser als das Signifikanzniveau ist, H0 ablehnen oder nicht -> bei Ablehnen hängen die binären Variablen zusammen Test für den Mittelwertsunterschied Annahmen Hypothesen ◦H0: µTeilpopulation 1 = µTeilpopulation 2 (oder H0: µTeilpopulation 1 - µTeilpopulation 2 = 0) ◦Ha: µTeilpopulation 1 ≠ µTeilpopulation 2 (oder H0: µTeilpopulation 1 - µTeilpopulation 2 ≠ 0) Punktschätzung ◦Differenz zwischen den Mittelwerten der Teilstichproben, welche durch die binäre Variable definiert werden als Punktschätzung für den Populationsmittelwertsunterschied (d.h. µ^ (Teilstichprobe 1) - µ^ (Teilstichprobe 2) ◦Berechnung: µ^ (Teilstichprobe 1) - µ^ (Teilstichprobe 2) Standardfehler ◦für jede Teilstichprobe einen eigenen Standardfehler -> Berechnung: Formelblatt (2.&5. Formel) ◦Standardfehler der Mittelwertsdifferenz -> Berechnung (5. Formel) t-Verteilung ◦Mittelwerte und Mittelwertsunterschiede aus verschiedenen Stichproben sind eher t-verteilt ◦Schwierig Freiheitsgrade zu berechnen, aber als Approximierung: ‣ Berechnung: kleinere Teilstichprobengrösse - 1 KI-basierter Test für den Mittelwertsunterschied ◦KI ‣ Berechnung: KI = (µ^2 - µ^1) ± t-Wert(α, df) * se (z.B. 95%-KI = (µ^2 - µ^1) ± 1.962 * se) ◦Schlussfolgerung ‣ Je nach dem ob das KI den Null wert einschliesst oder nicht, lehnt man die H0 ab oder nicht (z.B. bei [0.210;0.376] -> H0 ablehnen) ‣ Bei Ablehnen der H0 bedeutet es, dass die beiden Variablen statistisch zusammenhängen. Formaler Test für den Mittelwertsunterschied ◦Teststatistik ‣ Berechnung: Formelblatt (3. Formel) -> als Punktschätzung einfach die Schätzung der Differenz ◦P-Wert ‣ Berechnung: Formelblatt (t-Tabelle) -> p-Wert verdoppeln (z.B. 0.001 * 2) ◦Schlussfolgerung ‣ Je nach dem ob der p-Wert kleiner oder grösser als das Signifikanzniveau ist, H0 ablehnen oder nicht -> bei Ablehnen hängen die Variablen statistisch zusammen Vorlesung 7 - kontingenztabellen und chi-quadrat-test Zusammenhang zwischen Variablen mit mehr als zwei Kategorien Tests für Beziehungen zwischen zwei Variablen (bivariate Analyse) ◦Die Tests für einen Zusammenhang zwischen zwei Variablen erforschen, ob und wie systematisch bestimmte Werte auf einer Variable zusammen mit bestimmten Werten auf einer anderen Variable in der Population auftreten Zusammenhang zwischen Variablen mit > 2 Kategorien in der Population überprüfen ◦Unterschiede zwischen mehreren gruppenspezifischen Anteilen: Um zu testen, ob kategoriale Variablen mit mehreren Kategorien nicht nur in der Stichprobe sondern auch in der Population zusammenhängen müssen wir prüfen, ob sich in den durch Ausprägungen der einen Variable definierten Gruppe die Anteile einer bestimmten Ausprägung der zweiten Variable signifikant unterscheiden -> spezieller Fall des Tests für den Zusammenhang zwischen binären Variablen Überblick der Tests für Zusammenhänge von Variablen Kontingenztabellen und bedingte Verteilungen Kontingenztabellen (Kreuztabellen) ◦Beschreibt die Anzahl der Einheiten für alle Kombinationen der verschiedenen Ausprägungen von zwei Variablen -> Erkennen ob zwei Variablen zusammenhängen Zeilenprozente: bedingte Verteilungen und Zusammehänge erkennen ◦Berechnung: ◦Beispiel: -> das gleiche für alle Zeilen machen (Zeilen sollen sich zu 100% summieren) 4 Spaltenprozente: man kann das gleiche auch mit spaltenbezogenen Anteilen machen Chi-Quadrat-Test (χ2-Test) Vorgehen: Vergleich von mehreren Gruppen ◦Annahmen ‣ Daten, hinreichend grosse Zufallsstichprobe -> Faustregel mehr als 60 Einheiten ◦Hypothesen ‣ H0: die beiden Variablen sind statistisch unabhängig voneinander -> sie hängen nicht miteinander zusammen bzw. weisen gleiche Anteile an bestimmten Ausprägungen auf ‣ Ha: die beiden Variablen sind statistisch abhängig voneinander -> sie hängen miteinander zusammen bzw. weisen unterschiedliche Anteile an bestimmten Ausprägungen auf ◦Kontingenztabelle und bedingte Verteilung ‣ Ob ein Zusammenhang zwischen zwei kategorialen Variablen besteht oder nicht, hängt davon ab, ob die stichprobenbasierte Verteilung einer Variablen sich für bestimmte Werte einer anderen Variablen verändert ‣ Je nach den Prozentwerten kann man etwas interpretieren ◦Teststatistik χ2 ‣ Der χ2-Test beantwortet, ob der Zusammenhang auch in der Population besteht oder nur in der einen Stichprobe ‣ erster Schritt: erwartete Häufigkeiten in der Kontingenztabelle, wenn H0 stimmt Berechnung: Die erwarteten Häufigkeiten sind die Produkte der Anteile an der Gesamtzahl an Beobachtungen in jeder Spalte und der Gesamtzahl an Beobachtungen in jeder Zeile Beispiel: Wenn die H0 zutrifft, wären die Zeilenprozente für unabhängige Variablen bei allen Kategorien der abhängigen Variable gleich (z.B. bei Nicht-D. und Deutsch 8.78%) ‣ zweiter Schritt: Unterschied zwischen den erwarteten Häufigkeiten und den beobachteten Häufigkeiten -> daraus χ2-Teststatistik Die Teststatistik χ2 misst, wie nahe die erwarteten Häufigkeiten an den beobachteten Häufigkeiten liegen Berechnung: Formelblatt (10. Formel) Wenn die Häufigkeiten sich wenig unterscheiden, also kein Zusammenhang zwischen den Variablen besteht, dann ist die Teststatistik χ2 kleiner ◦P-Wert ‣ Tesstatistik folgt einer χ2-Verteilung und wird durch df bestimmt ‣ Fläche unter der Kurve ist die Wahrscheinlichkeit, einen bestimmten Wert für die χ2- Teststatistik zu beobachten, wenn die H0 stimmt ‣ Freiheitsgrade Berechnung: df = (Anzahl KategorienVariable1 - 1) * (Anzahl KategorienVariable2 - 1) z.B. df = (2-1) * (5-1) = 4 ‣ Tabelle in der Formelsammlung ‣ Wenn man einen Wert der χ2-Teststatistik grösser des Maximalwerts in den Zeilen hat, dann ist der p-Wert kleiner als der angegebene p-Wert ◦Schlussfolgerung ‣ Je nach dem ob der p-Wert kleiner als das Siginifikanzniveau ist, lehnt man die H0 ab oder nicht -> bei Ablehnen sind die beiden Variablen statistisch voneinander abhängig χ2-Verteilung ◦Die χ2-Teststatistik hat auch eine theoretisch angenommene Wahrscheinlichkeitsverteilung, wenn die H0 zutrifft -> χ2-Verteilung ◦Durch Integralrechnung kann man die Fläche darunter ausrechnen und bestimmen, mit welcher Wahrscheinlichkeit Werte innerhalb des x-Achsenabschnitts auftreten ◦Die χ2-Verteilung definiert nur Wahrscheinlichkeiten für Intervalle von positiven Werten und χ2 ist immer positiv. Der minimale Wert ist χ2=0, wenn die beobachteten und erwarteten Häufigkeiten gleich sind -> perfekte Unabhängigkeit ◦Rechtsschiefe Verteilung und die genaue Form hängt von df ab ◦Mittelwert -> Berechnung: µ = df ◦Standardabweichung -> Berechnung: σ = √2df ◦bewegt sich mit ihrem Schwerpunkt nach rechts und hat eine grössere Varianz wenn die df steigen -> wenn die df weiter steigen, hat sie eine glöckenförmige Form ◦wenn df ≥ 90 ist die Normalverteilung eine gute Approximation der χ2-Verteilung Anwendung quantitativer Methoden im Forschungsprozess Schritte bei Anwendung im Forschungsprozess ◦Empirisches Puzzle (Motivation) ◦Fragestellung ◦Theorie ◦Hypothesen bzw. beobachtbare Implikationen der Theorie ◦Forschungsdesign bzw. Methodologie ‣ Analyseeinheiten (Datensatzbeobachtungen) vgl. QM ‣ Populationen und Stichprobenziehung ‣ Operationalisierungen bzw. Messungen ‣ Methodenauswahl und Durchführung ◦Schlussfolgerung Vorlesung 8 - regression Relevanz der Regressionsanalyse Regressionsanalyse ◦Ist eine Methode, mit der untersucht werden kann, ob und wie zwei oder mehr (quantitative) Variablen miteinander zusammenhängen ◦Wenn sie zusammenhängen, variieren die Werte der einen Variablen mit der anderen Lineare Regressionsanalyse Plausibilitätstest für lineare Beziehung ◦Lineare Beziehung ‣ Eine lineare Beziehung zwischen zwei Variablen ist ein Zusammenhang, bei dem der Anstieg um eine Einheit auf der einen Variable immer zusammen mit einer Veränderung um eine bestimmte Anzahl von Einheiten auf der anderen Variablen einhergeht ‣ Mithilfe eines Streudiagramms feststellen, ob eine lineare Beziehung besteht ◦Plausibilitätstest ‣ negativer Zusammenhang, positiver Zusammenhang, schwach negativer Zusammenhang Lineares Regressionsmodell ‣ Drückt den Zusammenhang zwischen Beobachtungen einer unabhängigen Variable x und Beobachtungen einer abhängigen Variable y als lineare Funktion aus: y = α + β * x ◦unabhängige und abhängige Variable ‣ Die Werte der Beobachtungen auf der unabhängigen Variable erklären die Varianz der Werte der Beobachtungen auf der abhängigen Variable ◦Regressionskoeffizienten α und β ‣ Beschreiben den Zusammenhang zwischen der Ergebnisvariablen und einer oder mehrerer erklärenden Variablen. Die Koeffizienten können jede beliebige reelle Zahl annehmen. In der Population werden die Koeffizienten auch als Regressionsparameter bezeichnet. Wenn die Regressionsparameter mithilfe von Stichprobendaten geschätzt werden, dann verwenden wir lateinische Buchstaben, z.B. a und b ‣ Koeffizient α y-Achsenabschnitt -> α ist der Wert von y, wenn x=0 ist -> der Punkt an dem die Regressionsanalyse die y-Achse schneidet ‣ Koeffizient β Steigung des linearen Regressionsmodells -> Änderung von y bei einer Änderung von x um eine Einheit -> wenn die x-Werte um eine Einheit steigen (oder sinken), dann steigen (oder sinken) die y-Werte um β Einheiten Variation von β ◦β > 0 (schwarze Linie), dann steigt y, wenn x steigt ◦β < 0 (rote Linie), dann sinkt y, wenn x steigt ◦β = 0 (blaue Linie), dann ist y konstant und variiert nicht mit x Schätzung der Koeffizienten des linearen Regressionsmodells Schritt 1: mit Daten über zwei quantitative Variablen ein Streudiagramm zeichnen und entscheiden, ob ein ungefähr linearer Zusammenhang vorliegt Schritt 2: a (Schätzung von α) und b (Schätzung von β) auf Grundlage der Daten aus der Stichprobe berechnen ◦Jedes lineare Regressionsmodell hat die Form: y = α + β * x ◦a und b sollen so geschätzt werden, dass sie die beste Passung für die Beobachtungen aufweisen, also einen minimalen Abstand zu jedem Beobachtungspunkt im Streudiagramm haben ◦Wenn a und b geschätzt, kann man auch die Erwartungs- bzw. Vorhersagewerte der abhängigen Variable schätzen -> abhängige Variable dann ein ˆ (z.B. ˆHDI) ◦geschätzter Koeffizient b ‣ Berechnung: ◦geschätzter Koeffizient a (in der Forschungspraxis wird das nicht mehr per Hand gerechnet) ‣ Berechnung: Mittelwert - geschätztes β * geschätzter Mittelwert ◦Mit dem geschätzten Modell kann man dann die Werte der abhängigen Variablen für jeden Beobachtungswert der unabhängigen Variable vorhersagen Residuen Residuen ◦Die Differenz zwischen dem tatsächlich beobachteten Wert und dem vorhergesagten Wert der abhängigen Variable wird als Residuum oder Vorhersagefehler, Abweichung, Fehlerum oder einfach Fehler bezeichnet ◦Je kleiner der absolute Wert des Residuums, desto besser die Vorhersage Methode der kleinsten Quadrate zur Schätzung der Regressionsparameter α + β Um die Summe der quadrierten Residuen zu minimieren, nehmen wir die partielle Ableitung nach a und b Fehlerquadratsumme (SSE) -> Berechnung: Formelblatt (11. Formel und dort dritte) Vorlesung 9 - korrelation und R^2 Korrelation Korrelation ◦Die Korrelation ist eine Methode um die Stärke des Zusammenhangs zu schätzen und zwar unabhängig von den Masseinheiten der Variablen ◦Sie liegt immer zwischen -1 und 1 -> je näher bei -1 oder 1, desto stärker ist der Zusammenhang. ◦Eine Korrelation von 0 bedeutet keinen Zusammenhang. ◦Berechnung: Formelblatt (2. Formel) -> -> sx: Standardabweichung von x -> sy: Standardabweichung von y ‣ Beispiel: r = 0.935 -> starke positive Korrelation Beziehungen im Regressionsmodell ◦Je kleiner die Standardabweichung von y, desto stärker wird die Korrelation ◦Wenn die Standardabweichung von y kleiner wird, aber die Steigung 0 ist, ist auch die Korrelation immer 0 ◦Wenn man die Variablen standardisiert, dann haben beide die Standardabweichung von 1 -> das geschätzte α um 0 zentriert ist -> die Steigung b ist gleich dem Korrelationskoeffizienten r R2 (R Quadrat) R2 ◦Neben der Korrelation ein weiteres Mass für die Stärke des Zusammenhangs ◦R2 fasst auch zusammen, wie gut die Werte von x die Werte von y vorhersagen können ◦Gibt auch an, welcher Anteil der Variation von y durch die Werte von x erklärt wird -> deswegen auch Bestimmungsmass genannt Berechnung: Formelblatt (11. Formel) ◦1. Schritt: einfaches Modell schätzen (zweiter Punkt bei der Formel) ‣ Mittelwert der Variablen y (y mit Strich oben) zur Vorhersage der Werte von y (yi) verwendet wird ‣ Residuen berechnen -> Differenz yi - y mit Strich oben ◦2. Schritt: komplexeres Modell schätzen (dritter Punkt bei der Formel) ‣ die Werte der Variablen x (xi) vorhersagen die Werte von y (yi) -> y^ = a + b * x ‣ Vorhersagefehler berechnen -> Differenz yi - y^i ◦3. Schritt: Summen berechnen und Differenz daraus (erster Punkt bei der Formel) ‣ Summe der quadrierten Fehler des einfachen Modells ‣ Summe der quadrierten Fehler des komplexeren Modells ‣ R2 ist die Differenz der beiden Summen im Verhältnis zur Summe der quadrierten Fehler des einfachen Modells oder auch: ‣ Der Wert von R2 liegt zwischen 0 und 1 und kann auch als Prozentzahl ausgedrückt werden (z.B. R2 = 0.848 -> 84.4% der Variation des HDI wird durch das BIP erklärt Modellbasierte und stichprobenbasierte Unsicherheit Modellspezifikation ◦Beschreibt u.a. welche Variablen in ein Regressionsmodell aufgenommen werden, um Variation in den Werten der abhängigen Variable zu erklären ◦Ein Modell sagt vorher, welcher y-Wert im Mittel bei einem x-Wert zu erwarten ist ◦z.B. lässt ein Modell bestimmte Unterschiede zwischen Ländern ausser Acht Stichprobenbasierte Unsicherheit ◦Die Parameter der Regressionsmodelle werden oft auf Basis einer Zufallsstichprobe aus der Population geschättz und jede Stichprobe sieht einfach anders aus -> verschiedene Stichproben führen zu unterschiedlichen Schätzungen von a und b Vorlesung 10 - unsicherheit im regressionsmodell Lineare Regressionsmodelle als probabilistische Modelle Warum ist das lineare Modell probabilistisch: ◦Wegen der stichprobenbasierten Unsicherheit und der einen erklärenden Variable, die auch von anderen erklärenden Variablen bestimmt wird, ist es schwierig Aussagen über eine Population zu treffen Erwartungswert ◦Anstelle eines deterministischen Modells hat man ein probabilistisches Modell ◦In einem probabilistischen Modell wird jedem Wert von x eine bedingte (Wahrscheinlichkeits-)Verteilung von y zugeordnet ◦Das Regressionsmodell sagt das Zentrum des sogenannten Erwartungswerts von y in Abhängigkeit von x vorher: E(y) = -> α + βx ◦Der Erwartungswert ist der Wert, welcher gegeben einem spezifischen x-Wert, am wahrscheinlichsten auftritt Streuung ◦Die Werte, die auf der Regressionsgerade liegen haben eine höhere Wahrscheinlichkeit und die, die weit weg sind, haben eine weniger hohe Wahrscheinlichkeit -> siehe Bild Bedingte Verteilung ◦Für jeden Wert von x ergibt sich also eine bedingte (Wahrscheinlichkeits-)Verteilung ◦Der Erwartungswert E(y) beschreibt also das Zentrum dieser Verteilung und die Standardabweichung σ beschreibt die Streuung der Verteilung ◦In der Theorie eine Normalverteilung, aber in der Praxis nimmt man die t-Verteilung, weil σ aus der Stichprobe geschätzt wird ◦Nach dem zentralen Grenzwertsatz gilt, wenn man eine grosse Zufallsstichprobe schätzt, E(y) gleich dem vorhergesagten Wert y^ ist und α und β den geschätzten a und b entsprechen Wie finden wir E(y)? ◦Zuerst α und β bzw. a und b schätzen -> E(y) = y^ = a + bx ‣ z.B. E(LZ) = 3 + 0.12 * Einkommensschicht ◦Ausgehend davon, die erwarteten Werte E(y) für jedes x berechnen ‣ z.B. mit Einkommensschicht 5: E(LZ) = 3 + 0.12 * 5 = 3.6 Wie finden wir σ? ◦Kann basierend auf den Differenzen zwischen den Erwartungswerten E(y) bzw. vorhergesagten y-Werten y^ und den beobachteten Werten yi geschätzt werden -> Zusammenfassung der Residuen (yi - y^) ◦Berechnung: ‣ die σ der bedingten Verteilungen von y für verschiedene Werte von x ist identisch ◦Berechnung df: df = n - p (n = Stichprobenumfang, p = Anzahl der Parameter) ‣ z.B. bei n = 1008 und Parameter α und β -> 1008 - 2 = 1006 Hypothesentest für β Relevanz ◦Der Populationskoeffizient β wird auf Basis einer einzigen Stichprobe geschätzt, deswegen könnte es sein dass b von β abweicht (z.B. könnte b positiv sein, obwohl β negativ ist oder b könnte positiv oder negativ sein, obwohl β gleich 0 ist) ◦Mit einem Hypothesentest kann man mit einer bestimmten Wahrscheinlichkeit alternative Zusammenhänge, die nicht b entsprechen zurückweisen Schritte ◦Annahmen des Modells ‣ Zufallsstichprobe (bei 1 unabhängigen Variable ab 30 gross genug) ‣ lineare Beziehung Beschreibung zwischen x und y ‣ Homoskedastizität -> bedingte σ ist für jeden Wert von x identisch -> alle Werte von der x Variable müssen ungefähr gleich um 0 verteilt sein ‣ bedingte Verteilung von y bei jedem Wert von x entspricht einer Normalverteilung ‣ -> in der Praxis nicht immer erfüllt, aber sollten annähernd übereinstimmen ◦Hypothesen (immer so!) ‣ H0: β = 0 ‣ Ha: β ≠ 0 ◦Teststatistik ‣ Berechnung: Formelblatt (3. Formel) -> als Punktschätzung b oder β^ und Wert laut H0 immer 0 ‣ Wenn die H0 stimmt und die Stichprobe ausreichend gross ist, dann folgt die Teststatistik einer t-Verteilung ‣ Berechnung Standardfehler: ‣ Beziehungen: Je genauer die Vorhersage von y gegeben x, desto kleiner die Residuen und damit SSE, desto kleiner wird se und desto genauer wird β mit Hilfe von b geschätzt Je grösser der Stichprobenumfang n, desto kleiner wird s und desto kleiner wird auch se und desto genauer wird β mit Hilfe von b geschätzt Je grösser die Streuung bzw. Variation von x, desto kleiner wird se und desto genauer wird β mit Hilfe von b geschätzt ◦P-Wert ‣ eigentlich immer nicht-gerichtetes Hypothesenpaar für β und deshalb beidseitiger Test -> also immer p-Wert verdoppeln! ‣ p-Wert sagt uns die Wahrscheinlichkeit, dass wir einen extremeren Wert als den absoluten Wert der Teststatistik |t| erhalten, wenn H0 stimmt ◦Schlussfolgerung ‣ man lehnt die H0 ab, wenn der p-Wert kleiner ist als α -> bei Ablehnen, hängen die zwei Variablen miteinander zusammen Hypothesentests in der Forschungspraxis Abbildung: Bezeichnungen: ◦Spalten: Ergebnisvariablen (abhängige Variablen) ◦Zeilen: erklärende Variablen (unabhängige Variablen) ◦Zahl ohne Klammern: Schätzung von β unter Verwendung von Stichprobendaten ◦Zahl in Klammern: Schätzung des Standardfehlers von β ◦Sterne: geben den p-Wert an (z.B. *** bedeutet einen p-Wert von weniger als 0.001) Vorlesung 11 - multivariate regression mit Kontrollvariablen Multivariate Regression Multivariate Regression ◦Die multivariate bzw. multiple Regression ist eine Technik zur Schätzung des Zusammenhangs zwischen einer quantitativen Ergebnisvariablen und mehreren erklärenden Variablen ◦E(y) = α + β1 * x1 + β2 * x2 +... + βk · xk (z.B. mit x1 = BIP und x2 = Demokratiequalität) partielle Steigung ◦Wenn der geschätzte Koeffizient β im Vergleich zum bivariaten Regressionsmodell gleich bleibt, dann besteht unabhängig von der Kontrollvariable der zusammenhang zwischen den anderen Variablen (z.B. 0.100 und 0.099) ◦β1 erfasst die partielle Korrelation von x1 mit y und β2 die partielle Korrelation von x2 mit y ◦Eine Steigung einer erklärenden Variable im bivariaten Modell verändert sich durch das Hinzufügen von Kontrollvariablen im multivariaten Modell wenig oder gar nicht, wenn diese erklärende Variable wenig oder gar nicht mit den Kontrollvariablen im multivariaten Modell korreliert ◦In anderen Worten, wenn x1 und x 2 unabhängige (nicht korrelierte) Ursachen von y sind, dann ändert sich die Korrelation von x1 mit y nicht, wenn wir für x2 kontrollieren ◦Allerdings ändert sich die Steigung einer erklärenden Variable durch das Hinzufügen von Kontrollvariablen in einem Modell stärker, wenn diese erklärende Variable stärker mit den Kontrollvariablen im multivariaten Modell korreliert, d.h., wenn x1 und x2 abhängige bzw. korrelierte Ursachen von y sind Vorhersagewerte ◦Wenn man wissen will, wie sich die Ergebnisvariable abhängig von der unabhängigen Variable verändert, dann setzt man die anderen Variablen im multivariaten Modell auf einen bestimmten Wert (meistens der Stichprobenmittelwert der Variablen) R2 ◦Im multivariaten Regressionsmodell steht das R2 für die erklärte Variation in der Ergebnisvariable durch alle unabhängigen Variablen im Modell ◦Berechnung: Formelblatt (11. Formel) ◦Bereinigtes R2 ‣ Es korrigiert dafür, dass das R2 immer ansteigt, wenn erklärende Variablen in das Modell hinzugefügt werden, auch wenn diese Variablen gar keine Erklärungskraft besitzen ‣ Es ist also im Vergleich zum R2 umso kleiner, je weniger Variation in der Ergebnisvariablen durch das Hinzufügen von unabhängigen Variablen erklärt wird ◦Das R2 und das bereinigte R2 kann über verschiedene Regressionsmodelle hinweg nur vergleicht werden, wenn diese Modelle auf der gleichen Datengrundlage geschätzt werden Kontrollvariablen Kontrollvariablen ◦Die anderen Variablen z die hinzugefügt werden, werden als Kontrollvariablen bezeichnet ◦Wenn wir für diese Kontrollvariablen kontrollieren, können wir etwas über den realen Zusammenhang zwischen x und y erfahren ◦Oftmals operationalisieren Kontrollvariablen alternative Erklärungen für einen Zusammenhang zwischen x und y ◦z.B. kann man durch die Kontrollvariable Alter herausfinden, dass Grösse und mathematische Leistungen nicht miteinander korrelieren Verschiedene Arten von Kontrollvariablen ◦Störfaktor ‣ Wenn der Einschluss von Kontrollvariable z, die Beziehung von x und y verändert (z.B. Alter im Beispiel vorher) ◦Scheinkorrelation ‣ Wenn wir für einen Störfaktor z nicht kontrollieren, obwohl der Zusammenhang zwischen x und y nach der Kontrolle für z verschwindet, dann ist die Beziehung zwischen x und y eine Scheinkorrelation ◦Multiple Ursachen ‣ In der Realität kann eine Variable y immer verschiedene Ursachen haben ‣ Wenn man den Effekt von x auf y genauer abschätzen will, dann ist es wichtig, für diejenigen Variablen zu kontrollieren, welche mit x korrelieren und auch y beeinflussen können (z.B. Demokratiequalität für die Abhängigkeit von BIP zu HDI) ◦Intervenierende bzw. Mediator-Variablen ‣ Manchmal scheinen zwei Variablen x und y miteinander verbunden zu sein, aber tatsächlich wird ihre Beziehung durch eine dritte Variable vermittelt (z.B. Lebenslänge hängt von ihrem Bildungsniveau ab und die Mediator-Variable ist das Einkommen) ◦Interagierende Variablen ‣ Diese werden durch Multiplikation mit der primären unabhängigen Variablen ins Modell eingeschlossen y = α + β1 * x1 + β2 * z + β3 * x1 * z ‣ Der Einschluss der Variablen z verändert die Beziehung zwischen x und y nicht, es verändert sie nur, wenn die interagierende Variable bestimmte Werte annimmt (z.B. beim Zusammenhang von Bildung und Einkommen korreliert es anders bei Werten von Frauen und Männern) Korrelation nicht Kausalität Korrelation nicht Kausalität ◦Nur weil zwei Variablen x und y korrelieren, heisst das nicht, dass x auch Veränderungen in y ursächlich erklärt bzw. kausal beeinflusst (z.B. Korrelation, aber keine Kausalbeziehung: Körpergrösse und mathematische Fähigkeiten) Verzerrung durch ausgelassene Variablen ◦Häufige Ursache dafür, dass wir die Beziehung zwischen zwei Variablen x und y mithilfe von Regression falsch einschätzen ◦Entsteht dann, wenn wir Störfaktoren nicht ins Regressionsmodell einschliesst Annahme der bedingten Unabhängigkeit ◦Wenn wir für alle möglichen Störfaktoren im Regressionsmodell kontrollieren und keine Verzerrung durch ausgelassene Variablen haben, dann erfüllt unser Modell eine wichtige Annahme zur Interpretation einer Korrelation als Kausalbeziehung. ◦Sie besagt, dass nach Kontrolle für Variable z, die primäre unabhängige Variable nicht korreliert mit dem Fehlerterm ϵ ist -> die Korrelation der primären unabhängigen Variable wird mit der Ergebnisvariable nicht durch ausgelassene Variablen beeinflusst Vorlesung 12 - kausalität und experimente Definition von kausalen Effekten Kausaler Effekt ◦Ein kausaler Effekt von X auf Y ist der Unterschied in der Beobachtung für die Variable Y, wenn die Variable X ihren Wert für diese Beobachtung ändert -> also ein Mal eine Beobachtung mit vielen Effekten und ein Mal eine Beobachtung mit wenigen Effekten ◦Man kann nie genau für ein und dieselbe Beobachtung auf der Variablen X Vergleiche machen (z.B. derselbe Staat zur selben Zeit), aber man kann eine ähnliche Beobachtung j mit einem anderen Wert auf der Variable X dazunehmen (z.B. zwei ähnliche Staaten zum gleichen Zeitpunkt) Experimente Experiment ◦Manchen Beobachtungen werden zufällig der eine Wert der Variablen X zugeschrieben und anderen Beobachtungen der andere Wert der Variablen X. Durch die zufällige Zuschreibung sind die Beobachtungen in beiden Gruppen ähnlich bezüglich der Werte auf anderen Variablen Z und die Annahme der bedingten Unabhängigkeit ist erfüllt ◦Beispiel, dass zwei ähnlichen Gruppen im Krankenhaus schwarze und pinke Pillen gegeben werden und nach zwei Wochen ein Test über das subjektive Wohlbefinden gemacht wird -> der Unterschied der zwei Gruppen ist der kausale Effekt der Pillenfarbe ◦Oft kann man die Zuweisung der Werte auf der uns interessierenden Variable nicht experimentell manipulieren Ausschluss alternativer Erklärung bei Beobachtungsdaten Wenn man nicht-experimentelle Daten hat, muss man über alternative Erklärungen für beobachtete Korrelation (d.h., potentielle Störfaktoren) nachdenken Kausaler Effekt oder Korrelation ◦Zwei Variablen x und y hängen kausal miteinander zusammen, wenn… ‣ die Variablen miteinander korrelieren, ‣ die Variablen in einer zeitlichen Abfolge stehen x -> y, und ‣ die Korrelation zwischen x und y nicht durch alternative Erklärungen (bzw. Drittvariablen) erklärt werden kann (d.h., die Annahme der bedingter Unabhängigkeit erfüllt ist) Quasi-Experimente Quasi-Experiment ◦Manchen Beobachtungen wird durch einen externen bzw. exogenen Schock quasi-zufällig der eine Wert der Variablen Y zugeschrieben und anderen Beobachtungen zufällig der andere Wert der Variablen X. Durch die zufällige Zuschreibung sind die Beobachtunge in beiden Gruppen ähnlich bezüglich der Werte auf den Variablen Z ◦Beispiel von der Schuldzuschreibung der Liverpooler Zeitung The Sun führt quasi-zufällig zu einer Nichtkonsumation von Medien im Vergleich zu geographisch nahen anderen Orten, die quasi-zufällig weiterhin The Sun konsumieren Verschiedene Quasi-Experimente ◦Differenz-von-Differenzen-Ansatz (Diff-in-Diff) ‣ Greift auf Paneldaten zurück, wobei die gleichen Einheiten zu verschiedenen Zeitpunkten in Hinblick auf eine Ergebnisvariable von Interesse untersucht werden ‣ Durche einen externen bzw. exogenen Schock verändert sich bei manchen Einheiten ab einem bestimmten Zeitpunkt der Wert der primären erklärenden Variable bzw. des Treatments ‣ Nun kann der Vorher-Nachher-Unterschied in der Ergebnisvariablen zwischen denjenigen Einheiten, bei denen sich der Wert der primären erklärenden Variable verändert (Differenz 1), verglichen werden mit dem Vorher-Nachher-Unterschied in der Ergebnisvariablen zwischen denjenigen Einheiten, bei denen der Wert der primären erklärenden Variable gleich bleibt (Differenz 2) -> es wird also die Differenz von Differenzen ermittelt ‣ Beispiel vom Unterschied zwischen dem Unterschied in Beschäftigungsrate vor und nach April 1992 in New Jersey und dem Unterschied Beschäftigungsrate vor und nach April 1992 in Pennsylvania ‣ Wichtige Annahme -> Annahme paralleler Trends Ohne den Einfluss des Treatments bzw. der primären erklärenden Variable würden sich der durchschnittliche Wert der Ergebnisvariablen bei den Treatment Einheiten und Kontroll-Einheiten über Zeit gleich entwickeln Anwendung des Diff-in-Diff Beispiel vom Einfluss von Öffentlichmachung auf Anwesenheit von Politiker im Schweizer Ständerat ◦bis Ende 2013: per Handzeichen Abstimmung ◦ab Januar 2014: e-voting und Anwesenheit wurde online veröffentlicht ◦Treatment: zusätzliche Öffentlichmachung der Anwesenheit im Ständerat per Internetseite seit Januar 2014