Empirische Forschung im Berufsfeld WS 2024 Klausurfragen PDF

Summary

Diese PDF-Datei enthält Klausurfragen zur empirischen Forschung für das Berufsfeld WS 2024, einschließlich Aufgaben und Beispielen zu Themen wie Validität, Reliabilität, statistischen Verfahren wie ANOVA und Regression. Die PDF-Datei ist ein nützliches Lehrmittel für Studenten.

Full Transcript

Empirische Forschung im Berufsfeld WS 2024 | Lena Schubert Empirische Forschung im Berufsfeld WS 2024, Beispielaufgaben Inhalt Aufgabe 1 - Wissenschaftlicher Realismus vs. Konstruktivismus.................................................................... 3 Aufgabe 2 – Theorie, Hypothese, Konstru...

Empirische Forschung im Berufsfeld WS 2024 | Lena Schubert Empirische Forschung im Berufsfeld WS 2024, Beispielaufgaben Inhalt Aufgabe 1 - Wissenschaftlicher Realismus vs. Konstruktivismus.................................................................... 3 Aufgabe 2 – Theorie, Hypothese, Konstrukt................................................................................................... 3 Aufgabe 3 – Latente und manifeste Variablen................................................................................................ 4 Aufgabe 4 – Induktives und deduktives Vorgehen.......................................................................................... 4 Aufgabe 5 – Induktionsproblem...................................................................................................................... 4 Aufgabe 6 – Falsifikationsprinzip..................................................................................................................... 4 Aufgabe 7 – „wissenschaftlich bewiesen“....................................................................................................... 5 Aufgabe 8 – Anforderungen und potentielle Probleme latenter Variablen................................................... 5 Aufgabe 9 – Validität und Reliabilität I............................................................................................................ 5 Aufgabe 10 - Validität und Reliabilität II.......................................................................................................... 5 Aufgabe 11 – Interne und externe Validität.................................................................................................... 6 Aufgabe 12 - Reproduzierbarkeit und externe Validität................................................................................. 6 Aufgabe 13 - Zufalls- und Gelegenheitsstichproben....................................................................................... 7 Aufgabe 14 – Beobachtungen in der quantitativen Forschung....................................................................... 7 Aufgabe 15 – Beobachtungen in der qualitativen Forschung......................................................................... 8 Aufgabe 16 – Median und Mittelwert............................................................................................................. 8 Aufgabe 17 – Standardabweichung................................................................................................................ 9 Aufgabe 18 – Lagemaße und Streuungsmaße................................................................................................. 9 Aufgabe 19 – Visualisierungen...................................................................................................................... 10 Aufgabe 20 – Quantil..................................................................................................................................... 10 Aufgabe 21 – Streuungsmaß bei ordinal skalierten Variablen...................................................................... 10 Aufgabe 22 – Korrelationskoeffizienten........................................................................................................ 11 Aufgabe 23 – Spearmans Rangkorrelationskoeffizient................................................................................. 11 Aufgabe 24 - Pearsons Produkt-Moment-Korrelationskoeffizient................................................................ 11 Aufgabe 25 – Nullhypothese und Alternativhypothese................................................................................ 12 Aufgabe 26 – Fehler 1. Art (-Fehler).......................................................................................................... 12 Aufgabe 27 – p-Value.................................................................................................................................... 12 Aufgabe 28 – Anwendung Chi-Quadrattest.................................................................................................. 13 Aufgabe 29 – Anwendung t-test................................................................................................................... 13 Aufgabe 30 – ANOVA.................................................................................................................................... 14 Seite 1 von 34 Empirische Forschung im Berufsfeld WS 2024 | Lena Schubert Aufgabe 31 – Anwendung ANOVA................................................................................................................ 14 Aufgabe 32 – Anwendung statistische Verfahren................................................................................... 15 Aufgabe 33 – Regressionsanalyse in R I - Güte............................................................................................. 16 Aufgabe 34 – Regressionsanalyse in R II - Regressionsgleichung.................................................................. 17 Aufgabe 35 – Regressionsanalyse in R III – Signifikanz und Güte................................................................. 18 Aufgabe 36 – ANOVA in R.............................................................................................................................. 18 Aufgabe 37 – Anwendung statistische Verfahren II................................................................................ 19 Beispiele Reliabilität und Validität................................................................................................... 20 Erläuterung Lagemaße und Streuungsmaße.................................................................................... 21 Erläuterung der Visualisierungen.................................................................................................... 23 Erläuterung Hypothesen................................................................................................................. 26 Erläuterung p-Value und Signifikanz............................................................................................... 28 Erläuterung statistische Verfahren.................................................................................................. 30 Erläuterung der Güte eines Modells und r².................................................................................... 33 Erläuterung der Regressionsgleichung............................................................................................ 34 Seite 2 von 34 Empirische Forschung im Berufsfeld WS 2024 | Lena Schubert Aufgabe 1 - Wissenschaftlicher Realismus vs. Konstruktivismus Stellen Sie die Unterschiede zwischen der Realitätsauffassung des Wissenschaftlichen Realismus und des Konstruktivismus dar. WISSENSCHAFTLICHER REALISMUS: Es existiert eine objektive Realität, die unabhängig von individuellen Wahrnehmungen existiert. Menschen beziehen sich auf diese identische Realität und werden dadurch in ihrem Denken und Handeln ähnlich beeinflusst. Dies ermöglicht Gesetzmäßigkeiten, die für alle gelten. Diese objektive Realität verändert sich langsam und bleibt über längere Zeiträume stabil, sodass in der Gegenwart gefundene Gesetzmäßigkeiten auch Bedeutung für die Zukunft haben. KONSTRUKTIVISMUS: Die objektive Realität wird auch anerkannt, sozial wirksam ist aber die Interpretation durch die einzelnen Akteure. Da Wahrnehmung und Interpretation von Person zu Person unterschiedlich ist, kann es keine einheitliche soziale Wirklichkeit geben. Gesetzmäßigkeiten lassen sich nur begrenzt formulieren, da soziale Kontexte variieren. Die soziale Wirklichkeit ist flexibel und verändert sich schnell. Aufgabe 2 – Theorie, Hypothese, Konstrukt Erläutern Sie die Konzepte Theorie, Hypothese und Konstrukt und stellen Sie die Zusammenhänge zwischen diesen Konzepten anhand eines Beispiels dar. Begriff Definition Beispiel Theorie Strukturierte Sammlung von Die Motivationstheorie besagt, dass Hypothesen, die miteinander verknüpft Menschen durch Anerkennung motiviert sind, um ein größeres Phänomen zu werden. erklären. Sie dient dazu, Zusammenhänge zwischen verschiedenen Variablen verständlich zu machen. Hypothese Eine Hypothese ist eine konkrete Mögliche Hypothese zur Motivationstheorie: Vermutung, die man testen kann. „Lob erhöht die Mitarbeit im Schulunterricht.“ Konstrukt „Ein Konstrukt ist ein theoretisches Das Konstrukt Motivation könnte durch Konzept für ein Merkmal, welches ich quantifizierbare Dinge wie die Meldungen in erfassen will.“ (Zitat Zimmer 7.2.25) einer Unterrichtsstunde sichtbar gemacht werden. Seite 3 von 34 Empirische Forschung im Berufsfeld WS 2024 | Lena Schubert Aufgabe 3 – Latente und manifeste Variablen Erläutern Sie den Unterschied zwischen einer manifesten Variablen und einer latenten Variablen und nennen Sie jeweils ein Beispiel für eine solche Variable. MANIFESTE VARIABLEN sind direkt beobachtbare und messbare Variablen wie z.B. die Körpergröße. LATENTE VARIABLEN sind nicht direkt messbar oder beobachtbar, wie z.B. Intelligenz. Latente Variablen müssen operationalisiert werden, d.h. sie werden über indirekte Indikatoren gemessen. Aufgabe 4 – Induktives und deduktives Vorgehen Unterscheiden Sie induktives und deduktives Vorgehen bei der Generierung wissenschaftlicher Aussagen. Geben Sie jeweils ein Beispiel aus dem wissenschaftlichen Bereich. INDUKTIVES VORGEHEN: Aus einzelnen Beobachtungen werden allgemeine Regeln abgeleitet. Induktives Vorgehen wird häufig zur Hypothesenbildung verwendet. o Bsp.: Ein Soziologe beobachtet, dass Familien mit höherem Einkommen häufiger Freizeitaktivitäten wie Museumsbesuche oder Reisen unternehmen. Er bildet die Hypothese: „Das Haushaltseinkommen beeinflusst die Teilnahme an kulturellen Freizeitaktivitäten positiv.“ DEDUKTIVES VORGEHEN: Aus einer allgemeinen Regel werden Vorhersagen für Einzelfälle abgeleitet. Deduktives Vorgehen wird häufig zur Hypothesenprüfung verwendet. o Bsp.: Der Soziologe testet seine Hypothese, indem er eine quantitative Studie durchführt, welche den Zusammenhang zwischen Haushaltseinkommen und der Teilnahme an kulturellen Freizeitaktivitäten untersucht. Aufgabe 5 – Induktionsproblem Was wird als Induktionsproblem bezeichnet? Das Induktionsproblem beschreibt die Schwierigkeit, von einer endlichen Anzahl von Beobachtungen auf eine allgemeine Gesetzmäßigkeit zu schließen. Aufgabe 6 – Falsifikationsprinzip Beschreiben Sie das Falsifikationsprinzip. Das Falsifikationsprinzip besagt, dass wissenschaftliche Aussagen nicht endgültig bewiesen, sondern nur widerlegt („falsifiziert“) werden können. Die Aussage „Alle Schwäne sind weiß.“ kann durch einen einzigen nicht weißen Schwan widerlegt werden. Wenn eine Aussage nicht widerlegt werden kann, gilt sie als vorläufig bestätigt, aber nicht als bewiesen. Seite 4 von 34 Empirische Forschung im Berufsfeld WS 2024 | Lena Schubert Aufgabe 7 – „wissenschaftlich bewiesen“ In einer Publikation über einen empirischen Sachverhalt lesen Sie unter anderem den Satz: „Es ist wissenschaftlich bewiesen, dass…“. Nehmen Sie zu dieser Aussage Stellung. In der Wissenschaft kann die Wahrheit einer Aussage empirisch nicht bewiesen werden, sondern nur vorläufig bestätigt oder widerlegt (siehe Aufgabe 6). Aussagen wie „Es ist wissenschaftlich bewiesen, dass…“ sind irreführend, da jede empirische Untersuchung auf begrenzten Daten basiert und zukünftige Beobachtungen die Ergebnisse widerlegen können. Aufgabe 8 – Anforderungen und potentielle Probleme latenter Variablen Stellen Sie die Anforderungen und potenziellen Probleme dar, die sich bei latenten Variablen im Zusammenhang mit Messung und Operationalisierung stellen. Latente Variablen sind theoretische Konstrukte, die nicht direkt messbar sind (siehe Aufgabe 3). Latente Variablen müssen eindeutig definiert werden. PROBLEME BEI DER MESSUNG: Diese Variablen müssen operationalisiert werden, d.h. es müssen messbare Indikatoren definiert werden, die das Konstrukt repräsentieren. HERAUSFORDERUNG: Die Wahl geeigneter Indikatoren, die das Konstrukt vollständig und korrekt erfassen, sowie die Sicherstellung von Validität, Objektivität und Reliabilität. Aufgabe 9 – Validität und Reliabilität I Unterscheiden Sie die Konzepte Validität und Reliabilität in Bezug auf Messungen. Reliabilität gibt an, wie genau und stabil de Messungen sind. Validität beschreibt, ob das Messinstrument tatsächlich das misst, was es messen soll. Aufgabe 10 - Validität und Reliabilität II Stellen Sie dar, warum es zwar möglich ist, dass eine Messung reliabel und nicht valide ist, es aber nicht möglich ist, dass eine Messung valide und nicht reliabel. 1. RELIABEL ABER NICHT VALIDE: Eine Messung kann stabil und wiederholbar sein, misst aber möglicherweise nicht die Variable, welche gemessen werden soll. 2. VALIDE ABER NICHT RELIABEL: Eine nicht reliable Messung führt bei gleichbleibenden Bedingungen zu verschiedenen Ergebnissen und kann somit nicht valide sein. Beispiele zu Validität und Reliabilität Seite 5 von 34 Empirische Forschung im Berufsfeld WS 2024 | Lena Schubert Aufgabe 11 – Interne und externe Validität Was bedeutet in Bezug auf die Ergebnisse wissenschaftlicher Forschung interne Validität, was externe Validität? Die INTERNE VALIDITÄT ist besonders hoch, wenn möglichst viele Rahmenbedingungen kontrolliert werden (z.B. im Labor). Sie beschreibt, wie gut eine Studie sicherstellt, dass beobachtete Effekte auf die untersuchte unabhängige Variable zurückzuführen sind, ohne dass andere Faktoren eingreifen. EXTERNE VALIDITÄT ist hoch, wenn Ergebnisse unter möglichst natürlichen Bedingungen entstanden sind und auf viele verschiedene Kontexte verallgemeinert werden können. Aufgabe 12 - Reproduzierbarkeit und externe Validität Schildern Sie anhand eines Beispiels die Bedeutung der Reproduzierbarkeit von Forschungsergebnissen für die Überprüfung der externen Validität. Die Reproduzierbarkeit von Forschungsergebnissen ist entscheidend für die Überprüfbarkeit der externen Validität, da sie zeigt, ob die Ergebnisse auch in anderen Kontexten, bei unterschiedlichen Stichproben oder unter veränderten Bedingungen konsistent sind. BEISPIEL: Es wird untersucht, ob ein Lernprogramm die Lesekompetenz von Grundschülern verbessert. Die Ergebnisse einer Untersuchung an einer Grundschule zeigt eine signifikante Steigerung der Lesekompetenz. REPRODUZIERBARKEIT: Um die Ergebnisse zu überprüfen wird das Lernprogramm in mehreren anderen Grundschulen getestet. Wenn die Ergebnisse der Untersuchungen an den anderen Schulen ebenfalls positiv ausfallen, gibt Die Reproduzierbarkeit als bestätigt. BEDEUTUNG FÜR DIE Die wiederholte Bestätigung des Effekts zeigt, dass das Lernprogramm EXTERNE VALIDITÄT: wahrscheinlich auch in anderen Schulen wirksam ist, was die Übertragbarkeit der Ergebnisse stärkt. ➔ REPRODUZIERBARKEIT ZEIGT, DASS EIN EFFEKT NICHT ZUFÄLLIG IST UND UNTERSTÜTZT DIE GENERALISIERBARKEIT DER ERGEBNISSE, FOLGLICH AUCH DIE EXTERNE VALIDITÄT. Seite 6 von 34 Empirische Forschung im Berufsfeld WS 2024 | Lena Schubert Aufgabe 13 - Zufalls- und Gelegenheitsstichproben Unterscheiden Sie eine Zufallsstichprobe von einer Gelegenheitsstichprobe und begründen Sie, warum in Der Statistik darauf Wert gelegt wird, mit Zufallsstichproben zu arbeiten. ZUFALLSSTICHPROBE: Alle Elemente der Grundgesamtheit haben die gleiche Wahrscheinlichkeit ausgewählt zu werden. Dies führt zu einer repräsentativen Stichprobe, die Rückschlüsse auf die gesamte Population ermöglicht. GELEGENHEITSSTICHPROBE: Hier werden Elemente ausgewählt, die leicht verfügbar oder zugänglich sind. Diese Methode kann zu Verzerrungen führen, da die Stichprobe nicht repräsentativ ist. ➔ ZUFALLSSTICHPROBEN WERDEN BEVORZUGT, DA SIE VERZERRUNGEN MINIMIEREN UND SICHERSTELLEN, DASS DIE ERGEBNISSE AUF DIE GRUNDGESAMTHEIT VERALLGEMEINERT WERDEN KÖNNEN. Aufgabe 14 – Beobachtungen in der quantitativen Forschung Beschreiben Sie anhand eines Beispiels unter welchen Bedingungen eine Beobachtung als Erhebungsmethode für die quantitative Forschung geeignet ist. Eine Beobachtung ist geeignet, wenn sie direkt messbar, beobachtbar und quantifizierbar ist. Es findet eine Vorstrukturierung der Beobachtungen statt. BEISPIEL: Bei einer Verkehrszählung werden Fahrzeuge an einer Ampel erfasst (Anzahl der Fahrzeuge pro Stunde und Fahrtrichtung). BEDINGUNGEN: Die Beobachtung muss systematisch und nach festen Kriterien erfolgen. Relevante Merkmale (in dem Beispiel Anzahl der Fahrzeuge und Fahrtrichtung) müssen klar definiert und einfach messbar sein. Die Beobachtungen müssen intersubjektiv nachvollziehbar und reproduzierbar sein. Seite 7 von 34 Empirische Forschung im Berufsfeld WS 2024 | Lena Schubert Aufgabe 15 – Beobachtungen in der qualitativen Forschung Beschreiben Sie anhand eines Beispiels unter welchen Bedingungen eine Beobachtung als Erhebungsmethode für die qualitative Forschung geeignet ist. Eine Beobachtung eignet sich in der qualitativen Forschung, wenn es darum geht, soziale Interaktionen in ihrem natürlichen Kontext zu verstehen. Bei der qualitativen Forschung findet die Interpretation und Strukturierung im Nachhinein statt. Die Beobachtungen finden komplexer und ganzheitlicher statt, um spontane Beobachtungen zu erfassen. Es findet keine Vorstrukturierung statt. BEISPIEL: Beobachtungen der Interaktion zwischen Lehrern und Schülern in einer Klassensituation BEDINGUNGEN: Die Situation sollte nicht standardisiert sein, um spontane Verhaltensweisen zu erfassen. Der Forscher ist als Beobachter involviert, um das Verhalten im sozialen Kontext zu interpretieren. Transparenz (offene Beobachtung) oder Anonymität (verdeckte Beobachtung) hängt von der Forschungsfrage ab. Aufgabe 16 – Median und Mittelwert Warum wird der Median weniger durch Ausreißerwerte beeinflusst als der Mittelwert? Illustrieren Sie Ihre Argumentation mit einem Beispiel. Der MEDIAN repräsentiert den mittleren Wert einer geordneten Datenreihe und wird durch die exakten Werte der Extremwerte nicht beeinflusst. Der MITTELWERT hingegen summiert alle Werte und teilt durch die Anzahl der Werte, wodurch Ausreißer das Ergebnis stark verzerren können. BEISPIEL: Einkommensverteilung in € WERTE 50.000 €; 50.000 €; 50.000€; 50.000 €; 50.000 €; 50.000 €; 50.000 €; 50.000 €; 50.000 € 300.000€ MITTELWERT: (50.000 € + 50.000 € + 50.000 € + 50.000 € (50.000 € + 50.000€ + 50.000 € + 50.000 € + 50.000 €) : 5 = 50.000 € + 300.000€) : 5 = 100.000 € MEDIAN: 50.000 € 50.000€ ➔ Der Median bleibt bei einem extremen Ausreißer stabil, während der Mittelwert deutlich ansteigt. Erläuterung zu Lagemaße und Streuungsmaße Seite 8 von 34 Empirische Forschung im Berufsfeld WS 2024 | Lena Schubert Aufgabe 17 – Standardabweichung Zwei Stichproben metrischer Werte haben beide einen Mittelwert von 3,5. In der ersten Stichprobe beträgt die Standardabweichung 2,7, in der zweiten Stichprobe 1,9. Welche Stichprobe wird besser durch ihren Mittelwert repräsentiert? Begründen Sie Ihre Wahl kurz. Die Stichprobe mit der niedrigeren Standardabweichung von 1,9 wird besser durch ihren Mittelwert repräsentiert. Eine geringere Standardabweichung bedeutet, dass die Datenpunkte näher am Mittelwert liegen, was die Aussage des Mittelwertes erhöht. Erläuterung Standardabweichung Aufgabe 18 – Lagemaße und Streuungsmaße Geben Sie für die folgenden Variablen alle Lagemaß(e) und Streuungsmaß(e) an, die sinnvoll interpretiert werden können: - Geburtsort - Höchster Schulabschluss - Alter in Jahren - Anzahl der Kinder einer Familie - Durchschnittsnote im Abitur 1. GEBURTSORT -> nominaler Wert Lagemaß: Modus Streuungsmaß: / 2. HÖCHSTER SCHULABSCHLUSS -> ordinaler Wert Lagemaß: Modus, Median Streuungsmaß: Standardabweichung, Interquartilsabstand 3. ALTER IN JAHREN -> metrischer Wert Lagemaß: Median, Mittelwert Streuungsmaß: Standardabweichung, Interquartilsabstand 4. ANZAHL DER KINDER EINER FAMILIE -> metrischer Wert Lagemaß: Modus, Median, Mittelwert Streuungsmaß: Standardabweichung, Interquartilsabstand 5. DURCHSCHNITTSNOTE IM ABITUR -> metrischer Wert Lagemaß: Median, Mittelwert Streuungsmaß: Standardabweichung, Interquartilsabstand Erläuterung Lagemaße und Streuungsmaße Seite 9 von 34 Empirische Forschung im Berufsfeld WS 2024 | Lena Schubert Aufgabe 19 – Visualisierungen Wir haben Säulendiagramme, Histogramme, Streudiagramme und Boxplots als Visualisierungen von Daten kennengelernt. Welche Visualisierung könnten Sie nutzen, um … a) …sich einen Eindruck von der Verteilung einer metrischen Variablen zu verschaffen? Histogramm und Boxplot. b) … eine mögliche Beziehung zwischen den Noten in einem Fach und dem Geschlecht der Studierenden aufzuzeigen? Boxplot. c) … eine mögliche Beziehung zwischen dem Alter von Arbeitnehmer/innen und ihrem Bruttoverdienst aufzuzeigen? Streudiagramm. d) … die Verteilung des Geschlechts der Befragten innerhalb der Stichprobe darzustellen? Säulendiagramm. Erläuterungen der Visualisierungen Aufgabe 20 – Quantil Das 90%-Quantil einer metrischen Variablen liegt bei 17,40. Was sagt Ihnen diese Angabe? 90 % aller Werte sind kleiner oder gleich 17,40. (Alternativ: 10 % der Werte liegen über 17,40.) Aufgabe 21 – Streuungsmaß bei ordinal skalierten Variablen Wie könnte man bei ordinal skalierten Variablen die Streuung der Messwerte messen bzw. bestimmen? Interquartilsabstand. Erläuterung Streuungsmaße Seite 10 von 34 Empirische Forschung im Berufsfeld WS 2024 | Lena Schubert Aufgabe 22 – Korrelationskoeffizienten Die beiden Graphen stellen jeweils x-y-Diagramme von zwei metrisch skalierten Variablen dar. Welches der Variablenpaare wird einen höheren Korrelationskoeffizienten ergeben? Begründen Sie bitte Ihre Meinung. Das Variablenpaar im linken Diagramm wird einen höheren Korrelationskoeffizienten ergeben. Begründung: Der Korrelationskoeffizient musst die Stärke eines linearen Zusammengangs zwischen zwei Variablen. Im linken Diagramm ist der Zusammenhang linear, während im rechten Diagramm war ein Muster, aber keine Gerade erkennbar ist, sodass der Korrelationskoeffizient deutlich niedriger ausfallen wird. Aufgabe 23 – Spearmans Rangkorrelationskoeffizient Spearmans Rangkorrelationskoeffizient wird häufig als ‚robuster‘ gegen Verzerrungen durch Ausreißer bzw. Extremwerte bezeichnet. Begründen Sie, warum dieser Korrelationskoeffizient sich durch einzelne Extremwerte nicht so beeinflussen lässt, wie etwa Pearsons Produkt-Moment-Korrelation. Spearmans Rangkorrelation basiert auf Rangordnungen und ist daher unempfindlich gegenüber Extremwerten. Aufgabe 24 - Pearsons Produkt-Moment-Korrelationskoeffizient Pearsons Produkt-Moment-Korrelationskoeffizient ist definiert als: Welcher Teil dieses Bruchs misst die Stärke der Korrelation der Variablen? Der Zähler. Seite 11 von 34 Empirische Forschung im Berufsfeld WS 2024 | Lena Schubert Aufgabe 25 – Nullhypothese und Alternativhypothese Im Rahmen einer quantitativen statistischen Analyse des Einkaufsverhaltens wird als Nullhypothese formuliert: „Männer kaufen mehr Fleisch- und Wurstwaren ein als Frauen.“ Formulieren Sie die Alternativhypothese und geben Sie an, ob es sich bei der Nullhypothese um eine gerichtete oder um eine ungerichtete Hypothese handelt. Alternativhypothese: „Männer kaufen nicht mehr Fleisch- und Wurstwaren ein als Frauen.“ Hypothesenart: Die Nullhypothese ist gerichtet. Erläuterung Hypothesen Aufgabe 26 – Fehler 1. Art (-Fehler) Stellen Sie unter Rückgriff auf die Hypothesen aus Aufgabe 25 den Fehler erster Art (-Fehler) dar und erläutern Sie, was eine Erhöhung des Signifikanzniveaus in diesem Beispiel bedeuten würde. Ein Fehler 1. Art tritt auf, wenn die Nullhypothese verworfen wird, obwohl sie zutrifft. Im Beispiel von Aufgabe 25 würde dies bedeuten, dass fälschlicherweise zu dem Schluss gekommen wird, Männer kaufen mehr Fleisch- und Wurstwaren als Frauen ein, obwohl dies tatsächlich nicht der Fall ist. Eine Erhöhung des Signifikanzniveaus bedeutet, dass die Wahrscheinlichkeit den Fehler erster Art zu machen, sinkt. Im genannten Beispiel wäre die Wahrscheinlichkeit zu dem Ergebnis zu kommen, Männer kaufen mehr Fleisch- und Wurstwaren ein als Frauen, obwohl dies nicht zutrifft, obwohl dies nicht zuträfe, durch die Erhöhung des Signifikanzniveaus geringer. Erläuterung p-Value und Signifikanz Aufgabe 27 – p-Value Wofür steht der p-value eines statistischen Tests? Die Wahrscheinlichkeit, dass das beobachtete oder ein extremeres Ergebnis des Tests auftritt, wenn die Nullhypothese zutrifft. (Alternativ: Der p-Value gibt an, wie wahrscheinlich es ist, einen Fehler erster Art zu begehen.) Erläuterung p-Value und Signifikanz Seite 12 von 34 Empirische Forschung im Berufsfeld WS 2024 | Lena Schubert Aufgabe 28 – Anwendung Chi-Quadrattest Mit einem Chi-Quadrattest wird überprüft, ob sich unterschiedliche Formen der Kapi talanlage in Bezug auf ihre Rendite unterscheiden. Dabei werden die in den Anla gen in einem bestimmten Zeitraum erzielten Renditen in Quartile eingeteilt. Der Chi Quadrattest ergibt unter anderem p-value = 0,1346. Was besagt dieses Ergebnis bezüglich der Abhängigkeit bzw. Unabhängigkeit von Renditen und Anlageformen? Es gibt keinen signifikanten Zusammenhang zwischen Renditen und Anlageformen(, weil die 13 % oberhalb jedes Signifikanzniveaus liegen.) Erläuterung p-Value und Signifikanz Aufgabe 29 – Anwendung t-test In einer Schule bekommen Flüchtlingskinder im Rahmen eines Pilotprojekts einen besonderen Sprachförderunterricht. Um die Effektivität der Maßnahme zu beurteilen, wird vor Beginn der Maßnahme die Sprachkompetenz der Kinder gemessen und in einer zweiten Untersuchung wird ihre Sprachkompetenz nach Ende der Maß nahme erhoben. Die erhobenen Indexe aus den beiden Stichproben werden mit einem zweiseitigen t Test verglichen. Dieser ergibt u.a. folgende Ergebnisse: a. Haben die Maßnahmen zu einer signifikanten Veränderung der Sprachkompetenz geführt? Was bedeutet die Angabe zu dem 95 %igen Konfidenzintervall? Ja, die Maßnahme hat zu einer signifikanten Veränderung der Sprachkompetenz geführt, da p-value < 0,05, d.h. die Nullhypothese kann abgelehnt werden. Das 95% Konfidenzintervall gibt den Bereich an, in welchem die Differenz der Mittelwerte in der Grundgesamtheit mit 95%iger Wahrscheinlichkeit liegen, in diesem Beispiel zwischen den Werten -0,56 und -0,34. b. Sollte die hier geschilderte Fragestellung mit einem t-Test für unabhängige oder gepaarte Stichproben angegangen werden? t-test für gepaarte Stichproben. c. Welche Form des t-Tests könnte auf den geschilderten Fall noch sinnvoll angewendet werden? Einseitiger t-test für gepaarte Stichproben. Erläuterung p-Value und Signifikanz Erläuterung statistische Verfahren Seite 13 von 34 Empirische Forschung im Berufsfeld WS 2024 | Lena Schubert Aufgabe 30 – ANOVA Wann ist es sinnvoll bzw. notwendig, zum Vergleich von Mittelwerten ANOVA, also die Varianzanalyse zu verwenden? Die ANOVA (Varianzanalyse) ist sinnvoll bzw. notwendig, wenn untersucht werden soll, ob die Mittelwerte von mehr als zwei Stichprobenmehr sich signifikant unterscheiden. Aufgabe 31 – Anwendung ANOVA Eine Supermarktkette will untersuchen, ob die Platzierung bestimmter Güter im Ver kaufsraum Einfluss auf den Umsatz hat. Sie lässt in vier ihrer Märkte Gemüsekon serven in jeweils unterschiedlichen Zonen des Verkaufsraums aufstellen und erfasst die Anzahl der verkauften Gemüsekonserven. Vor dem Test waren die Umsätze in dieser Warengruppe bei allen Märkten im Test identisch. Mit welchem statistischen Verfahren kann auf der Basis der gemessenen Anzahl der verkauften Konserven herausgefunden werden, ob die Platzierung der Ware Einfluss auf den Umsatz hatte? ANOVA (Varianzanalyse). Erläuterung statistische Verfahren Seite 14 von 34 Empirische Forschung im Berufsfeld WS 2024 | Lena Schubert Aufgabe 32 – Anwendung statistische Verfahren Benennen Sie für die folgenden Fragestellungen bzw. Hypothesen jeweils ein statis tisches Verfahren, das zur Überprüfung eingesetzt werden könnt. Bezeichnen Sie das Verfahren möglichst genau und begründen Sie Ihre Wahl kurz. a. Männer geben einen signifikant geringeren Teil ihres Einkommens für Kosmetika aus als Frauen. ➔ Einseitiger t-test für unabhängige Stichproben Begründung: Es werden die Mittelwerte (Anteil des Einkommens, welcher für Kosmetik ausgegeben wird) zweier unabhängiger Stichproben (Männer und Frauen) miteinander verglichen. Die Hypothese ist gerichtet („geringer“), daher bietet sich der einseitige Test an. b. Der Anteil von Elektroautos am KFZ-Bestand unterscheidet sich signifikant für Dörfer, Klein-, Mittel- und Großstädte. ➔ ANOVA (Varianzanalyse) Begründung: Es werden die Mittelwerte von mehr als zwei Stichproben (Dörfer, Klein-, Mittel- und Großstadt) miteinander verglichen. c. Durch eine Schulungsmaßnahme wurde die Erfolgsquote in einem Team von Vertriebsmitarbeiterinnen und Vertriebsmitarbeitern signifikant gesteigert. ➔ Einseitiger t-test für gepaarte Stichproben Begründung: Es werden die Mittelwerte derselben Gruppe (Vertriebsmitarbeiter) zu verschiedenen Zeitpunkten miteinander verglichen. Die Hypothese ist gerichtet („verbessert). d. Es gibt einen signifikanten Zusammenhang zwischen Tatsache, ob der Name einer Bewerberin oder eines Bewerbers deutsch klingt oder nicht, und der Frage, ob sie oder er zu einem Bewerbungsgespräch eingeladen wird. ➔ Chi-Quadrattest Begründung: Der Chi-Quadrattest ist in der Lage Abhängigkeiten nominaler Variablen (Name klingt deutsch / Name klingt nicht deutsch und Einladung ja / Einladung nein) zu prüfen. Erläuterung statistische Verfahren Seite 15 von 34 Empirische Forschung im Berufsfeld WS 2024 | Lena Schubert Aufgabe 33 – Regressionsanalyse in R I - Güte Als Ergebnis einer Regressionsanalyse mit R erhalten Sie folgende Ausgabe: Beurteilen Sie die Güte des Modells: Wie gut kann die Verteilung der Variablen EF20 durch die drei anderen Variablen erklärt werden? Das Modell hat eine geringe Güte, da der Adjusted-R²-Wert bei 0,0169 liegt. Dies bedeutet, dass weniger als 2% der Variable EF20 durch die anderen Variablen (EF16U2, TARIFART, WZGRUPPE) erklärt wird. Erläuterung der Güte eines Modells und R² Seite 16 von 34 Empirische Forschung im Berufsfeld WS 2024 | Lena Schubert Aufgabe 34 – Regressionsanalyse in R II - Regressionsgleichung Eine andere Regressionsanalyse ergibt: Stellen Sie die geschätzte Regressionsgleichung auf und identifizieren Sie die unabhängige Variable, die am stärksten auf die abhängige Variable wirkt. 1) EF21 = 75154,83 – 37,60 x EF12U2 + 69,02 x EF18 – 3,52 x B_EF13 2) Die Variable EF18 hat mit dem höchsten Betrag des geschätzten Koeffizienten den stärksten Einfluss auf EF21. Erläuterung zur Regressionsgleichung Seite 17 von 34 Empirische Forschung im Berufsfeld WS 2024 | Lena Schubert Aufgabe 35 – Regressionsanalyse in R III – Signifikanz und Güte Verdeutlichen Sie anhand der Regressionen in den Aufgaben 33 und 34 den Unter schied zwischen der Güte einer Regression und der Signifikanz der Ergebnisse der Regression. Welche dieser beiden Aspekte ist relevant für die Übertragbarkeit der Ergebnisse auf die Grundgesamtheit und welcher ist gibt an, in welchem Ausmaß die abhängige Variable durch die unabhängigen Variablen erklärt wird? Beurteilen Sie die beiden Regressionen unter diesen Gesichtspunkten. Die Signifikanz der Ergebnisse (p-value, auch erkennbar an den *Sternen) prüft, ob die unabhängigen Variablen einen statistisch signifikanten Einfluss auf die abhängige Variable haben. In beiden Regressionen sind die Einflüsse der unabhängigen Variablen höchst signifikant (p-value < 0,001), folglich sind die Auswirkungen statistisch nachweisbar und übertragbar auf die Grundgesamtheit. Die Güte (r²) misst, in welchem Ausmaß die abhängige Variable durch die unabhängigen Variablen erklärt wird. In Aufgabe 33 betrug der Adjusted r² 0,0169, somit erklärt das Modell ca. 1,7 % der abhängigen Variable durch die unabhängigen Variablen. Das Modell in Aufgabe 34 hat eine deutlich bessere Erklärkraft: Adjusted r² beträgt 0,0337, das Modell erklärt somit 33,7% der abhängigen Variable durch die unabhängigen Variablen. Erläuterung Signifikanz in R Erläuterung der Güte eines Modells und R² Aufgabe 36 – ANOVA in R Auf der Basis einer Stichprobe mit ca. 60.000 Fällen wird ein ANOVA-Test mit den Variablen TARIFART (mögliche Ausprägungen: kein Tarifvertrag, Kollektivtarifver trag, Firmentarifvertrag, keine Angabe) und EF20 (Anzahl der bezahlten Mehrar beitsstunden pro Monat) durchgeführt. Das Ergebnis: Interpretieren Sie dieses Ergebnis. Da der p-value < 0,001, ist das Ergebnis der ANOVA höchst signifikant. Die ANOVA stellt somit fest, dass es höchst signifikante Unterschiede zwischen den Mittelwerten der bezahlten Überstunden zwischen den Gruppen der Tarifarten gibt. Erläuterung Signifikanz in R Seite 18 von 34 Empirische Forschung im Berufsfeld WS 2024 | Lena Schubert Aufgabe 37 – Anwendung statistische Verfahren II Benennen Sie für die folgenden Fragestellungen bzw. Hypothesen statistische Ver fahren, die zur Überprüfung sinnvoll herangezogen werden können. Benennen Sie das Verfahren jeweils möglichst genau und begründen Sie kurz Ihre Wahl. a) Die Anzahl der ‚Likes‘ des Beitrags eines Influencer auf Instagram kann durch die Anzahl der Follower des Influencers, die Anzahl des Hashtags, mit denen der Beitrag versehen ist und dadurch, ob es sich um ein Reel oder ein Foto handelt, erklärt werden. MULTIPLE REGRESSION Begründung: Die Hypothese erfordert die Untersuchung des Einflusses mehrerer unabhängiger Variablen (Anzahl Follower, Hashtags, Real oder Foto) auf die abhängige Variable (Anzahl Likes). Die Regressionsanalyse ist das geeignete Verfahren, um festzustellen, wie stark und in welche Richtung die unabhängige Variablen die abhängige Variable beeinflusst. b) Die Preise, zu denen Güter im Internet angeboten werden, unterscheiden sich signifikant je nach dem Endgerät, das die Nutzer zum Zugang zum Internet verwenden. VARIANZANALYSE (ANOVA) Begründung: Die Fragestellung vergleich die Mittelwerte (durchschnittliche Preis) von mehr als zwei Gruppen (z.B. Smartphone, Tablett, PC…). c) Autos mit niederländischem Kennzeichen sind häufiger mit einem Wohnwagen unterwegs als Autos, die in anderen Ländern zugelassen sind. GERICHTETER T-TEST UNABHÄNGIGER STICHPROBEN Begründung: Der gerichtete t-test wird verwendet, da eine gerichtete Hypothese („mehr“) überprüft wird und es werden unabhängige Stichproben (keine 1:1-Passung; Fahrzeuge mit niederländischem Kennzeichen – Fahrzeuge mit anderen Kennzeichen) miteinander verglichen. d) Mit steigendem Lebensstandard sinkt der Anteil des Haushaltseinkommens, der für Lebensmittel ausgegeben wird. LINEARE REGRESSIONSANALYSE Begründung: Die Regressionsanalyse ist die passende Methode zur Hypothesenüberprüfung, da sie die Beeinflussung einer einzelnen unabhängigen Variable (Lebensstandard) auf die abhängige Variable (Anteil des Haushaltseinkommens) untersucht. ALTERNATIV KORRELATIONSANALYSE Begründung: Die Korrelationsanalyse misst die Stärke und die Richtung des Zusammenhangs zweier Variablen (Lebensstandard; Anteil Haushaltseinkommen). Spearmans Rangkorrelationskoeffizient ist in der Lage dies auch bei ordinal skalierten Variablen (Lebensstandard) vorzunehmen. Erläuterung statistische Verfahren Seite 19 von 34 Empirische Forschung im Berufsfeld WS 2024 | Lena Schubert Erläuterungen zu den Aufgaben Beispiele Reliabilität und Validität 1. Reliabilität (Zuverlässigkeit) 2. Validität (Gültigkeit) Reliabilität bedeutet, dass ein Test oder eine Validität bedeutet, dass ein Test oder eine Messung immer wieder das gleiche Ergebnis Messung das misst, was er wirklich messen soll. liefert, egal wie oft man sie wiederholt. Beispiel: Gewicht auf einer Waage Beispiel: Körpergröße mit einem Maßband messen Stell dir vor, du steigst dreimal hintereinander auf eine Waage und sie zeigt jedes Mal 70 kg an. Das Wenn du deine Körpergröße mit einem Maßband bedeutet, die Waage ist zuverlässig (reliabel), weil misst und es genau deine echte Größe anzeigt, sie immer das gleiche Ergebnis liefert. dann ist die Messung valide. Wenn du jedoch in Wahrheit 75 kg wiegst, ist die Wenn du aber deine Körpergröße stattdessen mit Waage zwar zuverlässig, aber nicht richtig – sie einer Küchenwaage misst, ist das Ergebnis zwar zeigt also ein falsches Ergebnis an. vielleicht jedes Mal gleich (reliabel), aber es misst nicht das Richtige – es ist also nicht valide. Wichtig: Eine Messung kann reliabel sein, Wichtig: Eine Messung ist nur dann wirklich auch wenn sie nicht richtig ist. gut, wenn sie sowohl reliabel und valide ist. Warum kann eine Messung reliabel, aber nicht valide sein? Das passiert, wenn ein Test immer die gleichen falschen Werte liefert. Beispiel: Kaputte Waage Stell dir vor, eine Waage zeigt immer genau 5 kg zu wenig an. Dann ist sie zuverlässig (reliabel), weil sie immer das gleiche falsche Ergebnis liefert, aber sie ist nicht valide, weil sie nicht das richtige Gewicht misst. Warum kann eine Messung nicht valide sein, ohne auch reliabel zu sein? Wenn eine Messung nicht reliabel ist, bedeutet das, dass sie bei jeder Wiederholung andere Ergebnisse liefert. Dann kann sie auch nicht valide sein, weil sie nicht einmal konsistent misst. Beispiel: Unzuverlässige Waage Stell dir vor, du steigst dreimal hintereinander auf eine Waage, und sie zeigt jedes Mal ein anderes Gewicht an: 65 kg, 72 kg, 68 kg. Dann ist sie nicht reliabel und kann deshalb auch nicht valide sein, weil sie kein stabiles Ergebnis liefert. Seite 20 von 34 Empirische Forschung im Berufsfeld WS 2024 | Lena Schubert Erläuterung Lagemaße und Streuungsmaße 1. Lagemaße – Wo liegt die „Mitte“ der Daten? Lagemaße beschreiben, wo sich die meisten Werte in einer Datenreihe befinden. Lagemaß Mittelwert Median Modus Was bedeutet das? Alle Zahlen Die mittlere Zahl, wenn Die Zahl, die am zusammenzählen und die Daten der Größe häufigsten vorkommt. durch die Anzahl teilen. nach sortiert sind. Beispiel Noten: (1, 2, 3, 3, 4) → Noten: (1, 2, 3, 3, 4) → Noten: (1, 2, 3, 3, 4) → Mittelwert: Median: 3 Modus: 3 (1+2+3+3+4)/5 = 2,6 2. Streuungsmaße – Wie weit sind die Werte verteilt? ➔ Streuungsmaße zeigen, wie unterschiedlich die Werte sind. Streuungsmaß Was bedeutet das? Abstand zwischen den mittleren 50% der Interquartilsabstand (IQR) Daten Standardabweichung (σ Zeigt, wie stark die Werte um den oder s) Mittelwert schwanken. ➔ Die Varianz wird nicht aufgelistet, da sie sich aus der Standardabweichung berechnen lässt und eine Antwort Herrn Zimmer ausreicht! ___________ ➔ Die Spannweite lässt sich immer bestimmen, ist aber__ nicht Teil des Skriptes und daher nicht prüfungsrelevant! Seite 21 von 34 Empirische Forschung im Berufsfeld WS 2024 | Lena Schubert 3. Wann benutze ich welches Maß? Lagemaß StreuMungsmaß Skalenniveau der Variable nominal Modus / ordinal Modus, Median Interquartilsabstand metrisch Ggf. Modus Interquartilsabstand Median, Mittelwert Standardabweichung Warum ggf. Modus? Der Modus macht nur Sinn bei einer überschaubaren Anzahl von Ergebnissen (Bsp.: Anzahl der Kinder in einer Familie, KFZ-Fahrzeuge pro Haushalt,…). Bei einer großen Anzahl der Ergebnisse (Bsp.: Alter in Tagen, Nettoeinkommen in Cent,…) hat der Modus keine große Aussagekraft. Seite 22 von 34 Empirische Forschung im Berufsfeld WS 2024 | Lena Schubert Erläuterung der Visualisierungen 1. Säulendiagramm (Balkendiagramm) ➡ Zeigt Unterschiede zwischen Kategorien (ordinale Daten). Wann nutzen? o Wenn man Kategorien miteinander vergleicht (z. B. Lieblingspizza, Geschlecht, Auto- Marken). o Wenn man Häufigkeiten oder Summen zeigen will. Beispiel: Ein Unternehmen will wissen, welche Pizza die beliebteste ist. (Abbildung bezieht sich nicht auf das o.g. Beispiel!) 2. Histogramm ➡ Zeigt die Verteilung von Zahlenwerten (metrische Daten). Wann nutzen? o Wenn man die Verteilung von Daten sehen will (z. B. Alter, Einkommen, Körpergröße). o Wenn man herausfinden will, ob Werte normalverteilt sind. Beispiel: Ein Fitnessstudio misst das Alter der Mitglieder und teilt es in Gruppen (Klassen): ➡ Ein Histogramm zeigt, dass die meisten Mitglieder zwischen 30-40 Jahre alt sind. Seite 23 von 34 Empirische Forschung im Berufsfeld WS 2024 | Lena Schubert (Abbildung bezieht sich nicht auf das o.g. Beispiel!) 3. Streudiagramm ➡ Zeigt den Zusammenhang zwischen zwei Zahlenwerten. Wann nutzen? o Wenn man die Verteilung, Streuung und Ausreißer sehen will. o Besonders nützlich, wenn man verschiedene Gruppen vergleichen will. Beispiel: Ein Unternehmen will wissen, ob mehr Erfahrung zu höherem Gehalt führt. (Abbildung bezieht sich nicht auf das o.g. Beispiel!) 4. Boxplot ➡ Zeigt die Verteilung und Streuung von Daten mit Ausreißern. Wann nutzen? o Wenn man die Verteilung, Streuung und Ausreißer sehen will. o Besonders nützlich, wenn man verschiedene Gruppen vergleichen will. Beispiel: Eine Schule vergleicht die Mathe-Noten in zwei Klassen. Seite 24 von 34 Empirische Forschung im Berufsfeld WS 2024 | Lena Schubert (Abbildung bezieht sich nicht auf das o.g. Beispiel!) Wann nehme ich welche Visualisierung? Diagrammtyp Wann nutzen? Beispiel Lieblingspizza nach Anzahl der Säulendiagramm Wenn man Kategorien vergleichen will Bestellungen Wenn man die Verteilung von Zahlenwerten Histogramm Altersverteilung im Fitnessstudio sehen will Wenn man prüfen will, ob zwei Werte Streudiagramm Erfahrung vs. Gehalt zusammenhängen Notenvergleich zwischen zwei Boxplot Wenn man Verteilung und Ausreißer zeigen will Klassen Seite 25 von 34 Empirische Forschung im Berufsfeld WS 2024 | Lena Schubert Erläuterung Hypothesen Nullhypothese vs. Alternativhypothese Eine Hypothese ist eine Aussage über die Realität, die getestet wird. Es gibt immer zwei Gegenspieler: Nullhypothese (H₀) → Behauptet, dass es keinen Effekt oder Unterschied gibt. Alternativhypothese (H₁) → Behauptet, dass es einen Effekt oder Unterschied gibt. Beispiel: Ein Medikament wird getestet: H₀ (Nullhypothese): „Das Medikament hat keinen Einfluss auf die Heilung.“ H₁ (Alternativhypothese): „Das Medikament hat einen Einfluss auf die Heilung.“ Egal was passiert, eine dieser beiden Hypothesen muss stimmen – sie decken alle Möglichkeiten ab. Gerichtete vs. ungerichtete Alternativhypothese Die Alternativhypothese (H₁) kann entweder gerichtet oder ungerichtet sein: 1. Ungerichtete Hypothese – Es gibt einen Unterschied, aber die Richtung ist egal H₀: „Das Medikament hat keinen Einfluss.“ H₁: „Das Medikament hat einen Einfluss.“ (Es kann besser oder schlechter wirken.) Hier interessiert uns nur, ob es überhaupt einen Unterschied gibt – egal in welche Richtung. 2. Gerichtete Hypothese – Die Richtung wird vorhergesagt H₀: „Das Medikament hat keinen Einfluss.“ H₁ (gerichtet positiv): „Das Medikament verbessert die Heilung.“ H₁ (gerichtet negativ): „Das Medikament verschlechtert die Heilung.“ Hier prüfen wir gezielt, ob das Medikament besser oder schlechter ist – nicht nur, ob es anders wirkt. Seite 26 von 34 Empirische Forschung im Berufsfeld WS 2024 | Lena Schubert Visualisierung: Wie sich die Hypothesen aufteilen Gibt es einen Effekt? │ ┌───────────────┴───────────────┐ │ │ **Nein (H₀)** **Ja (H₁)** │ │ │ ┌─────────┴─────────┐ │ │ │ "Kein Effekt" "Irgendein Effekt" "Effekt in best. Richtung" (ungerichtet) (gerichtet) Merke: 1. H₀ und H₁ decken immer alle Möglichkeiten ab. 2. Ungerichtete H₁ prüft nur, ob ein Unterschied existiert. 3. Gerichtete H₁ prüft zusätzlich, ob der Effekt in eine bestimmte Richtung geht. Seite 27 von 34 Empirische Forschung im Berufsfeld WS 2024 | Lena Schubert Erläuterung p-Value und Signifikanz 1. Der p-Wert – Wie wahrscheinlich ist der beobachtete Effekt unter H₀? Der p-Wert gibt an, wie wahrscheinlich es ist, dass das beobachtete Ergebnis (oder ein noch extremeres) rein zufällig entsteht, wenn die Nullhypothese (H₀) stimmt. Hoher p-Wert → Das Ergebnis kann leicht durch Zufall erklärt werden → H₀ wird nicht abgelehnt. Niedriger p-Wert → Das Ergebnis ist sehr unwahrscheinlich unter H₀ → H₀ wird abgelehnt. 2. Signifikanzniveau (α) – Die Grenze für „zufällig“ oder „echt“ Das Signifikanzniveau (α) ist eine festgelegte Grenze, ab wann ein p-Wert als „niedrig genug“ gilt, um die Nullhypothese abzulehnen. ➡ Typischer Wert: p-Wert = 0,05 (also 5 %) Das bedeutet: Wenn p-Wert < 0,05 → H₀ wird abgelehnt → statistisch signifikant Wenn p-Wert > 0,05 → H₀ bleibt bestehen → kein signifikanter Effekt Es gibt verschiedene Signifikanzniveaus: Eine Erhöhung des Signifikanzniveaus führt zu einem geringeren α-Wert- also einem niedrigeren p-Value Wert! Die Wahrscheinlichkeit den Fehler 1. Art zu machen wird geringer! Seite 28 von 34 Empirische Forschung im Berufsfeld WS 2024 | Lena Schubert Signifikanz in R Wo finde ich den p-Wert? Je nach Testart erscheint der p-Wert in unterschiedlichen Tabellen: Regression (lm-Funktion) → In der Spalte „Pr(>|t|)“ bei den Koeffizienten und am Ende für den gesamten F-Test. ANOVA (aov-Funktion) → In der Spalte „Pr(>F)“ für die einzelnen Faktoren. t-Test (t.test-Funktion) → Direkt als „p-value“ am Ende der Ausgabe. Wann ist ein Ergebnis signifikant? Ein Wert gilt als signifikant, wenn der p-Wert kleiner als das Signifikanzniveau α (meist 0,05) ist: p-Wert Signifikanzbewertung p < 0.001 Hoch signifikant (***). p < 0.01 Sehr signifikant (**). p < 0.05 Signifikant (*). p < 0,1 schwach signifiant p > 0,1 nicht signifikant ___________________________________ p ≥ 0.05 Nicht signifikant (kein Stern). Guckt einfach auf die Sternchen (*, , *), um schnell zu sehen, ob ein Wert signifikant ist. Seite 29 von 34 Empirische Forschung im Berufsfeld WS 2024 | Lena Schubert Erläuterung statistische Verfahren 1. Skalenniveaus – Grundbausteine für die richtige Testwahl Skalenniveau Was bedeutet das? Beispiel Augenfarbe (blau, braun, grün), Geschlecht Nominalskala Kategorien ohne Reihenfolge (m/w/d), Lieblingspizza (Margherita, Salami) Kategorien mit Reihenfolge, aber Schulnoten (1, 2, 3,...), Zufriedenheit (niedrig, Ordinalskala keine genauen Abstände mittel, hoch) Metrische Zahlen mit festen Abständen (man Körpergröße in cm, Einkommen in €, Temperatur in Skala kann damit rechnen) °C 2. Überblick über die wichtigsten Tests Test Wann benutze ich ihn? Beispiel T-Test (einseitig/zweiseitig, Vergleicht Durchschnittswerte Ist die Körpergröße von Männern unabhängig/gepaart) zweier Gruppen und Frauen unterschiedlich? Gibt es einen Zusammenhang Vergleicht Häufigkeiten in Chi-Quadrat-Test zwischen Lieblingspizza und Kategorien Geschlecht? Vergleicht mehr als zwei Unterscheidet sich die Zufriedenheit ANOVA (Varianzanalyse) Gruppen zwischen drei Berufsgruppen? Untersucht den Zusammenhang Hängt das Gehalt von der Regression (linear/multiple) zwischen Zahlenwerten Berufserfahrung ab? Prüft, wie stark zwei Variablen Korrelationsanalyse Steigt die Größe mit dem Alter? zusammenhängen Seite 30 von 34 Empirische Forschung im Berufsfeld WS 2024 | Lena Schubert 3. Die Tests einfach erklärt mit Beispielen I. T-Test Vergleicht den Mittelwert von zwei Gruppen Einseitiger T-Test: Prüft, ob eine Gruppe Zweiseitiger T-Test: Prüft, ob es einen größer/kleiner ist als die andere (z. B. Männer Unterschied gibt (z. B. Männer vs. Frauen in größer als Frauen). Körpergröße). Unabhängiger T-Test: Wenn die Gruppen Gepaarter T-Test: Wenn dieselben Personen verschieden sind (z. B. Männer vs. Frauen). zweimal getestet werden (z. B. vor und nach einer Diät). Beispiel: Hat eine neue Lernmethode einen Effekt? Schüler schreiben vor und nach einer Schulung einen Test → gepaarter T-Test einer gepaarten Stichprobe. zweiseitiger II. Chi-Quadrat-Test Vergleicht Häufigkeiten in Kategorien (nominale Daten). Prüft, ob zwei Dinge zusammenhängen. Beispiel: Gibt es einen Zusammenhang zwischen Geschlecht und Lieblingspizza? Wenn von 100 Leuten 40 Männer und 60 Frauen eine Pizza wählen, prüft der Chi-Quadrat-Test, ob das nur Zufall ist. ANOVA (Varianzanalyse) Vergleicht mehr als zwei Gruppen. Sagt, ob sich Gruppen unterscheiden, aber nicht genau, welche. Beispiel: Hat der Beruf Einfluss auf das Einkommen? Vergleich von Gehältern in drei Berufsgruppen (Lehrer, Ärzte, Handwerker). Ergebnis: Falls es Unterschiede gibt, macht man weitere Tests, um herauszufinden, welche Gruppen sich unterscheiden. Regression (Lineare & Multiple Regression) Lineare Regression: Prüft, ob eine Zahl eine andere vorhersagen kann (z. B. Gehalt steigt mit Berufserfahrung). Multiple Regression: Prüft, ob mehrere Faktoren zusammen eine Zahl beeinflussen (z. B. Gehalt hängt von Erfahrung, Ausbildung und Alter ab). Beispiel: Kann man das Einkommen anhand der Berufserfahrung vorhersagen? Lineare Regression testet, ob mehr Berufserfahrung zu einem höheren Gehalt führt. Seite 31 von 34 Empirische Forschung im Berufsfeld WS 2024 | Lena Schubert Korrelationsanalyse Zeigt, wie stark zwei Zahlen zusammenhängen. Wichtig: Korrelation heißt nicht Ursache! (Nur weil mehr Eis im Sommer verkauft wird und mehr Leute ertrinken, heißt das nicht, dass Eis Essen gefährlich ist! ) Beispiel: Gibt es einen Zusammenhang zwischen Größe und Schuhgröße? Eine Korrelation zeigt, ob größere Menschen größere Füße haben. 4. Wann nehme ich welchen Test? (Ablaufschema) Hier ein einfaches Schema, um den passenden Test auszuwählen: 1. Habe ich zwei Gruppen und will den Mittelwert vergleichen? ➡ Ja: → T-Test Sind es dieselben Personen? → Gepaarter T-Test Sind es verschiedene Gruppen? → Unabhängiger T-Test 2. Vergleiche ich mehr als zwei Gruppen? ➡ Ja: → ANOVA 3. Habe ich zwei Zahlen und will wissen, ob sie zusammenhängen? ➡ Ja: → Korrelationsanalyse oder Regression Nur Zusammenhang? → Korrelation Will ich eine Zahl vorhersagen? → Regression 4. Habe ich Kategorien (mindestens ein ordinaler Wert) und will wissen, ob sie zusammenhängen? ➡ Ja: → Chi-Quadrat-Test Seite 32 von 34 Empirische Forschung im Berufsfeld WS 2024 | Lena Schubert Erläuterung der Güte eines Modells und r² Wenn wir ein statistisches Modell (z. B. eine Regression) erstellen, wollen wir wissen, wie gut es die Daten erklärt. Angeben tut dies R² (Bestimmtheitsmaß). R² gibt an, wie viel Prozent der Variation in den Daten durch das Modell erklärt werden kann. R² = 0 → Das Modell erklärt gar nichts. R² = 1 → Das Modell erklärt alles perfekt (unrealistisch in der Praxis). Beispiel: Ein Modell sagt das Einkommen basierend auf der Berufserfahrung vorher: R² = 0.75 → Das Modell erklärt 75 % der Einkommensunterschiede. R² = 0.20 → Das Modell erklärt nur 20 %, der Rest bleibt unklar. Je höher R², desto besser erklärt das Modell die Daten. Ob wir mit „Multiple R²“ oder „Adjusted R²“ arbeiten, ist Herrn Zimmer egal, auch wenn sich die Werte geringfügig unterscheiden (Adjusted R² wird immer gleich oder niedriger sein)! Sollte jemand in seiner Bachelorarbeit statistisch arbeiten, lieber Adjustet R² nehmen Seite 33 von 34 Empirische Forschung im Berufsfeld WS 2024 | Lena Schubert Erläuterung der Regressionsgleichung ZU ERKLÄRENDE GRÖßE = INTERCEPT + STEIGUNG X VARIABLE1 + STEIGUNG X VARIABLE2 + STEIGUNG X VARIABLE3 + … ZU ERKLÄRENDE GRÖßE = INTERCEPT + STEIGUNG1 X VARIABLE1 + STEIGUNG2 X VARIABLE2 + STEIGUNG3 X VARIABLE3 + … EF21 = 75154,83 -37,60 X EF12U2 + 69,02 X EF18 – 3,52 X B_EF13 Seite 34 von 34

Use Quizgecko on...
Browser
Browser