Zusammenfassung QM PDF
Document Details
Uploaded by OpulentAntigorite9813
Universität St. Gallen (HSG)
Tags
Summary
This document provides a summary of concepts in quality management, covering descriptive and inferential statistics, sampling methods, and measurement scales. The document touches on topics such as operationalization, coding, and different types of variables, which are key elements of qualitative and quantitative data analysis.
Full Transcript
Vorlesung 1 - Grundlegende konzepte, stichproben und messung Grundlegende Konzepte Beschreibende Statistik (deskriptive Statistik) ◦Analyse von Daten für eine bestimmte Stichprobe aus einer Population, die der Beschreibung der Daten dient (z.B. Diagramm) Schliessende Statistik (Infere...
Vorlesung 1 - Grundlegende konzepte, stichproben und messung Grundlegende Konzepte Beschreibende Statistik (deskriptive Statistik) ◦Analyse von Daten für eine bestimmte Stichprobe aus einer Population, die der Beschreibung der Daten dient (z.B. Diagramm) Schliessende Statistik (Inferenzstatistik) ◦Analyse von Daten für eine bestimmte Stichprobe, um Rückschlüsse über die Markmale einer Population zu ziehen (z.B. Aussagen machen) Statistik ◦numerische Zusammenfassung einer Stichprobe Parameter ◦numerische Zusammenfassung einer Population - meist jedoch unbekannt, weil zu gross Messung Operationalisierung ◦Operalisationierung von Konzepten in messbare Grössen (z.B. kategoriale Variablen) Codierung ◦Codierung ist das Zuschreiben von messbaren Grössen (z.B. Codes 0 und 1) Messskalen ◦Messskalen von Variablen beschreiben die Ausprägungen einer Variable (d.h., die Werte, die eine Variable annehmen kann) Messskalen für Variablen ◦Quantitative Variablen ‣ Die möglichen Werte der Variable bestehen aus aussagekräfitgen numerischen Werten, die sich in der Grösse unterscheiden (z.B. Alter) ◦Kategoriale Variablen ‣ Die möglichen Werte der Variable bestehen aus Kategorien. Können auch numerisch dargestellt werden, aber keine numerische Interpretation (z.B. Familienstand - 1. ledig …) ◦Kontinuierliche Variablen ‣ Werte aus unendlich vielen reellen Zahlen in einem Kontinuum ◦Diskrete Variablen ‣ Mögliche Werte sind separate Zahlen (z.B. 0,1,2, und 3) ◦Skalenniveaus ‣ Nominalskalierte Variablen Ungeordnete Kategorien, entweder gleich oder ungleich zu anderen Werten (z.B. Familienstand) ‣ Ordinalskalierte Variablen Geordnete Kategorien, wo man sagen kann ob sie grösser/kleiner als andere Werte sind, aber keine Definition der Abstände zwischen den Werten (z.B. religiöse Aktivität) ‣ Intervallskalierte Variablen Geordnete Kategorien mit klar definierten numerischen Abstände zwischen den Werten (z.B. Zeitaufwand) ‣ Je höher das Skalenniveau der Variable, desto mehr Informationen enthält die Variable Stichprobenziehung Zufallsstichproben sind besser, weil sie die entsprechende Population gut repräsentieren Stichprobenfehler (Standardfehler) ◦Differenz zwischen den Stichprobenwerten einer Statistik (z.B. Mittelwert) und dem Populationsparameter (z.B. Mittelwert der Population) -> oft unbekannt, weil Parameter der Population nicht bekannt sind Biases (Verzerrungen) ◦Stichprobenbias: ‣ Selektion: Bei Nicht-Zufallsstichproben haben einige Fälle in der Population eine höhere Wahrscheinlichkeit in die Stichprobe selektiert zu werden ‣ Untererfassung: Einige Fälle können gar nicht erreicht werden (z.B. Junge in Festnetzumfragen) ◦Antwortbias: Befragte Personen geben ihre wahren Präferenzen nicht preis (z.B. bei schlechter Formulierung oder wenn bestimmte Antworten sozial erwünschter scheinen) ◦Bias durch Nichtbeantwortung: Befragte weigern sich teilzunehmen oder bestimmte Fragen in der Umfrage zu beantworten (z.B. wenn Fragen heikel sind). Bias, wenn Nichtbeantwortung systematisch ist und somit nur bestimmte Fälle in der Stichprobe vorkommen. Vorlesung 2 - Deskriptive Statistik Absolute und relative Häufigkeiten Absolute Häufigkeiten ◦Kategoriale Variable ‣ Anzahl der Beobachtungen für jede Kategorie der Variable (z.B. Wahlergebnisse) ◦Quantitative Variable ‣ Anzahl der Beobachtungen, welche innerhalb der Grenzen der verschiedenen Intervalle der Variable liegen (z.B. HDI-Intervalle) ‣ Wenn wir zu wenige Intervalle verwenden, geht eine menge Information verloren. Wenn wir jedoch zu viele Intervalle verwenden, ist die Information schwer zugänglich. Relative Häufigkeiten ◦Ist die absolute Häufigkeit einer Ausprägung oder eines Intervalls von Ausprägungen im Verhältnis zur Gesamtzahl der Beobachtungen für die Variable. ◦Berechnung: absolute Anzahl der Beobachtungen in einer Kategorie durch die Gesamtzahl der Beobachtungen in den Daten. Ausgedrückt als Anteil oder % Diagramme von Häufigkeitsverteilungen ◦Balkendiagramm ◦Histogramm ◦Spaghetti Diagramm Die Form einer Häufigkeitsverteilung ◦Symmetrie: glockenförmig und u-förmig sind symmetrisch ◦Schiefe: rechtsschief (z.B. BIP pro Kopf) oder linksschief (z.B. HDI) Lagemasse bzw. Masse der zentralen Tendenz Mittelwert (Durchschnitt oder Mittel) ◦Notierung: x mit Strich obendrauf ◦nur für quantitative Variablen (wäre sonst unsinnig bei z.B. Nationalität) ◦Berechnung: Formelblatt (1. Formel) ◦Einfluss von Ausreissern: Wird in Richtung möglicher Ausreisser-Beobachtungen verzerrt Median ◦Wert, der in der Mitte der Stichprobe liegt, wenn die Werte sortiert werden ◦Berechnung: sortieren und identifizieren ◦nur für ordinal- oder intervallskalierte Variablen (erfordert georndete Beobachtungen) ◦Einfluss von Ausreissern: stabil trotz Ausreissern ◦Problem: sehr unterschiedliche Daten können denselben Median haben Schiefe einer Verteilung ◦Median > Mittelwert: linksschiefe Verteilung ◦Median < Mittelwert: rechtsschiefe Verteilung Modus (Modalwert) ◦Gibt den Wert einer Variablen an, der am häufigsten beobachtet wird und beschreibt somit auch das Zentrum der Häufigkeitsverteilung einer Variablen. ◦Berechnung: absolute Häufigkeitsverteilung ◦für alle Skalennniveaus und für quantitative und kategoriale Variablen Vergleich von Lagemassen ◦Je nach Variable beurteilen welches Mass angemessen ist ◦bei symmetrischen Verteilungen: Mittelwert = Modus = Median Streuung Streuungsmasse ◦Spannweite ‣ Differenz zwischen dem grössten und dem kleinsten Wert einer Variablen ‣ Berechnung: grösster Wert - kleinster Wert ◦Abweichungen: ‣ Variable von einem Mass für das Zentrum der Beobachtungswerte der Variable ‣ Die Abweichungen der Beobachtungen vom Mittelwert ist die Differenz zwischen ihnen ‣ Jede Beobachtung in einer Stichprobe hat eine Abweichung vom Stichprobenmittelwert ‣ Die Summe der Abweichungen um den Mittelwert in einer Stichprobe ist 0 ‣ Varianz Berechnung: Formelblatt (2. Formel ohne Wurzel) Problem: wegen quadrierten Abweichungen schwierig zu interpretieren, weil sie nicht auf der gleichen Skala liegt wie die Variable ‣ Standardabweichung Berechnung: Formelblatt (2. Formel) Gleiche Skala wie die Variable und deswegen einfacher zu interpretieren. Je grösser die Standardabweichung ist, desto mehr streuen die Daten um den Mittelwert. Vorlesung 3 - wahrscheinlichkeit Wahrscheinlichkeit Zufallsexperiment ◦Bezeichnet eine Handlung oder Situation, die (theoretisch) unter gleichen Bedingungen beliebig oft wiederholbar ist, deren Resultat genau eines von mehreren möglichen Ereignissen ist, deren Resulat vor dem Auftreten eines Ereignisses unbekannt ist. ◦Wenn die Anzahl der Wiederholungen des Zufallsexperiments über alle Grenzen (ins Unendliche) wächst, dann ist die Wahrscheinlichkeit eines Ereignisses gleich dem Grenzwert der relativen Häufigkeit des Ereignisses. Wahrscheinlichkeitsverteilungen Wahrscheinlichkeitsverteilungen (WV) ◦Geben die Verteilung von (Auftretens-)Wahrscheinlichkeiten aller möglichen Werte (bzw. Ausprägungen) einer Zufallsvariable an. ◦Auftretenswahrscheinlichkeit: P(X=j) ◦kumulierte Wahrscheinlichkeit: P(X≤j) Arten von WV‘s (für kontinuierliche Zufallsvariablen): ◦Normalverteilung ◦t-Verteilung ◦Diese zwei beschreiben die Wahrscheinlichkeitsdichte von kontinuierlichen Zufallsvariablen ◦Die WV von einer diskreten Zufallsvariable nähert sich bei steigendem n auch der Normalverteilung an. WV‘s für kontinuierliche Zufallsvariablen: ◦Wahrscheinlichkeit für Intervalle ◦Approximieren durch Histogramme ◦Wahrscheinlichkeitsdichtefunktion ◦Von Dichte zu Wahrscheinlichkeit ‣ Mithilfe der Integralrechnung für jedes beliebige Intervall die Fläche unterhalb der Wahrscheinlichkeitsdichtefunktionskurve bestimmen ‣ Die gesamte Fläche unter der Kurve ist gleich 1. Die Wahrscheinlichkeit eines beliebigen Wertes einer kontinuierlichen Variable ist 100%, es gibt also vollständige Sicherheit, dass die Variable irgendeinen Wert annimmt. Parameter von WV‘s ◦Jede WV von Zufallsvariablen hat auch Parameter, die ihr Zentrum und ihre Streuung beschreiben. Diese werden Erwartungswert und Varianz genannt. ◦Notierung Erwartungswert: µ ◦Notierung Varianz: σ(hoch 2) -> Standardabweichung: σ Verteilung in der Population ◦Beschreibt die empirisch prinzipiell beobachtbaren Häufigkeiten der verschiedenen Werte dieser Variablen unter allen Beobachtungen in der Population. Verteilung in der Stichprobe ◦Beschreibt die empirisch beobachtbaren Häufigkeiten der verschiedenen Werte dieser Variablen unter allen Beobachtungen in der Stichprobe. ◦Die Häufigkeitsverteilung dieser Zufallsvariable nähert sich der ihr zugrundeliegenden WV an, wenn die Anzahl der Zufallsstichproben wächst. Normalverteilung WV von einer kontinuierlichen Zufallsvariablen, welche Werte zwischen -∞ und +∞ annehmen kann graphisch: glockenförmige, symmetrische Kurve Parameter: Erwartungswert bzw. Mittelwert (µ) und Standardabweichung (σ) Verteilung der Werte (das gilt immer!): ◦Wahrscheinlichkeit 99%: innerhalb von 2.57 (ca. 2.5) Standardabweichungen ◦Wahrscheinlichkeit 95%: innerhalb von 1.96 (ca. 2) Standardabweichungen ◦Wahrscheinlichkeit 90%: innerhalb von 1.64 (ca. 1.5) Standardabweichungen z-Transformation und Standardnormalverteilung ◦Jede beliebige normalverteilte Variable X kann in eine standardnormalverteilte Variable Z mit Hilfe der Standardisierung (z-Transformation) gennant transformiert werden. ◦Berechnung: ◦Die Werte sind sogenannte z-Werte. ◦Es gilt, dass bei einer Standardnormalverteilung der Mittelwert 0 und die Standardabweichung 1 ist. Wichtigkeit von z-Transformation ◦Wichtig für den Vergleich von zwei unterschiedlichen Variablen, die aber das Selbe messen ◦Wichtig, um die Wahrscheinlichkeit zu ermitteln, dass ein bestimmter Wert bei einer Variable auftritt. Quantilwerte zα und Quantilwahrscheinlichkeit α -> Tabelle in Formelsammlung ◦Die Wahrscheinlichkeit von Quantilwert kleiner oder gleich zα ist die dazugehörige Quantilwahrscheinlichkeit α. Die Wahrscheinlichkeit von Quantilwert grösser zα ist 1 minus diese Quantilwahrscheinlichkeit α. Die t-Verteilung Im Gegensatz zur Normalverteilung sind hier die Werte um den Erwartungswert etwas breiter gestreut. Relevant für Inferenzen von Stichprobenmittelwerten auf Populationsmittelwerte, wenn die zur Berechnung herangezogene Stichprobe einen Umfang von n≤30 und/oder die Populationsvarianz der Variable, für die der Mittelwert gesucht wird, nicht bekannt ist. Parameter sind nur durch den Stichprobenumfang n bzw. Freiheitsgrade (n-1) bestimmt -> Tabelle in Formelsammlung Bei steigendem n, wird die Streuung der t-Verteilung kleiner und nähert sich immer mehr der Normalverteilung an. Vorlesung 4 - punkt- und intervallschätzungen Stichprobenkennwerteverteilung Stichprobenkennwerteverteilung (SKW) ◦WV, welche die Wahrscheinlichkeiten für mögliche Werte für Stichprobenstatistiken bzw. Stichprobenkennwerte (z.B. Anteilen oder Mittelwerten) anzeigt, wenn diese Stichprobenstatistiken aus verschiedenen (aber gleich grossen) Stichproben aus ein und derselben Population errechnet werden. Wir können mit Hilfe einer Stichprobenkennwerteverteilung beurteilen, wie stark die Stichprobenstatistiken variieren. ◦Nur wenn die Anzahl der Stichproben ins Unendliche steigt, erhalten wir die wahre Kennwerteverteilung. Parameter: ◦Zentrum der Verteilung bei Stichprobenmittelwerten: Populationsmittelwert ◦Zentrum der Verteilung bei Stichprobenmittelanteilen: Populationsanteil ◦Streuung: Standardfehler ‣ Zeigt an, wie weit die mal grösseren und mal kleineren Stichprobenstatistiken voneiander abweichen. Mass, wie fehlerhaft jede einzelne Stichprobe in Bezug auf den Erwartungswert ist. Nicht verwechseln!: Standardabweichung: Streuung von Werten innerhalb einer einzelnen Stichprobe Standardfehler: Standardabweichung der Stichprobenstatistiken Berechnung: ◦Standardfehler von Stichprobenmittelwerte (y mit Strich oben): Formelsammlung (4. Formel) ◦Standardfehler für Stichprobenanteile (p bzw. π): Formelsammlung (6. Formel) ◦Stichprobengrösse: grössere Stichproben liefern präzisere Schätzungen der Parameter der Population ◦Populationsstreuung: je grösser die Streuung der Werte der Variable in der Population, desto grösser die Streuung der Kennwerteverteilung der sichprobenbasierten Statistik für die Variable Zentraler Grenzwertsatz Zentraler Grenzwertsatz ◦Besagt, dass bei einer Zufallsstichprobe mit einem grossen Stichprobenumfang n die SKV der Stichprobenmittelwerte und der Stichprobenanteile einer Normalverteilung entspricht. Somit kennen wir die Streuung der Verteilung. Stichprobenmittelwerte: Normalverteilung bei n > 30 Stichprobenanteile: Normalverteilung bei n > 60 und Spezialfälle: ◦kleine normalverteilte Stichprobe mit n < 30 und n > 3: t-Verteilung ◦nicht normalverteilter Stichprobenumfang n > 15: t-Verteilung ◦Intervall-Schätzung: auch bei n > 30 t-Verteilung Punktschätzung Punktschätzung ◦Bezieht sich auf das Finden einer einzelnen Zahl, die die beste Schätzung für einen Parameter in der Population darstellt (z.B. Punktschätzung von 36%) ◦Stichprobenstatistiken werden auch als Schätzer bezeichnet. ◦Schätzungen von Parametern werden mit dem Symbol ^ (Caret) bezeichnet ‣ Stichprobenmittelwert (y mit Strich oben): Punktschätzung Populationsmittelwert µ^ ‣ Stichprobenanteil (p): Punktschätzung Populationsanteil π^ ‣ Stichprobenstandardabweichung (s): Punktschätzung Populationsstandardabweichung σˆ Erwartungstreue und Effizienz ◦Erwartungstreue: Die SKV des Schätzers ist um den Populationsparameter herum zentriert (z.B. Mittelwert) ◦Effizienz: Die SKV des Schätzers hat einen möglichst kleinen Standardfehler also liegt im Durchschnitt näher am Populationsparameter als alternative Schätzer (z.B. bei normalverteilter Population eher Mittelwert statt Median) Intervallschätzung Konfidenzintervall (KI) ◦Ein KI für einen Parameter ist ein Intervall von Zahlen, welches den Populationsparameter mit einer bestimmten hohen Wahrscheinlichkeit überdeckt. Intervallschätzung mithilfe des zentralen Grenzwertsatzes ◦Berechnung: CI = Punktschätzung ± Fehlerbereich (z.B. 95%-KI = Punktschätzung ± 1.96 * Standardfehler) ◦Das KI wird kleiner, je näher mögliche Stichprobenanteile beieinander liegen, d.h. je kleiner der Standardfehler ist. KI für Anteile ◦Berechnung: Formelblatt (6. Formel) -> KI für Mittelwerte ◦Berechnung: Formelblatt (4. Formel) -> Grösse des KI ◦99%-KI = Punktschätzung ± 2.57 * Standardfehler ◦95%-KI = Punktschätzung ± 1.96 * Standardfehler ◦90%-KI = Punktschätzung ± 1.64 * Standardfehler Berechnung: Fehlerwahrscheinlichkeit α = 1- Konfidenzniveau (z.B. α = 5% bei 95% KI)