Lecture Notes - Statistical Inference - PDF
Document Details
Tags
Summary
These lecture notes cover statistical concepts focused on inference, such as normal distribution, T-distribution, and others. They include graphs and exercises.
Full Transcript
기초통계학1 n x1 + x2 + · · · + xn 1X x̄ = = xi n n i=1...
기초통계학1 n x1 + x2 + · · · + xn 1X x̄ = = xi n n i=1 박 범 희 아주대학교 의과대학 의료정보학교실 아주대의료원 의학연구협력센터 의학통계실 [email protected] It is not permitted for you to post recordings of class lectures and course materials online or to distribute them to other people ⦸ unless you have permission from your instructor to do so. (본 강의자료의 무단 복제 및 배포를 금합니다.) 통계학이란 무엇인가? 주어진 문제에 대하여 합리적인 답을 줄 수 있도록 숫자로 표시되는 정보(data)를 수집하고 정리하며, 이를 해석하고 신뢰성 있는 결론을 이끌어 내는 방법을 연구하는 과학의 한 분야 - 통계학: statistics の - 통계학자: statistician - 통계량, 통계치: statistic 통계학의 구성 - 자료의 수집 - 자료의 기술 및 표현 - 자료로부터 결론의 도출 (의사결정) 2 의학/의생명 자료 연구를 위한 통계학 量メ Q 측정치의 정확도에 대한 판단과 측정방법의 비교 특정 질병의 진단검사의 개발 및 그 진단검사의 효능성 평가 정상치에 대한 평가 환자를 치료한 후에 치료 효과에 관한 분석 의료보험 청구 심사에 관한 통계학적 분석 심장질환자의 유병율, 발생율 조사 및 원인에 관한 통계학적 분석 간호서비스에 대한 환자 만족도 조사 및 제반 변수와의 관계 분석 3 통계적 추론 적절한 연구설계를 통해 최대한 닮게 모집단의 특성을 탐색적 데이터 분석(EDA)을 나타내는 값 표본 통해 모집단의 특성을 알아냄 (모집단의 특성을 수치로 나타낸 것) 통계량 (estimator) 목표 모집단 - 모수의 추정량 통계적 추론: 모집단의 어떤 분포를 따르는가? 모수 (parameter) 특성에 대한 의사결정 잘 알려진 분포라면 이를 통해 모집단의 - 평균, 분산, 신뢰구간, 관계성, 유의미한 패턴 특성을 추론하는데 그 분포의 성질을 이용할 수 있음 히스토그램 샘플링 모집단 표본 N n x1 + x2 + · · · + xN 1 X x1 + x2 + · · · + xn 1X -∞ µ= +∞ = -∞ xi x̄ = 계급구간 +∞ = xi N N i=1 n n i=1 へ N µ n x1 + x2 + · · · + xN 1 X 추론? x1 + x2 + · · · + xn 1X 모(집단의)평균 µ= = xi x̄ = = xi 표본평균 N N i=1 n n i=1 (참값) ‘뮤’ 라고 읽음 x bar 라고 읽음 (참값의 추정량) 4 통계적 추론 - 우리의 목표 台大古 tesuvida スレ 통계적 추론(statistical inference) - 추출된 표본에 내포된 정보를 분석하여 모집단의 여러가지 특성에 대하여 합리적이고 과학적인 결론을 내리는 일련의 과정 - 추정, 가설검정 모수(parameter) - 모집단(population)의 특성을 나타내는 값 (모집단의 특성을 수치로 나타낸 것) - (예) 모평균, 모분산, 모비율 우리의 관심: 미지의 어떤 값에 대한 예상 또는 확인되지 않은 사항의 검증 - 모수의 추정 또는 검정 5 탐색적 데이터 분석? 모집단의 특성을 알아내려면, 탐색적 데이터 분석을 진행해야 하는데⋯ - 중심위치에 대한 측도 - 산포정도의 측도 분포는 어떻게 되는가? 혹시 이상한 값은 없는가? 히스토그램 x1 + x2 + · · ·+∞+ xn 1 -∞ x̄ = 계급구간 = n n 6 기술통계학 자료에 내포된 정보를 보다 쉽고 빠르게 파악할 수 있도록 도표나 그래프의 형태로 정리, 요약하는 통계학 이를 통해 자료의 대략적인 분포 형태 및 특성을 파악할 수 있음 수치를 통하여 요약할 수도 있고, 그래프를 통하여 요약할 수도 있음 양적 자료와 질적자료에 따라 요약 방법이 다름 7 자료의 형태 질적 자료 : 자료를 정리 (표나 그래프 등) - 실수가 아닌 몇 개의 범주 중의 하나로 분류되는 자료 - 명목척도 : 성별(남,여), 혈액형(A, B, AB, O형) - 순서척도 : 순위(1위, 2위, 3위) しき 양적 자료 : 자료를 요약 (평균 및 히스토그램 등) - 숫자로 표현되는 자료 - 이산형자료 : Tumor 의 갯수와 같은 정수로 표현하는 자료 - 연속형자료 : BPS, Tumor Size와 같이 실수로 표현하는 자료 ‣ 구간척도 : 온도(숫자 0에 의미가 없다) ‣ 비율척도 : 키, 몸무게, 길이(숫자 0에 의미가 있다) 자료의 형태에 따라 요약과 분석의 방법이 다르다. 8 질적자료의 도표화 도수 (frequency) : 몇 개의 가능한 범주(category) 중의 하나에 속하게 되는 관측값의 개수 상대도수 (relative frequency) : 도수를 전체 자료의 개수로 나눈 비율 ← hormalization 특정범주에 속하는 자료의 개수 특정범주의 상대도수 = 전체 자료의 개수 [예] 통계학 강좌 수강생 100명 중 45명이 남학생이라고 할때, 남학생에 대한 도수는 45이고, 남학생의 상대도수는 45/100=0.45임 9 용어: 변수 (variable) 성별, 찬반의견, 혈액형, 수명, 성적 등과 같이 한가지 이상의 자료값을 가질 수 있는 것 성별과 같이 질적 자료값을 가지는 변수는 질적변수(qualitative variable)이라고 함 키, 콜레스테롤 수치처럼 양적 자료 값을 가지는 변수를 양적변수(quantitative variable)이라고 함 양적변수는 연속형변수(continuous variable)와 이산형변수(discrete variable)로 구분 확률변수 (random variable) - 표본공간 내의 각 사건들에 대해 실수값을 대응시키는 함수 - 즉, 간단하게 표현하면 확률변수는 사건(event)들을 수치로 표현 10 (양적 자료의) 중심위치에 대한 측도 자료의 중심(central location)을 하나의 수치로 표현 (평균, 중앙값, 최빈값 등⋯) 평균 (Mean, Average) “ 乾 CH 号 スト 新台 관측한 자료 : 모집단으로 부터 뽑은 n개의 값 x1 , x2 ,... , xn 표본평균 (sample mean) Xn x1 + x2 + · · · + xn 1 x̄ = = xi n n i=1 관측한 자료 : 모집단 전체 N 개의 값 x1 , x2 ,... , xN 모평균 (population mean) XN x1 + x2 + · · · + xN 1 µ= = xi N N i=1 12 평균 (Mean, Average) - 계속 [예제] 다음은 San Diego의 한 병원에서 일주일간 새로 태어난 신생아들의 출생 체중 표본들이다. 출생 체중의 표본 평균을 구하여라. i xi i xi i xi i xi 1 3265 6 3323 11 2581 16 2759 2 3260 7 3649 12 2841 17 3248 3 3245 8 3200 13 3609 18 3314 4 3484 9 3031 14 2838 19 3101 5 4146 10 2069 15 3541 20 2834 What is the arithmetic mean for the sample of birthweights in Table 2.1? [풀이] x (3265 3260 2834) 20 3166.9 g The arithmetic mean is, in general, a very natural measure of location. O of its main limitations, however, is that it is oversensitive to extreme values. 13 this instance, it may not be representative of the location of the great majori 평균의 해석 및 성질 편차 (deviation) : 관측값과 평균과의 차이, - 편차들의 합은 항상 0. 즉, 평균은 자료값들의 무게중심 계산과 해석이 간편하며 수학적으로 다루기 쉬움 극단값(extreme value) 또는 이상치(outlier)에 심각하게 영향을 받음 자료 x1, x2,... , xn 에 대하여, 각각 다음과 같이 rescaling과 shifting을 하고 평균을 구하는 것과 평균을 구하고 rescaling과 shifting을 하는 것은 같다. yi = c1xi + c2 이면 ȳ = c1x̄ + c2 i = 1,2,...,n 14 중앙값 (median) 자료를 크기 순으로 나열할 때, 가운데에 위치하는 값 주어진 관측치를 라고 할때, 이들을 크기 순(올림차순)으로 배열한 자료를 라 하면 극단값 또는 이상치에 덜 민감함 치우침(skewness)의 정도가 심한 자료의 경우에 유용 15 중앙값 (median) - 계속 [예제] 앞의 평균을 구한 예제 자료를 이용하여 출생 체중의 표본 중앙값을 구하여라. [풀이] (1) 먼저 순서대로 나열한다 2069, 2581, 2759, 2834, 2838, 2841, 3031, 3101, 3200, 3245, 3248, 3260, 3265, 3314, 3323, 3484, 3541, 3609, 3649, 4146 (2) n=20 (짝수)이므로, Sample Median = 10번째와 11번째 관측값의 평균 = (3245 + 3248)/2 = 3246.5 g 16 평균과 중앙값 ななめって幸 シロ Number of factory workers symmetric Number of factory workers Number of women Positively skewed distributions, ー Number of women the mean > the median Negatively skewed distributions, the mean < the median. 0 90 100 110 120 130 140 150 160 0 1 2 3 4 5 6 0 90 100 110 120 130 140 150 160 0 1 Systolic blood pressure 2 3 4 5 6 7 8 9 10 Years of OC Systolic blood(a) pressure Years of OC(b)use (a) (b) positively skewed negatively skewed Number of days Number of women Number of days 60 0 1 2 3 4 5 6 7 8 9 10 0 40% 50% 60% 70% 80% 90% 100% Years of OC0 use 40% 50% 60% 70% 80% 90% 100% Relative humidity (b) Relative humidity (c) (c) 17 최빈값 (mode) 자료 가운데 가장 출현 빈도(frequency)가 높은 값 [예제] Sample of admission white-blood counts (x 1000) for all patients at a hospital i xi i xi 1 7 6 3 2 35 7 10 3 5 8 12 4 9 9 8 5 8 [풀이] 8000이 가장 출현빈도가 높으므로 최빈값은 8000이다. 18 분포의 형태에 따른 중심위치 측도의 관계 mean median mode 19 (양적 자료의) 퍼짐에 대한 측도 자료자료의 퍼짐(spreading)의 정도를 하나의 수치로 표현 (범위, 백분위수, 분산, 표준편차, 변동계수 등이 이용) 범위 (range) 자료의 최대값과 최소값의 차이 범위 = 최대값 - 최소값 계산이 간편하지만, 자료의 두 값에만 의존하여 극단값 및 이상점에 민감하므로 다른 산포측도와 함께 쓰기를 권장 [예제] 주어진 자료가 3, 2, 9, 15, 8, 5 일 때 범위를 구하여라. 자료를 크기 순으로 배열하면 2, 3, 5, 8, 9, 15 이므로 범위는 다음과 같이 계산된다. 최대값 - 최소값 = 15 - 2 = 13 21 백분위수 (percentile) 제 p 백분위수 : 자료 값 중에서 많아야 p%가 그 값보다 작고, 많아야 (100-p)%가 그 값보다 크게 되는 값 제1사분위수(Q1)는 제25백분위수, 중앙값은 제50백분위수, 제3사분위수(Q3)는 제75백분위수에 해당 제 p 백분위수를 구하는 간단한 방법 - 자료의 개수가 n인 경우, 자료를 오름차순으로 배열한다 - np/100가 정수이면, np/100번째와 (np/100+1)번째 자료의 평균을 제 p 백분위수로 정의 - np/100가 정수가 아니면, np/100보다 큰 정수들의 최소값을 m이라 할 때 m번째 자료를 제 p 백분위 수로 정의 22 백분위수 (percentile) - 계속 [예제] 다음은 San Diego의 한 병원에서 일주일간 새로 태어난 신생아들의 출생 체중 표본들이다. 출생 체중의 제 10, 20 백분위수를 구하여라. i xi i xi i xi i xi 1 3265 6 3323 11 2581 16 2759 2 3260 7 3649 12 2841 17 3248 3 3245 8 3200 13 3609 18 3314 4 3484 9 3031 14 2838 19 3101 5 4146 10 2069 15 3541 20 2834 [풀이] 먼저 오름차순으로 정렬을 한다. 20 x 0.1 = 2 은 정수이므로, 제 10 백분위수 = 2번째와 3번째 수의 평균 = (2581 + 2759)/2 = 2670 g 23 사분위수 범위 (interquartile range: IQR) 사분위수(quartile)이란 자료를 오름차순으로 정렬하였을 때 4등분하는 3개 위치의 값 첫번째 사분위수를 Q1, 두번째 사분위수를 Q2, 세번째 사분위수를 Q3라 부르며, 정의에 의해 Q2는 중앙값과 같다. 범위 사분위수 범위 최소값 Q1 Q2 Q3 최대값 중앙값 사분위수범위: IQR = Q3 - Q1 24 상자그림 (box plot) 상자그림의 작성과정 1. Q1과 Q3를 네모난 상자로 연결하고, 중앙값의 위치에 수직선을 긋는다 2. IQR을 계산한다 3. 상자 양끝에서 1.5×IQR 크기의 범위를 경계로 하여, 이 범위에 포함되는 최소값과 최대값을 Q1과 Q3로 부터 각각 선으로 연결한다. 4. 양 경계를 벗어나는 자료값들을 *로 표시하고, 이 점들을 이상점이라고 판단한다. 上問 OutI「 xeveme : ouT extreme BagDa階 ort outlier outlier 算 ** * whisker Q1 Q2 Q3 IQR Q1 - 1.5 x IQR Q3 + 1.5 x IQR Q1 - 3 x IQR Q3 + 3 x IQR 25 상자그림 예시 한 의학연구소에서 아이들의 신경학적 기능과 정신적 기능에 대한 납노출의 효과를 연구하였음 トロスト 01 IQR Number of finger-wrist taps Wechsler full-scale IQ scores in the dominant hand for two groups for exposed and control groups 100 100 90 90 140 140* * 130 130 * 80 80 * 120 120 70 70 MAXFWT MAXFWT 110 110 60 60 100 100 IQF IQF 50 50 90 90 40 40 80 80 30 30 70 70 60 60 20 20 * 50 50* * 10 10* * * * * 1 1 2 2 1 1 2 2 GROUP GROUP GROUP GROUP 1 = control 1 = control 1 = control 1 = control 2 = exposed 2 = exposed 2 = exposed 2 = exposed Two importantTwooutcome important outcome variables variables were were studied: (1) studied: (1) the the number of number of finger–wrist finger–wrist taps in thehand taps in the dominant dominant hand (a measure 26 of(a neurological measure of neurological function) andfunction) and (2) the Wechsler (2) the Wechsler 분산과 표준편차 표본자료 : x1 , x2 ,... , xn 편차: x1 x̄, x2 x̄, · · · , xn x̄ n 표본분산(sample variance) : 1 X s2 = (xi x̄)2 n 1 i=1 p 표본표준편차(sample standard deviation) : s = s2 모집단자료 : x1 , x2 , · · · , xN N 1 X 편차 : x1 µ, x2 µ, · · · , xN µ 여기서 µ= xi 는 모평균 N i=1 모분산(population variance) : 1 X N 2 = (xi µ)2 N i=1 p 모표준편차(population standard deviation) : = 2 27 분산 예제 및 특징 Compute the variance and standard deviation of the birthweight data in Table 2.1 in both grams and ounces. [예제] 앞선 신생아들의 출생 체중 The original data표본에 대해서 are given 표본분산을 in grams, 구하여라. so first compute the variance and standard deviation in these units. 2 (3265 3166.9)2 (2834 3166.9)2 s 19 3,768,147.8 /19 198, 323.6 g 2 s 445.3 g To compute the variance and standard deviation in ounces, note that 자료 x1 , x2 ,... , xn 에 대하여, 각각 shifting 1(+ C )을 해도 분산의 변화가 없다. 1 oz 28.35 g or yi xi 28.35 각 자료에 rescaling ( x K )을 하면 분산은 K2 을 곱한 값이 된다. 1 Thus s2 (oz ) s2 ( g ) 246.8 oz 2 28.352 ! 下サ 1 s(oz ) 1 28.35 s( g ) 15.7 oz 上長 Thus, if the sample points change in scale by a factor of c, the variance changes by a factor of c2 and the standard deviation changes by a factor of c. This relation- ship is the main reason why the standard deviation is more often used than the variance as a measure of spread: the standard deviation and the arithmetic mean are in the same units, whereas the variance and the arithmetic mean are not. Thus, as illustrated in Examples 2.1228and 2.21, both the mean and the standard deviation 표준편차 및 분산의 성질 표준편차 : 분산의 양의 제곱근. 보통 SD(X) 라고 표기. 즉, 분산의 성질 I: 임의의 확률변수 X, 임의의 상수 a, b 에 대하여 다음이 성립 (a) (b) (c) 29 공분산 (Covariance) 가 확률변수 X, Y 의 기대값일 때, X 가 보다 커질 때 Y 가 보다 커지는 경향이 있는 지 여부를 측정하는 측도 정의 : 공분산 계산의 간편식: 서로 독립인 두 확률변수 X , Y 에 대해 공분산은 0 이다 (역은 성립하지 않음) 30 분산의 성질 II 임의의 두 확률변수 X 와 Y, 임의의 두 상수 a 와 b 에 대하여 다음이 성립 X 와 Y 가 서로 독립인 경우 31 변동계수 (coefficient of variation; cv) 평균이 크게 다른 두 개 이상의 집단을 비교하고자 할 때, 또는 각 집단의 상대적 동질성을 비교하고자 할 때 주로 이용 (reproducibility, variability, or stability) 변동계수 : s cv = x̄ 32 정규분포 (normal distribution) 연속형 확률분포 가운데서 가장 중요하게 다루어지는 분포 가우스 분포 (Gaussian distribution) 라고도 불림 분포 형태가 한 점을 중심으로 좌우 대칭이며 종모양 (bell-shaped) 대칭점에서 멀어지는 꼬리부분은 급격히 낮아져서 0으로 감 분포곡선은 평균과 분산에 의해서만 그 형태가 결정됨 33 정규분포 확률밀도함수 け 色0 t 7o 1 なぎ 己し てう ス乞 H 地O 4 확률변수 X 가 평균이 이고 분산이 인 정규분포를 따를 때, 평균, 분산만 알면 분포의 특성을 알아낼 수 있음 라고 표기함 ン 芸人 、N = 春武 0.4 µ1 = − 3 σ21 = 0.5 µ2 = 0 σ22 = 1 0.5 µ3 = 3 σ23 = 4 0.3 0.4 0.3 f(x) 0.2 f(x) 0.2 0.1 0.1 0.0 0.0 -6 -4 -2 0 2 4 6 -6 -4 -2 0 2 4 6 x x 평균은 다르고 분산이 같은 경우 평균은 같고 분산이 다른 경우 34 0.1 0.1 정규분포의 경험적 특징 0.0 0.0 00 xx 일때 0.4 0.4 0.3 0.3 f(x) 0.2 0.2 0.1 0.1 0.0 0.0 –2.58 –1.96 –2.58 –1.96 –1.00 –1.00 00 1.00 1.00 1.96 2.58 1.96 2.58 xx 68% of 68% of area area 95% of 95% of area area 99% of 99% of area area The cumulative-distribution The 35 (cdf) cumulative-distribution function function (cdf) for for aa standard standard normal normal distribution distribution = 4.6 ! µ = t = 1.1 5 ✓ = 4.6 ! µ = t = 2.3 0.1 X x = 0, 1, 2, · · · 표준정규분포 normal P (X 5) = 1 0.0 Standard 0 = 4.6 x X ⇠ P oi(µ) where µ = t µ = t = 4.6 ! t = 1, , µ µx x! 0.4 z2 2 t = 3/12 = 0.25, t = 6/12 = 0.5, e 6) = 1 (z) = p e P (X = x) = 2⇡ Z ⇠ N (0, 1) い) 1 0.3 士 % o P (X ff(x) 1 z2 0.2 f (z) = p e 2 2⇡ 0.1 Z ⇠ N (0, 1) 0.0 –2.58 –1.96 –1.00 0 1.00 1 1.96 z2 2.58 x = p f (z) e 2 68% of area 2⇡ X ⇠ P oi(µ) where µ = t 95% of area 99% of area e µ µx Z ⇠ N (0, 1) P (X = x) = , x = 0, 1, 2, · · · x! The cumulative-distribution function (cdf) for a standard normal d is denoted by ( x) Pr ( X x) X ⇠ P oi(µ) where µ = t µ = t = 4.6 ! t = 1, = 4.6 36 누적확률분포함수 누적확률분포함수 (cumulative-distribution function; cdf) (Z < z) = 1 P (Z z) /. 1 z2 f (z) = p e cdf 2 2⇡ Z ⇠ N (0, 1) 1 z2 f (z) = p e 2 1 z2 2⇡ f (z) = p e 2 2⇡ X ⇠ P oi(µ) where µ = t Z ⇠ N (0, 1) e µ µx P (X = x) = , x = 0, 1, 2, · ·Z· ⇠ N (0, 1) x! X ⇠ P oi(µ) where µ = t µ = t = 4.6 ! t = 1, = 4.6 X ⇠ P oi(µ) where µ = t e µ µx P (X =t = x) 6/12 = = 0.5, , x==4.6 !2,µ· = 0, 1, · · t = 2.3 ! X ⇠ P eoi(2.3) µ µx x! 37 P (X = x) = , x = 0, 1, 2, · · · x! 표준정규분포의 백분위수 Z ~ N(0, 1) 일 때, 주어진 ↵ 값에 대하여 の 를 만족하는 z 값을 로 표기 예) 즉, 0.475 0.475 0.025 0.025 ↵/2 ↵/2 z↵/2 0 z↵/2 z0.025 0 z0.025 = 1.96 = 1.96 38 표준정규분포의 성질 일 때, 임의의 상수 a, b 에 대하여 일 때, 라 하면 in bil に co , 이고, X 와 Y 가 서로 독립일 때, 임의의 상수 a, b 에 대하여 39 (스튜던트) t-분포 (Student’s t-distribution) 3 모집단이 정규분포를 따르고 모분산을 모르는 경우, 모표준편차 대신에 그 추정량인 표본표준편차를 「 사용한 아래의 통계량이 따르는 분포 t-분포의 특성 N(0,1) t(2) Bample t(10). 7 (1) t-분포의 확률밀도함수는 정규분포처럼 0을 중심으로 좌우대칭 (2) 꼬리부분이 정규분포보다 더 두꺼운 형태 (3) 자유도에 따라 t-분포의 형태가 다르게 나타남 -4 -2 0 2 4 (4) 자유도가 무한대인 경우 표준정규분포와 같아짐 X (5) 위의 통계량의 분포는 자유도가 n-1인 t-분포를 따름이 알려져 있다 40 t-분포의 상위 백분위수 자유도가 r 인 t-분포를 따르는 확률변수 T 를 라 표기 일 때, 주어진 값에 대하여 를 만족하는 값을 백분위수라 하고 이를 로 표기한다. t(r)의 백분위수 t(10)의 백분위수 ↵ ↵ 0.05 t↵ (r) 0 t↵ (r) 0 t0.05 (10) = 1.812 41 Thank you for listening Q&A? [email protected]