Lecture Notes - 기초통계학2 PDF
Document Details
Uploaded by MesmerizingGyrolite5380
아주대학교
박 범 희
Tags
Summary
This document is a lecture note focused on fundamental statistics and its application, including examples of sampling distributions. The contents suggest the concepts might be relevant for undergraduate-level study.
Full Transcript
0.4 0.3 기초통계학2 0.2 0.1 0.0 -3 -2 -1 0 1 t↵2(r) 3...
0.4 0.3 기초통계학2 0.2 0.1 0.0 -3 -2 -1 0 1 t↵2(r) 3 박 범 희 아주대학교 의과대학 의료정보학교실 아주대의료원 의학연구협력센터 의학통계실 [email protected] It is not permitted for you to post recordings of class lectures and course materials online or to distribute them to other people ⦸ unless you have permission from your instructor to do so. (본 강의자료의 무단 복제 및 배포를 금합니다.) 표본 분포를 통한 통계적 추론 적절한 연구설계를 통해 최대한 닮게 탐색적 데이터 분석을 통해 표본1 모집단의 특성을 알아냄 통계량 1 목표 모집단 표본3 모수 (parameter) 표본2 - 평균, 분산, 신뢰구간, 관계성, 유의미한 패턴 통계량 3 통계량 2 추정된 통계량의 표준편차(=표준오차)를 통해서 통계적 추론의 신뢰성을 파악 표본5 표본4 모수의 추정량이 모수와 얼마나 비슷할까? 믿을만한가? 통계량 5 통계량 4 통계량이 의미가 있으려면⋯ 통계량 >> 표준오차 ( 통계량 ) Sp 2 정규모집단에서 표본평균의 표본분포 정규분포 으로부터 랜덤표본 1.5 을 추출할 때, 표본평균 의 분포는 X ⇠ N (2.5, 2.5) 1.0 f(X) 0.5 표본분포 (sampling distribution) : 모집단에서 일정한 크기의 표본을 추출하여 통계량을 구하는 것을 반복할 때, 이 통계량들이 이루는 분포 0.0 -1 0 1 2 3 4 5 6 X X ⇠ N (2.5, 2.5) 일 때 자료의 수에 따른 의 표본분포 n ↑甚 ↓ 1.5 1.5 1.5 n=5 n = 10 ト活 人n = 50 1.0 1.0 1.0 f(X) f(X) f(X) 0.5 0.5 0.5 0.0 0.0 0.0 -1 0 1 2 3 4 5 6 -1 0 1 2 3 4 5 6 -1 0 1 2 3 4 5 6 紐 X X X 3 毛 중심극한정리(central limit theorem, CLT) 가 평균이 이고 분산이 인 임의의 모집단에서 뽑은 랜덤표본이라고 하자. n 이 충분히 크면, 표본평균 는 근사적으로 을 따른다. 즉, n 이 충분히 클 때, h 30 M 모집단의 분포가 어떤 형태이든 간에, 표본의 크기가 충분히 크면 (보통 30 이상) 표본평균의 분포는 근사적으로 정규분포를 따르게 된다. 4 임의의 모집단에서 표본평균의 표본분포 ヒ Fに 長達 정규분포 균일분포 지수분포 合味 … 1.0 0.4 0.20 0.8 0.3 0.6 0.2 0.10 0.4 0.1 0.2 0.00 0.0 0.0 -3 -2 -1 0 1 2 3 -3 -2 -1 0 1 2 3 -1 0 1 2 3 4 5 ! n=5 フ 1.0 〜 0.8 X 0.8 0.6 0.6 0.6 0.4 忌 0.4 0.4 0.2 0.2 0.2 晧訾 0.0 0.0 0.0 -1.5 -1.0 -0.5 0.0 0.5 1.0 1.5 -1.5 -1.0 -0.5 0.0 0.5 1.0 1.5 0.0 0.5 1.0 1.5 2.0 2.5 3.0 3.5 n=30 2.0 2.0 1.5 1.5 1.5 1.0 1.0 1.0 0.5 0.5 0.5 0.0 0.0 0.0 -0.6 -0.4 -0.2 0.0 0.2 0.4 0.6 -0.5 0.0 0.5 0.5 1.0 1.5 2.0 5 추정과 추정량 추정(estimation) - 표본에 기초해 조사된 통계량을 모집단의 모수에 대한 근사값으로 사용하고자 하는 것 - (예) 수험생 5,000명을 랜덤표본추출하여 대학입학 수능시험 성적을 조사하였는데 전체 수험생의 평균 성적은 얼마라고 할 수 있을까? 추정량(estimator): 모수의 추정에 사용되는 통계량 (표본의 함수) - (예) 모수가 평균일 때, 표본평균은 모평균의 추정량 추정치(estimate): 추정량에 관측값을 대입하여 얻어진 추정량의 값 6 점추정과 구간추정 점추정(point estimation) - 어떤 모수를 표본에 기초하여 계산된 하나의 값으로 추정하는 것 - 점추정량(point estimator): 추정을 위해 쓰이는 통계량 Aug - 점추정치(point estimate): 표본으로부터 계산된 값 August 29, 2016 - 표준오차(standard error; S.E.): 추정량의 표준편차 August 29, 2016 1 ↵ = P へに ( ˆ卒Lし ✓ ✓ˆU ) ✓ August 29, 2016 August August 29, 29,20162016 구간추정(interval estimation): 1 ↵ = P (✓ˆL ✓ ✓ˆU ) August 29, 2016 - 모수가 ↵ = P (✓ˆL 1 포함되어지리라 ✓ ✓ˆ구간을 여겨지는 U) 100(1 것 ↵)% 표본으로부터 구해내는 ↵ = P (-✓ˆL모수 ✓가 ✓ˆU1 ) ↵ 표본으로부터 1 = ↵P계산된 = (✓ˆL✓ 과 (✓ˆLP100(1 ✓ˆ↵)% U ✓ˆU ) 있을 확률이 1 )사이에 P (✓ˆL ✓ ✓ˆU ) 라면, ↵= = P (✓ˆL ✓ 의 ✓ˆU ) 100(1 ↵)% 신뢰구간(confidence interval)은 (✓ˆL , ✓ˆU ) 00(1 ↵)% 100(1 100(1 ↵)%↵)% 100(1 ↵)% 신뢰하한 신뢰상한 ↵)% 7 ? 모평균의 점추정 : 평균이 이고 분산이 인 모집단으로부터 얻어진 확률표본 모평균 의 점추정량 : 표본평균 는 에 대한 불편추정량임 모분산 에 대한 추정량인 표본분산 은 → 의 불편추정량임. 8 추정량이 합리적이기 위한 성질 sample sample sample sample mean mean mean mean precision Obian biasedness population つに H 喩 ) population population population mean ( mean mean mean unbiased biased unbiased biased precise ( 芸 01 スラヒト ) precise imprecise 古× imprecise 9 모평균의 구간추정 (대표본의 경우) : 평균이 이고 분산이 인 임의의 모집단으로부터 얻어진 확률표본 표본의 크기 n 이 충분히 크면 근사적으로 성립 し 整武 관측가능성이 가장 큼 1 ↵ = P z↵/2 < Z < z↵/2 ✓ ◆ X̄ µ = P z↵/2 < p < z↵/2 이 값을 기준으로 1 ↵ / n 관측가능성이 ✓ ◆ 낮음을 정의함 = P X̄ z↵/2 · p < µ < X̄ + z↵/2 · p n n ↵ ↵ 2 2 z↵/2 0 z↵/2 전체 자료의 1- alpha 는 이 구간에 위치 10 모평균의 구간추정 모분산을 아는 경우 - 모평균 의 신뢰구간은 다음과 같다. α ✓ ◆ x̄ z↵/2 p , x̄ + z↵/2 p n n 모분산을 모르는 경우 - n 이 충분히 크면, 근사적으로 로 알려져 있음, 신뢰구간은 ✓ ◆ s s x̄ z↵/2 p , x̄ + z↵/2 p n n 11 모평균의 구간추정 (소표본의 경우) 모집단의 분포가 정규분포라는 가정이 추가로 필요 : 평균이 이고 분산이 인 정규분포 로부터 뽑은 확률표본 를 아는 경우 임을 이용하면 의 신뢰구간은 다음과 같다. ✓ ◆ x̄ z↵/2 p , x̄ + z↵/2 p n n 12 모평균의 구간추정 (소표본의 경우) 모집단이 정규분포를 따르고 모분산을 모르는 경우 신뢰구간? T チフトス 1予 13 신뢰구간의 의미 ? 모평균의 95% 신뢰구간의 의미는 신뢰 적어도 95% 구간이 참값인 모평균을 포함할 확률이 의 신뢰구간이 0.95라는 뜻 모평균을 포함 µ 1.96 pn µ µ + 1.96 pn 여기서 확률의 의미는 주어진 하나의 표 x̄1 µ 포함 본에서 계산된 신뢰구간이 모수를 포함 x̄2 µ 포함 x̄3 하는지에 대한 것이 아니라 반복해서 구 µ 포함 x̄4 하는 경우에 대한 상대도수의 의미임 µ 포함 x̄5 µ 포함 x̄6 즉, 모집단으로부터 표본을 반복적으로 µ 포함.. 100회 뽑아서 모평균의 신뢰구간을 구. x̄98 µ 포함하지 않음 하는 작업을 반복했을 때, 약 95개 x̄99 µ 포함 정도가 실제 참값을 포함하게 됨을 의미 x̄100 µ 포함 14 [ 통계적 가설 검정 ] 입증되지 않은 주장에 대해서 실험 또는 관측 결과가 일어날 확률에 기초해서 그 타당성을 확인하는 것 가설 가설: 모집단의 특성(분포의 모양이나 모수의 크기)에 대한 주장 또는 추측 통계적 가설 검정 - 모집단의 특성에 대한 어떤 주장이나 추측을 가설로 설정하고 표본 관찰을 통하여 이를 채택 또는 기각 하는 결정을 내리는 분석 방법 통계적 가설의 예문들 - 서울시에 거주하는 직장인들의 내 집 마련을 위한 평균 기간은 결혼 후 7년이 넘는다. - 어느 공장에서 새로운 공법으로 생산된 전구의 불량률은 1% 이하이다. - 이번 대통령 선거에서 A후보의 지지율이 B후보의 지지율보다 높을 것이다. 16 통계적 가설검정의 개념 병아리 감별사 K 는 일반인보다 병아리의 암수를 감별하는 능력이 뛰어나다고 한다. K 에게 임의로 선택된 병아리 10마리를 주어 암수를 판별하게 하였더니 9마리를 맞게 판별하였다. 이 결과에 의하면 과연 K 는 보통 사람보다 병아리 감별 능력이 뛰어나다고 할 수 있는 것인가? ‣ K 가 보통 사람과 판별능력이 같다고 가정했을 때, 9 마리 또는 그 이상을 제대로 판별할 확률은 아주 작을 것이다. 그러므로 만약, K 가 9마리 이상을 제대로 판별했다면 그것은 (K 가 판별능력이 평범하다는 가정 하에서는) 발생하기 힘든 사건이 일어난 것이므로, K 의 능력이 평범하다는 가정 이 틀렸음을 의미한다. 17 가설의 종류 귀무가설 (H0) - 기존에 알려진 사실을 간단하고 구체적으로 표현한 가설 - 가설검정시에 직접 검정의 대상이 되는 가설 - K 와 보통사람 간에는 판별능력의 차이가 없다 - 예) 𝜃 = c, 𝜃1 = 𝜃2, 𝜃 ≤ c, 𝜃1 ≤ 𝜃2 대립가설 (H1) 記引 台 1 給 先 - 실험자가 사실임을 입증하고자 하는 가설 - 자료로 부터 강력한 증거에 의하여 입증하고자 하는 가설 - K 는 보통사람보다 뛰어난 판별능력을 갖고 있다. - 예) 𝜃 ≠ c, 𝜃1 ≠ 𝜃2, 𝜃 > c, 𝜃1 > 𝜃2 18 검정통계량 / 기각역 검정통계량 - 표본 관측치로부터 계산되어지는 것으로 H0 와 H1 중 어느 하나를 택하는데 사용되는 통계량 - e.g.) 제대로 감별한 병아리의 수(X) 기각역 (H0를 기각하거나 채택하는 것은 기각역을 통해 결정됨) - 귀무가설 H0 를 기각시키는 검정통계량의 관측값의 영역 - e.g.) X가 얼마 이상일 때 귀무가설을 기각할 것인가? (X > c) - 검정 통계량과 임계값으로 결정됨 - 기각역의 형태는 대립가설의 형태에 따라 결정됨 19 가설검정의 오류 제1종 오류: H0 가 사실일 때, H0를 기각하는 오류 제2종 오류: H0 가 거짓일 때, H0를 채택하는 오류 𝛼 = P(Type I error) = P(Reject H0 | H0 is true) 𝛽 = P(Type II error) = P(Accept H0 | H1 is true) H0 is TRUE H1 is TRUE Do not reject H0 Correct Type-II error Reject H0 Type-I error Correct 20 유의수준과 유의확률 관측가능성이 가장 큼 임계값: - 주어진 유의수준 𝛼 하에서 H0 의 기각 또는 채택 여부를 판정하여 주는 기준 - 검정통계량의 분포와 유의수준 𝛼 로 부터 결정됨 0.4 0.3 H0 하에서 검정통계량의 분포 叉 0.2 H0 하에서 typerror に 近い H0 하에서 우연히 H0 가 틀린 것이 아닐까? 관측이 어려움 관측되기는 매우 어려움 0.1 유의수준 𝛼 ←口き 귀무가설이 참이라고 가정했을 때 관측된 결과(검정통계량 값)를 0.0 유의확률 얻을 확률 (즉, 귀무가설을 기각할 수 있는 최소의 유의수준) - p-value -3 -2 -1 0 1 임계값 2 검정통계량의 3관측값 H0 하에서 쉽게 관측 가능한 관측값들 (H0 하에서 우연으로 보기 힘든 기준) 台 1点 O 1o が reject 品口 설령 제 1종 오류의 가능성이 있을지라도 기각역 이 구간내에서는 자료가 우연히 관측된 것이 아닐 가능성이 높음 (우연히 관측될 확률이 매우 낮다) H0 하에서 관측결과가 우연히 얻어질 확률 (유의확률)이 이와 같이 연구자가 제 1종 오류를 범할 확률을 감수하고, 우연히 관측된 제1종 오류를 범할 확률의 최대허용치(유의수준)보다 작으면, 것이 아니라는 결론을 내릴 때 (즉 H0 를 기각할 때), 허용할 수 있는 관측 결과는 우연히 관측된 것이 아니라고 결론을 내림 제 1종 오류를 범할 확률의 최대 한계를 유의수준이라고 함 (연구자가 정한 유의수준만큼의 확률은 제 1종 오류를 범할 확률로 허용하며, H0 를 기각하는 결정을 내림) 21 단측검정과 양측검정 片方 にだけ 興味 ある → どちも O → 대립가설의 내용이 크다 또는 작다 등의 한쪽 방향의 서술로 구성되는 경우 K 는 보통사람보다 병아리 감별 능력이 뛰어나다 대립가설의 내용이 같지 않다 또는 차이가 있다 등의 양쪽 방향의 주장으로 서술되는 경우 K 는 보통사람과 병아리 감별 능력이 다르다 H1 : 𝜃 > 𝜃0 → 검정통계량 ≥ 임계값 (𝛼) H1 : 𝜃 < 𝜃0 → 검정통계량 ≤ -임계값 (𝛼) H1 : 𝜃 ≠ 𝜃0 → |검정통계량| > 임계값 (𝛼/2) 22 검정력 7古否 回 , 記 を 答 귀무가설이 거짓일 때, 귀무가설을 기각할 확률 type z error f Power of test = P(reject H0 | H0 is false) = 1 - β 높아질수록 신뢰도 증가, 여러 종류의 검정법을 비교하는 기준이 됨 α 작아지면 β 커진다. (동시에 줄일 수 없음) 두 평균의 차이가 커질수록 β 는 작아진다. α 가 고정되어 있을 때, sample size가 커질수록 β 는 작아진다. 23 통계적 가설검정의 절차 (1) 가설을 세운다 (2) 유의수준을 정한다 (3) 검정통계량 및 분포를 결정한다 (4) 기각역 혹은 임계값을 정한다 (5) 표본추출 후 검정통계량의 관측값 계산 (6) 귀무가설의 기각여부 판단 (유의확률