Lecture Notes: Continuous Data Analysis 2 PDF
Document Details
Uploaded by MesmerizingGyrolite5380
Ajou University
Park Bumhee
Tags
Related
Summary
These lecture notes cover continuous data analysis, including correlation and regression methods. The document further touches upon concepts of linearity and data relationships, using diagrams and formulas to illustrate the theories and practices, with an added disclaimer cautioning against unauthorized distribution of materials.
Full Transcript
연속형 자료분석 이론2 박 범 희 아주대학교 의과대학 의료정보학교실...
연속형 자료분석 이론2 박 범 희 아주대학교 의과대학 의료정보학교실 아주대의료원 의학연구협력센터 의학통계실 [email protected] It is not permitted for you to post recordings of class lectures and course materials online or to distribute them to other people ⦸ unless you have permission from your instructor to do so. (본 강의자료의 무단 복제 및 배포를 금합니다.) 두 변수 간의 관계성? a) b) 산점도 (scatter plot) 변수2 변수2 변수1 변수1 두 변수 간에 직선의 관계가 있음 (선형성) ‣ a) 변수1 값이 증가할 때, 변수2 값이 증가하고, 변수1 값이 감소할 때, 변수2 값이 감소함. ‣ b) 변수1 값이 증가할 때, 변수2 값이 감소하고, 변수1 값이 감소할 때, 변수2 값이 증가함. 얼마나 연관성이 있는가? ‣ 자료의 단위, 평균의 크기에 영향을 받지 않는 정규화된 측도를 통해 통계적 추론을 할 수 있음 2 [ 우리의 관심 ] 얼마나 직선의 관계에 있는가? = 선형성(linearity)이 있는가? ∗ 여기서, 기울기는 중요하지 않음 (= 한 변수의 값이 한 단위 증가할 때, 다른 변수가 증가하는 양) 3 산점도와 선형성 거의 완벽한 거의 완벽한 낮은 양의 낮은 음의 양의 상관관계 음의 상관관계 상관관계 상관관계 Y (변수2) X (변수1) 높은 양의 높은 음의 상관관계가 없음 상관관계가 없음 상관관계 상관관계 4 상관분석 (correlation analysis) 상관분석의 목적 - 두 개의 변수들 간에 통계적 관계성 추론 모수 (parameter) - 두 변수 간 관계성 (모상관계수) - 母상관계수의 추정 및 검정 (母상관계수에 대한 추론) 변수1 ? 변수2 변수1 변수2 목표 모집단 샘플링 통계적 추론: 모집단의 특성에 대한 의사결정 표본 표본상관계수 - 모수의 추정량 5 Cov(X,상관계수 Pearson Y) ⇢ = Corr(X, Y ) = p p September 10, 2016 V ar(X)Cov(X, V ar(YY )) ⇢ = Corr(X, Y ) = p p V ar(X) V ar(Y ) n (Xi , Yi )i=1 n Cov(X, Y ) 모상관계수 (X ⇢ =i , Corr(X, Yi )i=1 Y ) = p p V ar(X) V ar(Y ) Pn (xi x̄)(xi ȳ) i=1 Sxy ⇢ˆ = r = pPn Pn 2 pPn =p p i=1 (xi x̄) (xi i=1 i=1 (yi ȳ) x̄)(x 2 Sxx: 평균 SS효과 yyxy 제거 표본상관계수 ⇢ˆ = r = Pn p p P n =p p i=1 (xi x̄)2 i=1 (yi ȳ)2 Sxx S효과 : 분산(단위) yy 제거 y1 y2 y3 y4 y5 일차변환을 해도 상관관계가 변하지 않음 상관계수의 특징 Corr (aX+b, cY+d) = Corr (X,Y) (a, c > 0) - |r| ≤ 1 H0 : µ 110 vs. H1 : µ < 110 - r → 1 : 양의 상관관계가 강하다 ȳ 110 103.6 110 - r → -1 : 음의 상관관계가 T = s n 강하다 p = p = 1.56 ⇠ t(4) 9.18 5 - r → 0 : 연관성이 없거나, (선형) 관계가 아님 5 1X ȳ = yi = 103.6 5 i=1 v 6 u V ar(X) V ar(Y ) H : ⇢ = 0 vs. H : ⇢ > 0 0 1 Pearson 상관계수의 추론 H : Cov(X, ⇢ = 0 Y) H :⇢ 0 pP n r= p Reject2 HP 0, nif T > t↵,n 22 = p p i=1 (xi x̄) i=1 (yi ȳ) Sxx Syy H0 : ⇢ = 0 vs. H1 : ⇢ < 0 Reject H0 , if T < t↵,n 2 H0 : ⇢ = 0 vs. H1H:0⇢:6=⇢ 0= 0 vs. H1Reject : ⇢ >H0 0 , if |T | > t↵/2,n 2 H0 : ⇢ = 0 vs. H1 : ⇢ < 0 H0 : ⇢ = 0 vs. H1 : ⇢ 6= 0 t-변환 H0 가 true 일 때 0.4 p r 0.3 T = n 2p ⇠ t(n 0.2 2) 1 r2 0.1 0.0 -∞ -3 -2 -1 -1 0 1 1 2 3 +∞ ‣ H0 가 기각되면, 두 변수는 “통계적으로 유의미한” 선형의 상관관계가 있음 1 7 10.1371/journal.pone.0246399 sleep apnea and develop clinical prediction formulas, which can be used in different situa- Editor: Claudio Andaloro, University of Catania, tions, for screening and assessing this disorder. We enrolled 3,432 Asian adult participants ITALY 상관분석 사례 with suspected obstructive sleep apnea who had successfully undergone in-laboratory poly- Received: July 28, 2020 somnography. All parameters were evaluated using correlation analysis and logistic regres- Accepted: January 19, 2021 sion. Among them, age, sex, hypertension, diabetes mellitus, anthropometric factors, Berlin Published: February 2, 2021 questionnaire and Epworth Sleepiness Scale scores, and anatomical tonsil and tongue posi- Copyright: 2021 Park et al. This is an open tion were significantly associated with obstructive sleep apnea. To develop the clinical for- access article distributed under the terms of the mulas for obstructive sleep apnea, the participants were divided into the development (n = Creative Commons Attribution License, which 2,516) and validation cohorts (n = 916) based on the sleep laboratory visiting date. We E permits unrestricted use, distribution, and reproduction in any medium, provided the original developed and selected 13 formulas and divided them into those with and without physical author and source are credited. examination based on the ease of application; subsequently, we selected suitable formulas 그룹간 상관성의 크기를 비교한 사례 based on the statistical analysis and clinical applicability (formula including physical exam: Data Availability Statement: All relevant data are within the paper and its Supporting Information sensitivity, 0.776; specificity, 0.757; and AUC, 0.835; formula without physical exam: sensi- RESEARCH ARTICLE files. tivity, 0.749; specificity, 0.770; and AUC, 0.839). Analysis of the validation cohort with devel- Risk factors and clinical prediction formula for Funding: This research was supported by a oped formulas showed that these models and formula had sufficient performance and Correlations between neuropsychological variables and Insular FC (functional connectivity) for Obstructive Sleep National Research Foundation of Korea grant goodness of fit of model. These tools can effectively utilize medical resources for obstructive the evaluation of obstructive sleep apnea in funded by the Korean Government (2017R1E1A1A01074543) and the Korean Health sleep apnea screening in various situations. Asian adults Technology R&D Project, Ministry of Health & Apnea (OSA) and controls Welfare, Republic of Korea (HC15C3415) to HJ Kim. This work was supported by the National Do-Yang Park 1,2, Ji-Su Kim3, Bumhee Park3,4, Hyun Jun Kim1,2 Research FoundationIDof Korea Grant funded by the Korean Government 1 Department (NRF- 2017R1C1B1007454) of Otolaryngology, Ajou University School of Medicine, Suwon, Republic of Korea, 2 Sleep Center, Ajou University Hospital, Suwon, Republic of Korea, 3 Office of Biostatistics, Ajou Research Institute for Innovative Medicine, Ajou University Medical Center, Suwon, Republic of Korea, 4 Department of Biomedical Informatics, Ajou University School of Medicine, Suwon, Republic of Korea PLOS ONE | https://doi.org/10.1371/journal.pone.0246399 February 2, 2021 1 / 15 * [email protected] PLOS ONE Prediction formula for obstructive sleep apnea Table 2. Correlation analysis between the demographic factors and AHI or RDI. Abstract Variables AHI RDI OSA (0 = non-OSA, 1 = OSA) coefficient p coefficient p coefficient p Obstructive Age (yr) sleep apnea is a highly prevalent.229 cyclic 회귀계수의 유의성 유의성 14 잔차산점도를 이용한 회귀가정 진단 선형성? 정규성? Shapiro-Wilk 검정 잔차 혹은 표준화 잔차 예측추정치 (fitted value) 등분산성? White 검정 독립성? Durbin-Watson 통계량 어떤 패턴을 보인다면, 독립이 아님 관측된 순서로 정렬 15 예제 에스트리올 수준이 신생아 체중에 어떤 영향을 미치는지 알아보려한다고 하자. 종속변수: 신생아 몸무게 독립변수: 에스트리올 수준 16 예제 회귀직선을 추정하고, 결과를 해석하시오. 에스트리올 수준이 15 mg 일 때 몸무게의 평균예측값을 구하시오 X31 X31 X31 X 31 X31 xi = 534, X 31 yi = 992, X 31 x2i = 9876, X 31 xi yi = 17500 2 i=1 xi = 534, i=1yi = 992, i=1xi = 9876, xi yi = 17500 i=1 i=1 i=1 i=1 i=1 31 31 ! 31 ! X X ! X ! Sxy 31 x =X 31 X xi 31 X yi /31 = 412 i yi Sxy = i=1 xi yi i=1xi i=1yi /31 = 412 i=1 i=1 i=1 31 31 !2 X 31 X 31 !2 Sxx = X x22i X xi /31 = 667.42 Sxx = xi xi /31 = 667.42 i=1 i=1 i=1 i=1 ˆˆ11 = = SSxy/S xy /Sxx ==0.608 xx 0.608 에스트리올이 1mg / 24hr 증가할 때, 신생아의 체중은 ˆˆ00 = = ȳȳ ˆˆ11x̄x̄==21.52 21.52 평균적으로 약 0.61 x 100g 증가한다. ŷŷ = = 21.52 21.52++0.608x 0.608x ŷŷ = = 21.52 21.52++0.608(15) 0.608(15)==3065g 3065g ✓ ✓ ◆◆ 17 예제 31 X 기울기 회귀계수의 표준오차 SST = yi2 n (ȳ)2 = 674 를 구하고 95% 신뢰구간을 i=1 추정하여라. 2 SSR = ˆ1 Sxx = 250.4 추정된 회귀직선이 유의한지 SSE = SST SSR = 423.6 검정하여라. M SE = SSE/29 = 14.6 결정계수를 구하고 그 의미를 해석하여라. ⇣ ⌘ V ar ˆ1 = M SE/Sxx = 14.6/667.42 = 0.1472 CI: 0.608 ± t29,0.05 (0.147) = (0.308, 0.908) F0 = M SR/M SE = 17.16 ⇠ F1,29 , F0 = 17.16 > F1,29,0.05 = 4.18 R2 = SSR/SST = 250.57/674 = 0.372 31 X 31 X 31 X 31 X xi = 534, yi = 992, x2i = 9876, xi yi = 17500 i=1 i=1 i=1 i=1 18 예제 Frequency 31 X SST = yi2 n (ȳ)2 = 674 F(1, 29) under H0 i=1 2 SSR = ˆ1 Sxx = 250.4 𝛼=0.05 SSE = SST SSR = 423.6 In R software M SE = SSE/29 = 14.6 p-value = 1-pf(17.16, 1, 29) ⇣ ⌘ F V ar ˆ1 = M SE/Sxx = 14.6/667.42 = 0.1472 F(1, 29, 0.05) = 4.18 CI: 0.608 ± t29,0.05 (0.147) = (0.308, 0.908) F0 = 17.16 Acceptance region Rejection region F0 = M SR/M SE = 17.16 ⇠ F1,29 , F0 = 17.16 > F1,29,0.05 = 4.18 In R software qf(1-0.05, 1, 29) R2 = SSR/SST = 250.57/674 = 0.372 31 X 31 X 31 X 31 X xi = 534, yi = 992, x2i = 9876, 19 x i yi = 17500 April 28, 2019 H0 : R 2 = 0 April 28, 2019 y = + x 다중회귀분석의 H :0= 1 2: 경우 =... = H = 0 = 결정계수의 =... = k0=0 문제… 1 2 k i 0 1 i + ✏i yi2= 0 + 1 x1i + 2 x2i + ✏i H1 : Not H0 H1 : Not H0 R = k X H0 : 1 = 2 =... = k = 0 yi = 0 + j xij + ✏i H0 : 1 = 2 =... = k = 0 결정계수와 HH 수정 2결정계수 j=1 1 : Not : R H = 00 H : R 2 =0 2 H1 : Not H0 0 0 Radj = k X yˆi = ˆ0 + ˆj xij (회귀식에 의해 설명되는 부분) 2 SSR SSE j=1 H0 2: R = 2 0 H R 0= : R =0 R2 = 1 − 0 R2 1 ✏ˆi = ei = yi yˆi (고정) SST SST R2 /k 1에 F가까울= 수록 회귀직선이 R2R2= 2 자료의 변동을 (1 많이R2 )/(n 설명 k 1) Radj == 2 Radj = H1 : µ1 6= µ2 SSE yi = 경우, 다중회귀분석의 0 + 독립변수의 1 xi + ✏ i 2 2 (n − k−1) = =1 − 수가 증가하면, yi = 결정계수는 반드시 Radj Radj yi = 0 + 1 x i + ✏ i yi = 0 + 1 x i + ✏ i (8 1)7.762++ (8 0 + 1 x 1i 2 x2i1)8.18 + ✏i 2 SST 커지기 때문에 sp =수정 결정계수를 2 k 8+8 (n − 1) 확인하여야 함 X 2 yi = 0 + 1 x1i + 2 x yi2i=+ ✏0i + 1 x1i + 2 x2i + ✏i yi = 0 + j xij + ✏i 2 yi 0= 0R+ 1X1xk i + ✏i Xk j=1 56 60 yi = 0 + j2xij +y✏ i i= 0 + j xij + ✏i T =q X k = 1 ⇠ t(14) yi F = =0 + 1j=1 R /k x1i + 2 x2i + ✏i (결정계수와 2 2 j=1 F통계량과의 관계) yˆ = ˆ sp+(2/8) ˆ x i 0 j ij (1 kR )/(n k 1) X X k Xk j=1 yiyˆi== 0ˆ0++ jˆx xij+ ✏yˆii = ˆ0 + j ij ˆj xij yi = 0 + j=1 |T | t↵/2 (14) j=1 1 xi + ✏ i j=1 ✏ˆi = ei = yi yˆi k 20 X 다중공선성 다중공선성 (for 연속형 독립변수) - 다중회귀분석에서 독립변수 간에 서로 상관관계가 있을 때, 다중공선성이 존재한다고 함 - 회귀선이 유의함에도, 개별 회귀계수의 표준오차가 커져서 유의하지 않을 수 있음 - 개별 회귀계수의 부호가 바뀌는 등 정확한 추정이 어려움 다중공선성 확인 방법 - 독립변수 간의 산점도나 상관계수를 확인 - 만약 F값이 매우 큰데, t값들이 대체로 작으면 의심 - 분산팽창요인(VIF) 가 10 이상이면 다중공선성 의심 - 공차한계 (tolerance) 가 0.1 이하이면 다중공선성 의심 어떻게 해결할 수 있을까? - 변수선택, 주성분회귀분석, 능형회귀분석, 다항회귀모형의 경우는 centering을 통해서⋯ 21 독립변수 선택 전진선택법 (Forward selection) - 절편만 있는 회귀 모형에 가장 유의한 변수를 순서대로 하나씩 추가하는 방법 - 한번 선택된 변수는 절대로 제거되지 않음 - 대체로 적은 수의 독립변수가 후보 모형에 선택되는 경향 후진소거법 (Backward elimination) - 모든 변수를 회귀모형에 넣은 상태에서 유의하지 않은 변수가 존재하는 경우, 가장 덜 유의한 변수를 제거하는 방식으로 유의한 변수만 남을때까지 하나씩 제거하는 방법 - 한번 제외된 변수는 다시 선택되지 못함 - 대체로 많은 독립변수가 후보 모형에 선택되는 경향 단계선택법 (Stepwise method) - 전진선택법 + 후진소거법 - 전진선택법에 의해 새로운 변수를 추가하고, 추가된 변수에 의해 만들어진 새로운 모형에서 기존의 독 립변수를 후진소거법에 의해 제거할 수 있는지 확인 22 가변수의 설정 가변수(Dummy variables)의 설정 - 회귀분석 시 연속형 변수 뿐 아니라 명목형 자료도 분석하는 경우가 많음 - (예) 성별(남/여), 흡연력(흡연/과거흡연/비흡연), 고혈압 유무(유/무) - 2개의 범주로 나뉘는 경우, 해당 범주를 나타내는 변수를 0(무) 또는 1(유)로 코딩하여 회귀계수 추정 - k개의 범주로 나뉘는 경우, k-1 변수를 사용 해석: 각 가변수의 회귀계수는 기울기로 해석하지 않고, 독립변수가 0(무) 인 경우에 비해 1(유) 인 경우 회귀계수 값만큼 종속변수가 증가(혹은 감소) 한다고 판단함 23 가변수의 설정의 예 3개 이상의 범주로 나누어지는 경우 (예) 유방암(유방암 1기/ 유방암 2기/ 유방암 3기/ 유방암 4기) 자료 코딩 !" = $ + &'('" + &)()" + &*(*" + ⋯ 유방암1기 0 0 0 Reference 유방암2기 1 0 0 유방암3기 0 1 0 유방암4기 0 0 1 Reference 유방암2기 의 !는 유방암1기 에 비해 &1 만큼 크다(혹은 작다) 유방암3기 의 !는 유방암1기 에 비해 &2 만큼 크다(혹은 작다) 참고문헌 : 그림으로 이해하는 닥터 배의 술술 보건의학통계 24 SPSS 예제: 변수선택, 다중공선성 체크 회귀계수의 유의성 검정 예제 - 단계선택법(Stepwise)으로 변수선택을 한 결과, 유의수준 = 0.05 에서 허리둘레, 공복 혈당, 체질량지수, 총콜레스테롤이 종속변수인 수축기 혈압을 유의하게 설명하는 것으로 나타남. - VIF가 10이하, 공차한계가 0.1 이상이므로 다중공선성 없음 허리둘레 공복혈당 체질량지수 총콜레스테롤 25 공분산분석 * 그룹간 covariate의 slope 차이는 일정해야 함 공분산분석(Analysis of covariance; ANCOVA) - 종속변수가 그룹간 평균의 차이가 있는지 알아보려할 때 (ANOVA), 혼란변수가 존재하는 경우 사용함 - 종속변수에 영향을 미치는 혼란변수를 공변량(covariate)으로 모형식에 포함하여, (선형) 효과를 제거 후, ANOVA 분석을 하는 형태 요인 (독립변수) 종속변수 ANOVA 흡연상태 수축기혈압 독립변수2 Regressing out 혼란효과로서 회귀계수를 추정하여 nuisance covariates 흡연상태 수축기 혈압으로부터 그 효과를 제거함 총콜레스테롤 독립변수3 종속변수에서만 그 효과를 제거하기 때문에, 흡연상태 혼란변수 Semi-partial correlation이라고도 함 공변량 26 편상관분석 편상관분석 (partial correlation analysis) - 적어도 한 혼란 변수의 효과를 보정한 후, 두 연속형 변수 간 상관성 추론 rAB − rACrBC rAB|C = ∼ tn−2−k 1 − rAC 2 1 − rBC 2 변수A 변수B Variance explained Sung & Park et al (Scientific Reports 2020) 혼란변수 C 27 뇌연결성 + 회귀모형 기반 임상 예측 연구의 예 Psychological Resilience Increase Decrease 1 1 Enhances the Orbitofrontal contrast 0 0 Network in the Elderly With MCI -1 -1 BRS = 2 1 0 2 1 0 Orbitofrontal-Limbic network MADRS for BRS=2 MADRS for BRS=1 MADRS for BRS=0 MMSE for BRS=2 MMSE for BRS=1 MMSE for BRS=0 BAI for BRS=2 BAI for BRS=1 BAI for BRS=0 education age sex = × + subject 1 subject 2 subject 3 … subject N Y = X × B + E Son & Park et al. (Front. In Psychiatry 2019) *MCI: mild cognitive impairment 28 Thank you for listening Q&A? [email protected]