Introduktion til kunstig intelligens matematik og statistik

Summary

Disse noter præsenterer en introduktion til matematiske og statistiske emner, relevant for kunstig intelligens. Materialet dækker grundlæggende begreber, herunder variable, lineære kombinationer, vektorligninger og lineære systemer.

Full Transcript

수학의 기초 ≠ ‒ 𝑥+2≤7 𝑥2 + 5 ≥ 0 𝑦 = 2𝑥 + 3 𝑦 − 2𝑥 − 3 = 0 𝑛 𝑦 = 𝑎𝑛 𝑥 𝑛 + 𝑎𝑛−1 𝑥 𝑛−1 + ⋯ + 𝑎1 𝑥 + 𝑎0 𝑦 = 𝑎 𝑥 (𝑎 > 0, 𝑎 ≠ 1) 𝑦 = 𝑙𝑜𝑔𝑎 𝑥 (𝑥 > 0, 𝑎 > 0, 𝑎 ≠...

수학의 기초 ≠ ‒ 𝑥+2≤7 𝑥2 + 5 ≥ 0 𝑦 = 2𝑥 + 3 𝑦 − 2𝑥 − 3 = 0 𝑛 𝑦 = 𝑎𝑛 𝑥 𝑛 + 𝑎𝑛−1 𝑥 𝑛−1 + ⋯ + 𝑎1 𝑥 + 𝑎0 𝑦 = 𝑎 𝑥 (𝑎 > 0, 𝑎 ≠ 1) 𝑦 = 𝑙𝑜𝑔𝑎 𝑥 (𝑥 > 0, 𝑎 > 0, 𝑎 ≠ 1) 𝑐 𝑏 𝜃 𝑎 𝑒 𝜋 𝑒 = 2.718281828459045235360287471352 … 1 𝑛 𝑒 = lim 1 + 𝑛 𝑛→∞ 𝑦 = 𝑒 𝑥 = exp(𝑥) 1 𝑦= 1 + exp(−𝑥) 𝑦 = 𝑎 𝑥 𝑎 > 0, 𝑎 ≠ 1 𝑥 = 𝑙𝑜𝑔𝑎 𝑦 𝑦 = 𝑙𝑜𝑔𝑎 𝑥 𝑦 = 𝑙𝑜𝑔𝑒 𝑥 𝑙𝑜𝑔𝑎 ς𝑛𝑘=1 𝑝𝑘 = σ𝑛𝑘=1 𝑙𝑜𝑔𝑎 𝑝𝑘 선형대수 𝑎1 𝑎2 𝑎= ⋮ 𝑎𝑝 𝑎′ = (𝑎1 , 𝑎2 , ⋯ , 𝑎𝑝 ) 𝑎11 𝑎1𝑝 𝑎21 ⋯ 𝑎 2𝑝 𝐴𝑛×𝑝 = ⋮ ⋱ ⋮ = (𝑎𝑖𝑗 ) 𝑎𝑛1 ⋯ 𝑎𝑛𝑝 𝑎11 0 0 ⋯ 0 0 𝐷𝑝×𝑝 = ⋮ ⋮ ⋱ ⋮ = 𝑑𝑖𝑎𝑔(𝑎11 , 𝑎22 , ⋯ , 𝑎𝑝𝑝 ) 0 0 ⋯ 𝑎𝑝𝑝 1 0 0 0 𝐼= 0 0 ⋯ 0 ⋮ ⋮ ⋱ ⋮ 0 0 ⋯ 1 𝑎11 𝑎12 𝑎1𝑝 0 𝑎22 ⋯ 𝑎 2𝑝 𝐴𝑝×𝑝 = ⋮ ⋮ ⋱ ⋮ 0 0 ⋯ 𝑎𝑝𝑝 𝑎11 0 0 ⋯ 𝑎21 𝑎22 0 𝐴𝑝×𝑝 = ⋮ ⋮ ⋱ ⋮ 𝑎𝑝1 𝑎𝑝2 ⋯ 𝑎𝑝𝑝 1 1 j= ⋮ 1 𝐴 𝑛×𝑝 𝐴 𝐴′ 𝐴𝑡 참고. 모두의 인공지능 기초수학. 더북 Linear combination ‒ 𝑣1 , 𝑣2 , … , 𝑣𝑝 ‒ 𝑐1 , 𝑐2 , … , 𝑐𝑝 ‒ 𝑦 = 𝑐1 𝑣1 + 𝑐2 𝑣2 + ⋯ + 𝑐𝑝 𝑣𝑝 Span of vectors ‒ 𝑣1 , 𝑣2 , … , 𝑣𝑝 ‒ 𝑠𝑝𝑎𝑛(𝑣1 , 𝑣2 , … , 𝑣𝑝 ) ‒ 𝑣1 , 𝑣2 , … , 𝑣𝑝 ‒ {𝑣1 , 𝑣2 , … , 𝑣𝑝 } ‒ 𝑅3 Linear system Ax=b Linear system ‒ 𝑎Ԧ = 𝑎1 , 𝑎2 , … , 𝑎𝑛 , 𝑏 = 𝑏1 , 𝑏2 , … , 𝑏𝑛 𝑎Ԧ 𝑏 𝑎Ԧ ∙ 𝑏 = 𝑎1 , 𝑎2 , … , 𝑎𝑛 ∙ 𝑏1 , 𝑏2 , … , 𝑏𝑛 = σ𝑛𝑘=1 𝑎𝑘 𝑏𝑘 ‒ ‒ ‒ 𝐿2 𝑥Ԧ 2 = 𝑥12 + 𝑥22 + ⋯ + 𝑥𝑛2 = σ𝑛𝑘=1 𝑥𝑘2 𝐿1 𝑥Ԧ 1 = 𝑥1 + 𝑥2 + ⋯ + 𝑥𝑛 = σ𝑛𝑘=1 𝑥𝑘 𝑝 1/𝑝 𝐿𝑝 𝑥Ԧ 𝑝 𝑝 𝑝 𝑝 = (𝑥1 + 𝑥2 + ⋯ + 𝑥𝑛 )1/𝑝 = (σ𝑛𝑘=1 𝑥𝑘 ) 𝑚×𝑟 𝐴 = (𝑎𝑖𝑗 ) 𝑟×𝑛 𝐵 = (𝑏𝑖𝑗 ) 𝐶 = 𝑐𝑖𝑗 = 𝐴𝐵 𝑐𝑖𝑗 = σ𝑟𝑘=1 𝑎𝑖𝑘 𝑏𝑘𝑗 𝑚×𝑛 0 1 2 0 1 2 𝐴= 3 4 5 B= 2 0 1 6 7 8 1 2 0 0×0 1×1 2×2 0 1 4 𝐴∘𝐵 = 3×2 4×0 5×1 = 6 0 5 6×1 7×2 8×0 6 14 0 𝑚×𝑛 𝐴 = 𝑎𝑖𝑗 𝑏𝑖𝑗 = 𝑎𝑗𝑖 , 𝑖 = 1, … , 𝑚 , 𝑗 = 1, … , 𝑛 𝐵 = (𝑏𝑖𝑗 ) 𝐴 𝐵 = 𝐴𝑡 𝑛×𝑛 𝐴 = 𝑎𝑖𝑗 𝑡𝑟 𝐴 𝑡𝑟 𝐴 = σ𝑛𝑖=1 𝑎𝑖𝑖 𝐴 𝑐 𝐴 ∶ 𝑐𝐴𝑛×𝑝 𝐴 + 𝐵 = 𝑎𝑖𝑗 + 𝑏𝑖𝑗 = (𝑎𝑖𝑗 + 𝑏𝑖𝑗 ) 𝐴𝐵𝑛×𝑝 = 𝐴𝑛×𝑘 𝐵𝑘×𝑝 𝑄 𝑄𝑄 ′ = 𝑄 ′ 𝑄 = 𝐼 𝑄 ′ = 𝑄 −1 1 1 ⋯ 1 1 1 ⋯ 1 𝐽= = 𝑗𝑗′ ⋮ ⋮ ⋮ 1 1 ⋯ 1 𝑆 𝑝×𝑝 𝑎 𝑝×1 𝑠11 ⋯ 𝑠1𝑝 𝑎1 𝑎′ 𝑆𝑎 = 𝑎1 , ⋯ , 𝑎𝑝 ⋮ ⋱ ⋮ ⋮ = σ𝑖 𝑎𝑖2 𝑠𝑖𝑖 + σ𝑖≠𝑗 𝑎𝑖 𝑎𝑗 𝑠𝑖𝑗 𝑠𝑝1 ⋯ 𝑠𝑝𝑝 𝑎𝑝 𝑛×𝑛 𝐴 𝑡𝑟 𝐴 = σ𝑛𝑖=1 𝑎𝑖𝑖 𝐴, 𝐵 𝑡𝑟 𝐴 + 𝐵 = 𝑡𝑟 𝐴 + 𝑡𝑟 𝐵 𝑡𝑟 𝐴𝐵 = 𝑡𝑟(𝐵𝐴) 𝐴 𝐵 𝐴11 𝐴12 𝐵11 𝐵12 𝐴= , 𝐵= 𝐴21 𝐴22 𝐵21 𝐵22 𝐴 𝐴 𝐵11 𝐵12 𝐴11 𝐵11 + 𝐴12 𝐵21 𝐴11 𝐵12 + 𝐴12 𝐵22 𝐴𝐵 = 𝐴11 𝐴12 𝐵21 𝐵22 𝐴21 𝐵11 + 𝐴22 𝐵21 𝐴21 𝐵12 + 𝐴22 𝐵22 21 22 행렬의 결정식(determinant) 𝑛×𝑛 𝐴 ȁ𝐴 ȁ det(𝐴) 2×2 𝑎11 𝑎12 det 𝑎 𝑎22 = 𝑎11 𝑎22 − 𝑎12 𝑎21 21 3×3 𝑎11 𝑎12 𝑎13 det 𝑎21 𝑎22 𝑎23 = 𝑎11 𝑎22 𝑎33 + 𝑎12 𝑎23 𝑎31 + 𝑎13 𝑎21 𝑎32 𝑎31 𝑎32 𝑎33 − 𝑎13 𝑎22 𝑎31 − 𝑎12 𝑎21 𝑎33 − 𝑎11 𝑎23 𝑎32 Cramer’s rule 𝒏×𝒏 𝒃 ∈ 𝑹𝒏 𝑨𝒙 = 𝒃 𝒙= [𝒙𝟏 , 𝒙𝟐 , … , 𝒙𝒏 ] 𝑨−𝟏 행렬의 계수 𝑛 𝑎1 , 𝑎2 , ⋯ , 𝑎𝑛 𝑐1 𝑎1 + 𝑐2 𝑎2 + ⋯ + 𝑐𝑛 𝑎𝑛 = 0 𝑐1 , 𝑐2 , ⋯ , 𝑐𝑛 𝐴 𝑟𝑎𝑛𝑘 𝐴 = 𝐴 𝐴 𝑟𝑎𝑛𝑘 𝐴 = 𝑟𝑎𝑛𝑘(𝐴′ ) 역행렬 𝐴 𝐴−1 𝐴𝐴−1 = 𝐴−1 𝐴 = 𝐼. 𝑟𝑎𝑛𝑘 𝐴𝐵 = 𝑟𝑎𝑛𝑘(𝐵) (𝐴𝐵)−1 = 𝐵 −1 𝐴−1 𝐴 𝐴𝐵 = 𝐴𝐶 𝐵=𝐶 양정치행렬과 반양치행렬 𝑥≠0 𝑥 𝑥 ′ 𝐴𝑥 > 0 𝐴 𝑥≠0 𝑥 𝑥 ′ 𝐴𝑥 ≥ 0 𝐴 직교벡터와 직교행렬 𝑝×1 𝑎 = (𝑎1 , 𝑎2 , … , 𝑎𝑝 )′ b = (𝑏1 , 𝑏2 , … , 𝑏𝑝 )′ 𝑎′ 𝑏 = 𝑎1 𝑏1 + 𝑎2 𝑏2 + … + 𝑎𝑝 𝑏𝑝 = 0 𝑎 𝑏 𝐴−1 = 𝐴′ 선형변환 𝑉 𝑊 𝑇 𝑉 𝑢, 𝑣 𝜆1 , 𝜆2 𝑇 𝜆1 𝑣1 + 𝜆2 𝑣2 = 𝜆1 𝑇 𝑣1 + 𝜆2 𝑇(𝑣2 ) 𝑇 𝑉 𝑊 𝑇: 𝑉 → 𝑊 고유값과 고유벡터 𝐴 𝐴𝑢 = 𝜆𝑢 𝜆 𝐴 𝑢 𝜆 Eigenvalue, determinant, trace Diagonalization 𝒏×𝒏 𝒏×𝒏 𝑺−𝟏 𝑨𝑺 Eigendecomposition ‒ 𝒏×𝒏 Λ 𝑆Λ−1 𝑆 ‒ 거듭제곱 행렬의 eigenvalue 대칭행렬의 고유벡터 직교성 고유값과 고유벡터의 성질 𝑝×𝑝 𝐴 𝑝 𝜆1 , 𝜆2 , … , 𝜆𝑝 𝑥1 , 𝑥2 , … , 𝑥𝑝 ‒ 𝐴𝑥 = 𝜆𝑥 ‒ 𝐴 − 𝜆𝐼 𝑥 = 0 ‒ 𝐴 − 𝜆𝐼 = 0 𝑝 ‒ 𝑡𝑟 𝐴 = σ𝑖=1 𝜆𝑖 𝑝 ‒ 𝐴 = ς𝑖=1 𝜆𝑖 𝑝 ‒ 𝐼 + 𝐴 = ς𝑖=1(1 + 𝜆𝑖 ) 고유값의 성질 𝑝×𝑝 𝐴 𝑝 𝜆1 , 𝜆2 , … , 𝜆𝑝 𝑒1 , 𝑒2 , … , 𝑒𝑝 𝐴 tr 𝐴 𝐴 𝐴 𝐴2 𝜆12 , … , 𝜆2𝑝 𝑒1 , 𝑒2 , … , 𝑒𝑝 𝐴 𝑝×𝑝 𝐴 𝜆 𝐵 𝜇 𝐴𝐵 λ𝜇 𝐴 𝐵 𝐴𝐵 𝐵𝐴 7. 𝑛×𝑝 𝐴 𝑝×𝑛 𝐵 𝐴𝐵 𝐵𝐴 행렬의 분해 𝑚×𝑛 𝑚×𝑛 스펙트럼분해 𝑝×𝑝 𝐴 𝑝 𝐴 = 𝑃Λ𝑃′ = σ𝑖=1 𝜆𝑖 𝑒𝑖 𝑒𝑖 ′ 𝜆𝑖 𝐴 𝑒𝑖 𝑃𝑃′ = 𝑃′ 𝑃 = 𝐼 𝑃 𝑃 = [𝑒1 , … , 𝑒𝑛 ] Λ 𝐴 𝐴−1 = 𝑃Λ−1 𝑃′ = σ𝑝𝑖=1 𝜆1 𝑒𝑖 𝑒𝑖 ′ 𝑖 𝐴 𝑃 𝑃′ 𝐴𝑃 = Λ Λ 𝑝 𝐼 = σ𝑖=1 𝑒𝑖 𝑒𝑖 ′ 𝑒𝑖 = (0, … , 1 , … , 0)′ 스펙트럼 분해 LU 분해 Gaussian elimination A LU ‒ ‒ ‒ ‒ 촐레스키 분해 𝐴 = 𝑈𝑇 𝑈 𝐴 = 𝑈𝑇 𝑈 A semi-positive definite 특이값 분해 벡터와 행렬의 미분 𝑝 𝑢 = 𝑓(𝑥1 , 𝑥2 , … , 𝑥𝑝 ) 𝑥𝑖 𝜕𝑢 𝜕𝑥1 𝜕𝑢 𝜕𝑢 𝜕𝑥 = 𝜕𝑥2 ⋮ 𝜕𝑢 𝜕𝑥𝑝 𝜕𝑢 𝜕𝑎′ 𝑥 𝜕𝑥 ′ 𝑎 𝑢=𝑎𝑥=𝑥𝑎 ′ ′ 𝜕𝑥 = 𝜕𝑥 = 𝜕𝑥 =𝑎 𝐴 𝑢 = 𝑥 ′ 𝐴𝑥 𝑥 𝜕𝑢 𝜕𝑥 ′ 𝐴𝑥 = = 2𝐴𝑥 𝜕𝑥 𝜕𝑥 lim 𝑦 = lim 𝑥 2 + 1 = 1 𝑥→0 𝑥→0 𝑦 = 𝑓 𝑥 𝑥 → 𝑥 + ∆𝑥 𝑦 = 𝑓 𝑥 + ∆𝑥 ∆𝑦 = 𝑓 𝑥 + ∆𝑥 − 𝑓(𝑥) ∆𝑦 𝑓 𝑥+∆𝑥 −𝑓 𝑥 ∆𝑥 = ∆𝑥 𝑓 𝑥+∆𝑥 −𝑓(𝑥) 𝑑𝑓(𝑥) 𝑑 𝑓′ 𝑥 = lim ∆𝑥 = 𝑑𝑥 = 𝑑𝑥 𝑓(𝑥) ∆𝑥→0 𝑓(𝑥) 𝑥(𝑥 ≠ 𝑎) 𝑎 𝑓(𝑥) 𝑏 𝑓(𝑥) 𝑏 𝑥→𝑎 𝑓(𝑥) → 𝑏 lim 𝑓(𝑥) = 𝑏 𝑥→𝑎 𝑓(𝑥) 𝑥→𝑎 𝑓(𝑥) → ∞ lim 𝑓(𝑥) = ∞ 𝑥→𝑎 𝑥→𝑎 𝑓 𝑥 → −∞ lim 𝑓(𝑥) = −∞ 𝑥→𝑎 ‒ 𝑓(𝑥) 𝑥=𝑎 ‒ lim 𝑓(𝑥) 𝑥→𝑎 ‒ lim 𝑓(𝑥) = 𝑓(𝑎) 𝑥→𝑎 𝑦 = 𝑎(𝑥 − 𝑝)2 +𝑞 ‒ 𝑎 > 0, 𝑞 ‒ 𝑎 < 0, 𝑞 𝑑𝑦 𝑑2𝑦 𝑑𝑦 𝑥3 𝑑𝑥 + 2𝑦 = 0 𝑑𝑥 2 + 2𝑥 2 𝑑𝑥 =0 𝑑𝑦 𝑑𝑥 𝑑 𝑑 𝑑 ‒ 𝑓(𝑥) ± 𝑔(𝑥) = 𝑑𝑥 𝑓 𝑥 ± 𝑑𝑥 𝑔 𝑥 = 𝑓′(𝑥) ± 𝑔′(𝑥) 𝑑𝑥 𝑑 ‒ 𝑓(𝑥)𝑔(𝑥) = 𝑓 ′ 𝑥 𝑔 𝑥 + 𝑓 𝑥 𝑔′ (𝑥) 𝑑𝑥 𝑑 𝑓(𝑥) 𝑔 𝑥 𝑓′ 𝑥 −𝑓 𝑥 𝑔′(𝑥) 𝑓′ 𝑔−𝑓𝑔′ ‒ = = 𝑑𝑥 𝑔(𝑥) 𝑔(𝑥)2 𝑔2 ‒ 𝜕𝑧 𝜕𝑧 𝑧 = 𝑓(𝑥, 𝑦) 𝑑𝑧 = 𝜕𝑥 𝑑𝑥 + 𝜕𝑦 𝑑𝑦 𝜕𝑧 𝑛 𝑧 𝑑𝑧 = σ𝑛𝑖=1 𝜕𝑥𝑖 𝑑𝑥𝑖 𝑓 𝑥, 𝑦 = 3𝑥 2 + 4𝑥𝑦 + 5𝑦 3 𝜕 𝜕 𝜕𝑥 𝑓 𝑥, 𝑦 = 6𝑥 + 4𝑦 𝜕𝑦 𝑓 𝑥, 𝑦 = 4𝑥 + 15𝑦 2 𝑑𝑧 = (6𝑥 + 4𝑦)𝑑𝑥 + (4𝑥 + 15𝑦 2 )𝑑𝑦 𝑧 = 𝑓 𝑢, 𝑣 , 𝑢 = 𝑔 𝑥 , 𝑣 = ℎ 𝑥 𝜕𝑧 𝜕𝑧 𝑑𝑧 = 𝜕𝑢 𝑑𝑢 + 𝑑𝑣 𝜕𝑣 𝑑𝑧 𝜕𝑧 𝑑𝑢 𝜕𝑧 𝑑𝑣 𝑑𝑥 = 𝜕𝑢 𝑑𝑥 + 𝜕𝑣 𝑑𝑥 𝑑𝑧 𝜕𝑧 𝑑𝑢𝑖 𝑑𝑥 = σ𝑚 𝑖=𝑖 𝜕𝑢 𝑑𝑥 𝑖 ‒ ‒ ‒ ‒ ‒ ‒ ‒ 추정(estimation) 가설검정(hypothesis testing) 비교집단 의 필요성 ‒ ‒ Attention of Drs / Psychology of Pts / Adjusting life style / Comedication, etc. ‒ 무작위화 확률화 ‒ ‒ Known risk factor들 뿐만 아니라 unknown risk factor 들에 대해서도 ‒ 눈가림 맹검 ‒ ‒ ‒ ‒ ‒ (systematic error) ‒ (target population) (actual population) ‒ “정확하다(accurate)" → 즉, 결과의 타당성(validity)이 높다 ‒ (validity) 연구자가 의도하는 바를 연구도구가 얼마나 충실하게 측정해주는지의 정도 , (random error) ‒ (sampling frame, actual population) (sample, study population) ‒ “정밀하다(precise)” → 즉, 결과의 신뢰성(reliability)이 높다 ‒ (reliability) 측정해야 할 내용을 연구도구가 얼마나 일관되게 측정해주는지의 정도 (accuracy) ‒ Lack of systematic error (internal validity) ‒ (precision) ‒ Lack of random error (reliability) ‒ ‒ (size) Study design principles systematic error ! ‒ ‒ ‒ ‒ ‒ Bias 방지 Paper 작성 시 이를 요약: Method Sec.을 충분히 채울 수 있음을 의미 ‒ Data collection instrument, IRB forms, Protocol for training study staff, Decision rules on data coding, 기타 연구 도중에 만들어진 모든 material ‒ ‒ ‒ ‒ ‒ ‒ ‒ ‒ ( ) [categorical (qualitative) data] ‒ (nominal data) 두 범주: 이진수 자료(binary data), 이분형 자료(dichotomous data) 예: 혈액형(A/B/O/AB), 성별(남/여) ‒ (ordinal data) 예: 통증강도(severe/moderate/mild/none) ( ) [numerical (quantitative) data] ‒ (discrete data) 계수 자료(count data) 예: 동반질환의 수, 재원일수 ‒ (continuous data) 예: 혈압, 콜레스테롤 수치, 연령 (derived data) ‒ (percentage), (proportion) ( : ) ‒ (ratio, quotient) ( , : BMI) ‒ (rate) ( , : - , ) ‒ (score) ( , : ) (censored data) ‒ 기준점(cut-off value) 이하이기 때문에 undetectable 하게 된 절단값 ‒ 종료점(endpoint)을 관찰하지 못한 불완전 자료(incomplete data) 이유: 중도탈락/동의철회/연구종료 등 확률변수 코딩(coding) 양적 변수 질적 변수 질적 변수도 숫자로 코딩하면 확률변수가 됨 이산형 변수(discrete variable) (qualitative variable) 정수로 표현되는 경우에는 범주형 변수(categorical variable) ‒ (nominal variable): / 이진수 변수(binary variable): 두 개의 값만 취하는 명목형 변수 (예: 성별) (quantitative variable) ‒ (ordinal variable): / , 범주형 변수에 해당하나 연속형 변수로 취급하는 경우도 있음 (예: 중증도) Likert’s 5-point scale (리커트의 5점 척도) ‒ (interval variable): / /. 0 ‒ (ratio variable): / / / 0 굳이 구간형 변수(예: 온도)와 비 형 변수(예: 체중)를 구분할 필요는 없음 (일단은) 둘 다 연속형 변수로 간주하면 됨 연속형 변수(continuous variable) (independent variable), (explanatory variable) ‒ (cause) (dependent variable), (response variable) ‒ (outcome) 결과(종속변수) 원인(독립변수) 단변수 분석 y x y = + x (univariable analysis) 결과(종속변수) 원인들(독립변수들) 다변수 분석 y x1 x2 … xk (multivariable analysis) y =  0 + 1 x1 +  +  k xk cf.) 다변량 분석 (multivariate analysis) 결과 원인 종속변수, 반응변수, Y 독립변수, 설명변수, X 하나: 단변량 - (univariate -) 하 나 : 단변수 분석(univariable analysis) 여러 개: 다변량 - (multivariate -) 단순 - (simple -) 여러 개: 다변수 분석(multivariable analysis) 종속(반응)변수, y 다중 - (multiple -) 이산형(범주형) 연속형 2 – 검정 (행 vs 열) t-test 명목형 vs. 명목형 분산분석(ANOVA) 독립(설명)변수, x 범주형 명목형 vs. 순서형 반복측정 분산분석 순서형 vs. 순서형 GEE 기타 특수한 경우의 분석 방법들: 로지스틱 회귀분석 회귀분석 상관분석, 생존분석, 시계열분석, 연속형 (logistic regression) (Regression) log-linear 분석, 비모수 분석, 다변량분석 기법들, 메타분석, 로지스틱 회귀분석 공분산분석 혼합 일반선형모형(GLM) (ANCOVA) 생동성 검정 등등……… 일반화 추정방정식(GEE) ‒ ( ) ‒ 0/1 ( =1 / ‘ =0) 만일 1/2로 코딩하는 경우: 자료분석 시 (1/2)→(1/0)으로 recoding 해서 분석 (중요!) ‒ 크기를 줄여서 입력하는 것 지양 ‒ alerting worksheet ‒ Unique ID ( )– ! : / (missing value) : default value(. ) ‒ (yes, no) = (0, 1), (1, 0), (1, 2), (0, -1) doesn’t really matter Computer output – Same coefficient and significance level (i.e., p-value) – Only the sign of the coefficient may change ‒ 예) (yes, no) = (1, -1) ‒ ‒ ‒ Other undetermined etiology group has 4 times larger effect than small vessel occlusion group in its size ??? ‒ TOAST D1 D2 D3 Meaning of dummy coding SVO 1 0 0 If (D1, D 2, D3) = (1, 0, 0), then TOAST = 1 (SVO) LAA 0 1 0 If (D1, D 2, D3) = (0, 1, 0), then TOAST = 2 (LAA) CE 0 0 1 If (D1, D 2, D3) = (0, 0, 1), then TOAST = 3 (CE) UD 0 0 0 If (D1, D 2, D3) = (0, 0, 0), then TOAST = 4 (UD) 가변수 생성 방법 ‒ Need to create k-1 dummy variables First of all, need to decide a reference category Example (SPSS: can use first or last category as a reference) TOAST D1 D2 D3 TOAST D1 D2 D3 1 (SVO) 1 0 0 1 (SVO) 0 0 0 2 (LAA) 0 1 0 2 (LAA) 1 0 0 3 (CE) 0 0 1 3 (CE) 0 1 0 4 (UD) 0 0 0 4 (UD) 0 0 1 Model : Y=a+b1D1+b2D2+b3D3 instead of Y=a+b(TOAST) ‒ ‒ ‒ “흡연하십니까?”라는 질문에 100명이 No라고 대답했다면 “하루에 담배를 몇 대나 피십니까?”라는 질문에도 역시 100명이 N/A 이어야! ‒ ‒ ‒ ‒ ‒ ‒ ‒ ▪ ▪ 이상값 확인(예: 070230) / 논리적 검토(예: 생년과 나이의 불일치, 연구개시일 검토 등) ‒ ‒ ‒ ‒ 결측치에 덜 민감한 분석방법의 선택(예: repeated measures ANOVA / GEE) ‒ ▪ 해당 변수에 대한 자료값들의 average value를 imputing하는 것은 부적절 ▪ 통계적 방법들: single imputation (부적절), multiple imputation (MI) (추천!!) ‒ ‒ ‒ ‒ 분석결과가 서로 비슷하면 Ok 분석결과가 서로 상이하면 이상치에 영향을 많이 받지 않는 분석법(비모수적 방법 혹은 Robust regression 등) 을 선택 ‒ ‒ Two-sample t-test (ANOVA) ‒ (regression analysis) (data transformation) ‒ ‘ ’ ( X): x1, x2, …, xn → : log(x1), log(x2), …, log(xn) → ( Z): z1=log(x1), z2=log(x2), …, zn=log(xn) → (z1, z2, …, zn) → ( : mean, SD ) (back-transformation) ( , logarithmic transformation exponentiation) n  1 zi GM = e GSD = e SD ( z1 , z2 , , zn ) GCI = (e LCL ( z1 ,, z n ) , eUCL ( z1 ,, zn ) ) n i =1 기하평균 기하표준편차 기하신뢰구간 (logarithmic transformation) Z = log10 (Y ) Z = l n (Y ) ‒ ( 10) ( e) ‒ , (square root transformation) Z = Y ‒ ‒ ‒ ( rare event ) 집단 별로 Y값들의 평균이 증가함에 따라 Y값들의 분산도 함께 증가하는 경우, 즉, 집단 별 (분산/ 평균)이 일정한 경우에 효과적 ‒ (square transformation) Z =Y2 ‒. (logit transformation, logistic transformation) ‒ p (p=0 or 1 → ) ‒ S ‒ p = Pr(Y = 1)  p  Z = l n   1− p  자료의 산점도 y 1 0 x ‒ Using graphing techniques and Univariate statistics and bivariate statistics ‒ ‒ The width of the intervals of a histogram is chosen based on the density or sparseness of the data 확률과 통계 𝑃 𝐴 =𝐴 = 𝑎 𝑛 𝐴 𝑃 𝐴 0≤𝑃 𝐴 ≤1 𝑆 𝑃 𝑆 =1 ∅ 𝑃 ∅ =0 𝑃 𝐴 𝐵) = 𝑃(𝐴∩𝐵) 𝑃(𝐵) 𝑃 𝐴 𝐵) = 𝑃 𝐴 𝐵𝑐 = 𝑃(𝐴) 𝑃 𝐴 𝐵) ≠ 𝑃 𝐴 𝐵𝑐 ≠ 𝑃(𝐴) ‒ ‒ ‒ ‒ ‒ 𝑃 𝐴 𝐵) = 𝑃 𝐵𝑃(𝐵) 𝐴) 𝑃(𝐴) ‒ 𝑃 𝐴 , 𝐴 ‒ 𝑃 𝐵 𝐴) 𝐴 𝐵 ‒ 𝑃 𝐴 𝐵 𝐵 𝐴 ‒ 𝑃 𝐵 𝐵 (variable): ‘ ’. (data) ‒ (characteristic) real line 1:1 mapping (function) (random variable) ‒ (variable) real line mapping (probability distribution): : (parameter) ‒ (statistics) type( or ) ‒ : → (probability mass function, pmf) 이항분포(binomial distribution), 포아송 분포(Poisson distribution) 등 ‒ : → (probability density function, pdf) 정규분포(normal distribution), 카이제곱 분포(X2 distribution), t-분포, F-분포 등 참고. 모두의 인공지능 기초수학. 더북 1 𝑥−𝜇 2 𝑓𝑥 = 2𝜋𝜎 2 exp − 2𝜎2 , −∞ < 𝜇 < ∞, 𝜎 2 > 0 1 𝑥𝑘 −𝜇 2 𝐿= ς𝑛𝑘=1 𝑓 𝑥𝑘 = ( 2𝜋𝜎2 𝑛 𝑛 ) exp(− σ𝑘=1 2𝜎2 ) 1 𝑥𝑘 −𝜇 2 𝑙𝑜𝑔𝐿 = σ𝑛𝑘=1 𝑙𝑜𝑔𝑓 𝑥𝑘 = 𝑛𝑙𝑜𝑔 2𝜋𝜎2 exp(− 𝑛 σ𝑘=1 2𝜎2 ) 참고. 모두의 인공지능 기초수학. 더북 예) 재발률이 20%(p=0.2)인 시술. 이 시술을 받은 환자들 10명(n=10) 중 재발이 발생할 환자들의 수(r)에 관한 분포 ⇒ 이항분포(binomial distribution)에 따르게 됨 y-축 높이: 해당 x값에 부여된 확률 따라서 면적 = 확률 x-축 선: - 부터  까지의 실수 구간 Median = 25mg/dl ‒ Mean = 33.7mg/dl → → For skewed variables, report ‘median’ rather than ‘mean’ 모집단 자료의 분포  (표본수와는 관계없음) P(−  x i  ) = 1 P (  −   x   +  ) = 0.683 P (  − 1.282  x   + 1.282 ) = 0.90 P(  − 1.96  x   + 1.96 ) = 0.95 P (  − 2.575  x   + 2.575 ) = 0.99 정규분포(Normal distribution) ( x− )2 1 − f ( x;  ,  ) = e 2 2 2  X ~ N ( ,  2 ) 평균, 표준편차에 의해 형태가 결정됨 표준정규분포 (Standard Normal distribution) X − (표준화) 변환: Z =  z2 1 − f ( z; 0, 1) = e 2 2 Z ~ N (0, 1) 분포의 형태가 정해져 있음 t-분포 X ~ t (df ) (t-distribution) 또는 X ~ t( df ) 표본(sample)의 분포 → 따라서 표본수에 따라 분포 형태가 바뀜 t-분포의 형태는 자유도(degree of freedom, df)에 의해 규정됨 df = 표본 수의 함수 (예: n-1) 카이제곱 분포 (chi-square dist’n) X ~ 2 ( df ) (sample) → (degree of freedom, df) 로그-정규분포 (log-normal dist’n) 오른쪽으로 심하게 치우친 형태의 분포 자료를 로그 변환하면 정규분포화 함 의학연구에서 자주 사용됨 (예: titer, TG) 이항분포 n r (binomial distribution) P( X = r | n,  ) =    (1 −  ) n−r , r = 0, 1, 2, , n r X ~ B ( n,  )  (평균) = n ,  2 (분산) = n (1 −  ) 범주형 확률변수. 독립적인 사건(event) 수에 대한 분포 n = 독립시행의 횟수 / π = 각 시행에서 사건 발생 확률 표본 수가 커지면 정규분포로 근사 포아송 분포 50 50 (Poisson distribution) 40 40 X ~ P(  ) P( 0.5) 30 P(1) 30 빈도 빈도 − e  20 20 r P( X = r |  ) = , r = 0, 1, 2,  10 10 r! 0 0 1 2 3 0 0 1 2 3 4  = ,  =  P05 P1 2 20 12 10 15 (희귀 사건의) 계수자료(count data) 분석에 사용 8 P(5) P(10) 질병의 율(rate)에 관한 분석에 효과적 빈도 빈도 6 10 4 5 2 0 0 2 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 20 1 2 3 4 5 6 7 8 9 10 P10 P5 (location) : an average ‒ (arithmetic mean; mean) ‒ ( , median) n이 홀수? 크기 순으로 나열된 자료의 (n+1)/2 번째 값 n이 짝수? 크기 순으로 나열된 자료의 n/2번째 값과 (n/2 +1)번째 값의 산술평균 ‒ ( , mode) 가장 높은 빈도를 보이는 값 ‒ (geometric mean; GM) 로그변환된 값들의 산술평균을 역변환한 값 y = log e ( x) = l n ( x) – 자연로그를 사용하면 역변환으로 지수변환(exponentiate)을 사용 GM = e x y = log10 ( x) – 상용로그를 사용하면 역변환으로 십진수(10의 몇 승)를 사용 GM = 10 x ‒ (weighted mean) (spreadness), (dispersion), (variability) ‒ (range): R=max-min or (min, max) ‒ (percentile) 아래쪽 기준으로 명명 – 예) 제5백분위수, 5th percentile 십분위수(deciles) / 오분위수(quintiles) / 사분위수(quartiles) / 삼분위수(tertiles) – 사분위수: Q1(=min), Q2(=25th), Q3(=50th, median), Q4(=75th percentile) 사분위 범위(interquartile range, IQR) – IQR=Q3-Q1 십분위 범위(interdecile range, IDR) – IDR=P90-P10 기준구간, 기준범위, 정상범위(reference interval, reference range, normal range) – 자료의 가운데 95%, 즉, 97.5th percentile - 2.5th percentile, 또는 Q3-Q1 (spreadness), (dispersion), (variability) ‒ (variance, Var) ‒ (standard deviation; Std, SD) ‒ (geometric standard deviation; GSD) 로그변환된 값들의 표준편차를 역변환한 값 GM = e x , (coefficient of variation, CV) SD CV = 100(%) x Box: IQR T-bars: the highest and lowest values The horizontal line: Median or Mean ‒ ‒ SE가 크면 얻어진 추정치(즉, 표본평균)가 정밀하지 않다는 것을 의미 SE가 작으면 얻어진 추정치가 정밀하다는 것을 의미 ‒ 표본의 크기를 증가 시키거나, 변동량이 적은 관찰값들을 얻는 것 ‒ ‒ X  1.96  SE ( X ) SD X  1.96  n ‒ X  t0.025 (df )  SE ( X ) SD X  t0.025 (df )  n ‒ ‒ p(1 − p) p  1.96  n ‒ ‒ 411 patients, medical provider 만족도 조사 Ann intern Med, 2001;135:344-351 ‒ ‒ ‒ 임상 자료의 특징 중 하나 예) Cancer occurrence, recurrence, death ‒ Survival curves (생존곡선) Incidence rates (발생율) Anti-throbolytics를 중단한 다음부터 first thromboembolism의 발생할 때까지의 시간 NEJM 2000;343:457-462 참고. 모두의 인공지능 기초수학. 더북 ‒ ‒ ‒ ‒ 흔히 P-값이 0.05보다 작으면 H0 을 기각할 수 있는 증거가 충분하다고 봄. 이 경우 귀무가설을 기각하고 (Reject H0), 해당결과는 유의수준 5%에서 유의하다(statistically significant)고 함 반대로, P-값이 0.05와 같거나 이보다 크면 귀무가설을 기각할 수 있는 증거가 충분하지 않다고 봄. 이 경우 귀무가설을 기각하지 않으며(Do not reject H0), 해당결과는 유의수준 5%에서 유의하지 않다(Not significant) 고함 ‒ ‒ ‒ ‒ ‒ 예를 들어 1% 또는 0.1%라면 P-값이 0.01 또는 0.001보다 작은 경우에 귀무가설을 기각 ‒ ‒ 참고. 모두의 인공지능 기초수학. 더북 참고. 모두의 인공지능 기초수학. 더북 ‒ ‒ ‒ ‒ ‒ 의사 결정 Ho 채택 Ho 기각 Ho 참 OK Type I error (α) 실제 Ho 거짓 Type I error (β) OK ‒ 즉, 실제 차이가 있을 때 이를 발견해 낼 수 있는 확률 ‒ 표본의 수가 커지면 검정력도 커진다 ‒ 유의수준이 커질수록 검정력도 커진다 ‒ 유효크기가 커지면 검정력도 커진다. 즉, 집단 간 평균효과의 차이가 작은 경우보다 큰 경우에 더 쉽게 탐지해 낸다 ‒ 관측값들의 변동이 작을수록 검정력이 커진다 가설 검정 검정 통계량 Z-검정 Z-통계량 T-검정 T-통계량 분산 분석 F-통계량 카이제곱 검정 카이제곱 통계량 구분 T-검정 Z-검정 사용 목적 두 집단 간 평균을 비교하는 검정 용 모집단 평균의 차이를 검 도로 사용 정하는 용도로 사용 언제 사용 모집단의 표준편차를 모를 때 사용 모집단의 표준편차를 알 고 있을 때 사용 표본 크기 적음(30개 이하) 많음(30개 이상) ‒ ‒ ‒ ‒ ‒

Use Quizgecko on...
Browser
Browser