Introduktion til kunstig intelligens matematik og statistik

수학의 기초 ≠ ‒ 𝑥+2≤7 𝑥2 + 5 ≥ 0 𝑦 = 2𝑥 + 3 𝑦 − 2𝑥 − 3 = 0 𝑛 𝑦 = 𝑎𝑛 𝑥 𝑛 + 𝑎𝑛−1 𝑥 𝑛−1 + ⋯ + 𝑎1 𝑥 + 𝑎0 𝑦 = 𝑎 𝑥 (𝑎 > 0, 𝑎 ≠ 1) 𝑦 = 𝑙𝑜𝑔𝑎 𝑥 (𝑥 > 0, 𝑎 > 0, 𝑎 ≠...

수학의 기초 ≠ ‒ 𝑥+2≤7 𝑥2 + 5 ≥ 0 𝑦 = 2𝑥 + 3 𝑦 − 2𝑥 − 3 = 0 𝑛 𝑦 = 𝑎𝑛 𝑥 𝑛 + 𝑎𝑛−1 𝑥 𝑛−1 + ⋯ + 𝑎1 𝑥 + 𝑎0 𝑦 = 𝑎 𝑥 (𝑎 > 0, 𝑎 ≠ 1) 𝑦 = 𝑙𝑜𝑔𝑎 𝑥 (𝑥 > 0, 𝑎 > 0, 𝑎 ≠ 1) 𝑐 𝑏 𝜃 𝑎 𝑒 𝜋 𝑒 = 2.718281828459045235360287471352 … 1 𝑛 𝑒 = lim 1 + 𝑛 𝑛→∞ 𝑦 = 𝑒 𝑥 = exp(𝑥) 1 𝑦= 1 + exp(−𝑥) 𝑦 = 𝑎 𝑥 𝑎 > 0, 𝑎 ≠ 1 𝑥 = 𝑙𝑜𝑔𝑎 𝑦 𝑦 = 𝑙𝑜𝑔𝑎 𝑥 𝑦 = 𝑙𝑜𝑔𝑒 𝑥 𝑙𝑜𝑔𝑎 ς𝑛𝑘=1 𝑝𝑘 = σ𝑛𝑘=1 𝑙𝑜𝑔𝑎 𝑝𝑘 선형대수 𝑎1 𝑎2 𝑎= ⋮ 𝑎𝑝 𝑎′ = (𝑎1 , 𝑎2 , ⋯ , 𝑎𝑝 ) 𝑎11 𝑎1𝑝 𝑎21 ⋯ 𝑎 2𝑝 𝐴𝑛×𝑝 = ⋮ ⋱ ⋮ = (𝑎𝑖𝑗 ) 𝑎𝑛1 ⋯ 𝑎𝑛𝑝 𝑎11 0 0 ⋯ 0 0 𝐷𝑝×𝑝 = ⋮ ⋮ ⋱ ⋮ = 𝑑𝑖𝑎𝑔(𝑎11 , 𝑎22 , ⋯ , 𝑎𝑝𝑝 ) 0 0 ⋯ 𝑎𝑝𝑝 1 0 0 0 𝐼= 0 0 ⋯ 0 ⋮ ⋮ ⋱ ⋮ 0 0 ⋯ 1 𝑎11 𝑎12 𝑎1𝑝 0 𝑎22 ⋯ 𝑎 2𝑝 𝐴𝑝×𝑝 = ⋮ ⋮ ⋱ ⋮ 0 0 ⋯ 𝑎𝑝𝑝 𝑎11 0 0 ⋯ 𝑎21 𝑎22 0 𝐴𝑝×𝑝 = ⋮ ⋮ ⋱ ⋮ 𝑎𝑝1 𝑎𝑝2 ⋯ 𝑎𝑝𝑝 1 1 j= ⋮ 1 𝐴 𝑛×𝑝 𝐴 𝐴′ 𝐴𝑡 참고. 모두의 인공지능 기초수학. 더북 Linear combination ‒ 𝑣1 , 𝑣2 , … , 𝑣𝑝 ‒ 𝑐1 , 𝑐2 , … , 𝑐𝑝 ‒ 𝑦 = 𝑐1 𝑣1 + 𝑐2 𝑣2 + ⋯ + 𝑐𝑝 𝑣𝑝 Span of vectors ‒ 𝑣1 , 𝑣2 , … , 𝑣𝑝 ‒ 𝑠𝑝𝑎𝑛(𝑣1 , 𝑣2 , … , 𝑣𝑝 ) ‒ 𝑣1 , 𝑣2 , … , 𝑣𝑝 ‒ {𝑣1 , 𝑣2 , … , 𝑣𝑝 } ‒ 𝑅3 Linear system Ax=b Linear system ‒ 𝑎Ԧ = 𝑎1 , 𝑎2 , … , 𝑎𝑛 , 𝑏 = 𝑏1 , 𝑏2 , … , 𝑏𝑛 𝑎Ԧ 𝑏 𝑎Ԧ ∙ 𝑏 = 𝑎1 , 𝑎2 , … , 𝑎𝑛 ∙ 𝑏1 , 𝑏2 , … , 𝑏𝑛 = σ𝑛𝑘=1 𝑎𝑘 𝑏𝑘 ‒ ‒ ‒ 𝐿2 𝑥Ԧ 2 = 𝑥12 + 𝑥22 + ⋯ + 𝑥𝑛2 = σ𝑛𝑘=1 𝑥𝑘2 𝐿1 𝑥Ԧ 1 = 𝑥1 + 𝑥2 + ⋯ + 𝑥𝑛 = σ𝑛𝑘=1 𝑥𝑘 𝑝 1/𝑝 𝐿𝑝 𝑥Ԧ 𝑝 𝑝 𝑝 𝑝 = (𝑥1 + 𝑥2 + ⋯ + 𝑥𝑛 )1/𝑝 = (σ𝑛𝑘=1 𝑥𝑘 ) 𝑚×𝑟 𝐴 = (𝑎𝑖𝑗 ) 𝑟×𝑛 𝐵 = (𝑏𝑖𝑗 ) 𝐶 = 𝑐𝑖𝑗 = 𝐴𝐵 𝑐𝑖𝑗 = σ𝑟𝑘=1 𝑎𝑖𝑘 𝑏𝑘𝑗 𝑚×𝑛 0 1 2 0 1 2 𝐴= 3 4 5 B= 2 0 1 6 7 8 1 2 0 0×0 1×1 2×2 0 1 4 𝐴∘𝐵 = 3×2 4×0 5×1 = 6 0 5 6×1 7×2 8×0 6 14 0 𝑚×𝑛 𝐴 = 𝑎𝑖𝑗 𝑏𝑖𝑗 = 𝑎𝑗𝑖 , 𝑖 = 1, … , 𝑚 , 𝑗 = 1, … , 𝑛 𝐵 = (𝑏𝑖𝑗 ) 𝐴 𝐵 = 𝐴𝑡 𝑛×𝑛 𝐴 = 𝑎𝑖𝑗 𝑡𝑟 𝐴 𝑡𝑟 𝐴 = σ𝑛𝑖=1 𝑎𝑖𝑖 𝐴 𝑐 𝐴 ∶ 𝑐𝐴𝑛×𝑝 𝐴 + 𝐵 = 𝑎𝑖𝑗 + 𝑏𝑖𝑗 = (𝑎𝑖𝑗 + 𝑏𝑖𝑗 ) 𝐴𝐵𝑛×𝑝 = 𝐴𝑛×𝑘 𝐵𝑘×𝑝 𝑄 𝑄𝑄 ′ = 𝑄 ′ 𝑄 = 𝐼 𝑄 ′ = 𝑄 −1 1 1 ⋯ 1 1 1 ⋯ 1 𝐽= = 𝑗𝑗′ ⋮ ⋮ ⋮ 1 1 ⋯ 1 𝑆 𝑝×𝑝 𝑎 𝑝×1 𝑠11 ⋯ 𝑠1𝑝 𝑎1 𝑎′ 𝑆𝑎 = 𝑎1 , ⋯ , 𝑎𝑝 ⋮ ⋱ ⋮ ⋮ = σ𝑖 𝑎𝑖2 𝑠𝑖𝑖 + σ𝑖≠𝑗 𝑎𝑖 𝑎𝑗 𝑠𝑖𝑗 𝑠𝑝1 ⋯ 𝑠𝑝𝑝 𝑎𝑝 𝑛×𝑛 𝐴 𝑡𝑟 𝐴 = σ𝑛𝑖=1 𝑎𝑖𝑖 𝐴, 𝐵 𝑡𝑟 𝐴 + 𝐵 = 𝑡𝑟 𝐴 + 𝑡𝑟 𝐵 𝑡𝑟 𝐴𝐵 = 𝑡𝑟(𝐵𝐴) 𝐴 𝐵 𝐴11 𝐴12 𝐵11 𝐵12 𝐴= , 𝐵= 𝐴21 𝐴22 𝐵21 𝐵22 𝐴 𝐴 𝐵11 𝐵12 𝐴11 𝐵11 + 𝐴12 𝐵21 𝐴11 𝐵12 + 𝐴12 𝐵22 𝐴𝐵 = 𝐴11 𝐴12 𝐵21 𝐵22 𝐴21 𝐵11 + 𝐴22 𝐵21 𝐴21 𝐵12 + 𝐴22 𝐵22 21 22 행렬의 결정식(determinant) 𝑛×𝑛 𝐴 ȁ𝐴 ȁ det(𝐴) 2×2 𝑎11 𝑎12 det 𝑎 𝑎22 = 𝑎11 𝑎22 − 𝑎12 𝑎21 21 3×3 𝑎11 𝑎12 𝑎13 det 𝑎21 𝑎22 𝑎23 = 𝑎11 𝑎22 𝑎33 + 𝑎12 𝑎23 𝑎31 + 𝑎13 𝑎21 𝑎32 𝑎31 𝑎32 𝑎33 − 𝑎13 𝑎22 𝑎31 − 𝑎12 𝑎21 𝑎33 − 𝑎11 𝑎23 𝑎32 Cramer’s rule 𝒏×𝒏 𝒃 ∈ 𝑹𝒏 𝑨𝒙 = 𝒃 𝒙= [𝒙𝟏 , 𝒙𝟐 , … , 𝒙𝒏 ] 𝑨−𝟏 행렬의 계수 𝑛 𝑎1 , 𝑎2 , ⋯ , 𝑎𝑛 𝑐1 𝑎1 + 𝑐2 𝑎2 + ⋯ + 𝑐𝑛 𝑎𝑛 = 0 𝑐1 , 𝑐2 , ⋯ , 𝑐𝑛 𝐴 𝑟𝑎𝑛𝑘 𝐴 = 𝐴 𝐴 𝑟𝑎𝑛𝑘 𝐴 = 𝑟𝑎𝑛𝑘(𝐴′ ) 역행렬 𝐴 𝐴−1 𝐴𝐴−1 = 𝐴−1 𝐴 = 𝐼. 𝑟𝑎𝑛𝑘 𝐴𝐵 = 𝑟𝑎𝑛𝑘(𝐵) (𝐴𝐵)−1 = 𝐵 −1 𝐴−1 𝐴 𝐴𝐵 = 𝐴𝐶 𝐵=𝐶 양정치행렬과 반양치행렬 𝑥≠0 𝑥 𝑥 ′ 𝐴𝑥 > 0 𝐴 𝑥≠0 𝑥 𝑥 ′ 𝐴𝑥 ≥ 0 𝐴 직교벡터와 직교행렬 𝑝×1 𝑎 = (𝑎1 , 𝑎2 , … , 𝑎𝑝 )′ b = (𝑏1 , 𝑏2 , … , 𝑏𝑝 )′ 𝑎′ 𝑏 = 𝑎1 𝑏1 + 𝑎2 𝑏2 + … + 𝑎𝑝 𝑏𝑝 = 0 𝑎 𝑏 𝐴−1 = 𝐴′ 선형변환 𝑉 𝑊 𝑇 𝑉 𝑢, 𝑣 𝜆1 , 𝜆2 𝑇 𝜆1 𝑣1 + 𝜆2 𝑣2 = 𝜆1 𝑇 𝑣1 + 𝜆2 𝑇(𝑣2 ) 𝑇 𝑉 𝑊 𝑇: 𝑉 → 𝑊 고유값과 고유벡터 𝐴 𝐴𝑢 = 𝜆𝑢 𝜆 𝐴 𝑢 𝜆 Eigenvalue, determinant, trace Diagonalization 𝒏×𝒏 𝒏×𝒏 𝑺−𝟏 𝑨𝑺 Eigendecomposition ‒ 𝒏×𝒏 Λ 𝑆Λ−1 𝑆 ‒ 거듭제곱 행렬의 eigenvalue 대칭행렬의 고유벡터 직교성 고유값과 고유벡터의 성질 𝑝×𝑝 𝐴 𝑝 𝜆1 , 𝜆2 , … , 𝜆𝑝 𝑥1 , 𝑥2 , … , 𝑥𝑝 ‒ 𝐴𝑥 = 𝜆𝑥 ‒ 𝐴 − 𝜆𝐼 𝑥 = 0 ‒ 𝐴 − 𝜆𝐼 = 0 𝑝 ‒ 𝑡𝑟 𝐴 = σ𝑖=1 𝜆𝑖 𝑝 ‒ 𝐴 = ς𝑖=1 𝜆𝑖 𝑝 ‒ 𝐼 + 𝐴 = ς𝑖=1(1 + 𝜆𝑖 ) 고유값의 성질 𝑝×𝑝 𝐴 𝑝 𝜆1 , 𝜆2 , … , 𝜆𝑝 𝑒1 , 𝑒2 , … , 𝑒𝑝 𝐴 tr 𝐴 𝐴 𝐴 𝐴2 𝜆12 , … , 𝜆2𝑝 𝑒1 , 𝑒2 , … , 𝑒𝑝 𝐴 𝑝×𝑝 𝐴 𝜆 𝐵 𝜇 𝐴𝐵 λ𝜇 𝐴 𝐵 𝐴𝐵 𝐵𝐴 7. 𝑛×𝑝 𝐴 𝑝×𝑛 𝐵 𝐴𝐵 𝐵𝐴 행렬의 분해 𝑚×𝑛 𝑚×𝑛 스펙트럼분해 𝑝×𝑝 𝐴 𝑝 𝐴 = 𝑃Λ𝑃′ = σ𝑖=1 𝜆𝑖 𝑒𝑖 𝑒𝑖 ′ 𝜆𝑖 𝐴 𝑒𝑖 𝑃𝑃′ = 𝑃′ 𝑃 = 𝐼 𝑃 𝑃 = [𝑒1 , … , 𝑒𝑛 ] Λ 𝐴 𝐴−1 = 𝑃Λ−1 𝑃′ = σ𝑝𝑖=1 𝜆1 𝑒𝑖 𝑒𝑖 ′ 𝑖 𝐴 𝑃 𝑃′ 𝐴𝑃 = Λ Λ 𝑝 𝐼 = σ𝑖=1 𝑒𝑖 𝑒𝑖 ′ 𝑒𝑖 = (0, … , 1 , … , 0)′ 스펙트럼 분해 LU 분해 Gaussian elimination A LU ‒ ‒ ‒ ‒ 촐레스키 분해 𝐴 = 𝑈𝑇 𝑈 𝐴 = 𝑈𝑇 𝑈 A semi-positive definite 특이값 분해 벡터와 행렬의 미분 𝑝 𝑢 = 𝑓(𝑥1 , 𝑥2 , … , 𝑥𝑝 ) 𝑥𝑖 𝜕𝑢 𝜕𝑥1 𝜕𝑢 𝜕𝑢 𝜕𝑥 = 𝜕𝑥2 ⋮ 𝜕𝑢 𝜕𝑥𝑝 𝜕𝑢 𝜕𝑎′ 𝑥 𝜕𝑥 ′ 𝑎 𝑢=𝑎𝑥=𝑥𝑎 ′ ′ 𝜕𝑥 = 𝜕𝑥 = 𝜕𝑥 =𝑎 𝐴 𝑢 = 𝑥 ′ 𝐴𝑥 𝑥 𝜕𝑢 𝜕𝑥 ′ 𝐴𝑥 = = 2𝐴𝑥 𝜕𝑥 𝜕𝑥 lim 𝑦 = lim 𝑥 2 + 1 = 1 𝑥→0 𝑥→0 𝑦 = 𝑓 𝑥 𝑥 → 𝑥 + ∆𝑥 𝑦 = 𝑓 𝑥 + ∆𝑥 ∆𝑦 = 𝑓 𝑥 + ∆𝑥 − 𝑓(𝑥) ∆𝑦 𝑓 𝑥+∆𝑥 −𝑓 𝑥 ∆𝑥 = ∆𝑥 𝑓 𝑥+∆𝑥 −𝑓(𝑥) 𝑑𝑓(𝑥) 𝑑 𝑓′ 𝑥 = lim ∆𝑥 = 𝑑𝑥 = 𝑑𝑥 𝑓(𝑥) ∆𝑥→0 𝑓(𝑥) 𝑥(𝑥 ≠ 𝑎) 𝑎 𝑓(𝑥) 𝑏 𝑓(𝑥) 𝑏 𝑥→𝑎 𝑓(𝑥) → 𝑏 lim 𝑓(𝑥) = 𝑏 𝑥→𝑎 𝑓(𝑥) 𝑥→𝑎 𝑓(𝑥) → ∞ lim 𝑓(𝑥) = ∞ 𝑥→𝑎 𝑥→𝑎 𝑓 𝑥 → −∞ lim 𝑓(𝑥) = −∞ 𝑥→𝑎 ‒ 𝑓(𝑥) 𝑥=𝑎 ‒ lim 𝑓(𝑥) 𝑥→𝑎 ‒ lim 𝑓(𝑥) = 𝑓(𝑎) 𝑥→𝑎 𝑦 = 𝑎(𝑥 − 𝑝)2 +𝑞 ‒ 𝑎 > 0, 𝑞 ‒ 𝑎 < 0, 𝑞 𝑑𝑦 𝑑2𝑦 𝑑𝑦 𝑥3 𝑑𝑥 + 2𝑦 = 0 𝑑𝑥 2 + 2𝑥 2 𝑑𝑥 =0 𝑑𝑦 𝑑𝑥 𝑑 𝑑 𝑑 ‒ 𝑓(𝑥) ± 𝑔(𝑥) = 𝑑𝑥 𝑓 𝑥 ± 𝑑𝑥 𝑔 𝑥 = 𝑓′(𝑥) ± 𝑔′(𝑥) 𝑑𝑥 𝑑 ‒ 𝑓(𝑥)𝑔(𝑥) = 𝑓 ′ 𝑥 𝑔 𝑥 + 𝑓 𝑥 𝑔′ (𝑥) 𝑑𝑥 𝑑 𝑓(𝑥) 𝑔 𝑥 𝑓′ 𝑥 −𝑓 𝑥 𝑔′(𝑥) 𝑓′ 𝑔−𝑓𝑔′ ‒ = = 𝑑𝑥 𝑔(𝑥) 𝑔(𝑥)2 𝑔2 ‒ 𝜕𝑧 𝜕𝑧 𝑧 = 𝑓(𝑥, 𝑦) 𝑑𝑧 = 𝜕𝑥 𝑑𝑥 + 𝜕𝑦 𝑑𝑦 𝜕𝑧 𝑛 𝑧 𝑑𝑧 = σ𝑛𝑖=1 𝜕𝑥𝑖 𝑑𝑥𝑖 𝑓 𝑥, 𝑦 = 3𝑥 2 + 4𝑥𝑦 + 5𝑦 3 𝜕 𝜕 𝜕𝑥 𝑓 𝑥, 𝑦 = 6𝑥 + 4𝑦 𝜕𝑦 𝑓 𝑥, 𝑦 = 4𝑥 + 15𝑦 2 𝑑𝑧 = (6𝑥 + 4𝑦)𝑑𝑥 + (4𝑥 + 15𝑦 2 )𝑑𝑦 𝑧 = 𝑓 𝑢, 𝑣 , 𝑢 = 𝑔 𝑥 , 𝑣 = ℎ 𝑥 𝜕𝑧 𝜕𝑧 𝑑𝑧 = 𝜕𝑢 𝑑𝑢 + 𝑑𝑣 𝜕𝑣 𝑑𝑧 𝜕𝑧 𝑑𝑢 𝜕𝑧 𝑑𝑣 𝑑𝑥 = 𝜕𝑢 𝑑𝑥 + 𝜕𝑣 𝑑𝑥 𝑑𝑧 𝜕𝑧 𝑑𝑢𝑖 𝑑𝑥 = σ𝑚 𝑖=𝑖 𝜕𝑢 𝑑𝑥 𝑖 ‒ ‒ ‒ ‒ ‒ ‒ ‒ 추정(estimation) 가설검정(hypothesis testing) 비교집단 의 필요성 ‒ ‒ Attention of Drs / Psychology of Pts / Adjusting life style / Comedication, etc. ‒ 무작위화 확률화 ‒ ‒ Known risk factor들 뿐만 아니라 unknown risk factor 들에 대해서도 ‒ 눈가림 맹검 ‒ ‒ ‒ ‒ ‒ (systematic error) ‒ (target population) (actual population) ‒ “정확하다(accurate)" → 즉, 결과의 타당성(validity)이 높다 ‒ (validity) 연구자가 의도하는 바를 연구도구가 얼마나 충실하게 측정해주는지의 정도 , (random error) ‒ (sampling frame, actual population) (sample, study population) ‒ “정밀하다(precise)” → 즉, 결과의 신뢰성(reliability)이 높다 ‒ (reliability) 측정해야 할 내용을 연구도구가 얼마나 일관되게 측정해주는지의 정도 (accuracy) ‒ Lack of systematic error (internal validity) ‒ (precision) ‒ Lack of random error (reliability) ‒ ‒ (size) Study design principles systematic error ! ‒ ‒ ‒ ‒ ‒ Bias 방지 Paper 작성 시 이를 요약: Method Sec.을 충분히 채울 수 있음을 의미 ‒ Data collection instrument, IRB forms, Protocol for training study staff, Decision rules on data coding, 기타 연구 도중에 만들어진 모든 material ‒ ‒ ‒ ‒ ‒ ‒ ‒ ‒ ( ) [categorical (qualitative) data] ‒ (nominal data) 두 범주: 이진수 자료(binary data), 이분형 자료(dichotomous data) 예: 혈액형(A/B/O/AB), 성별(남/여) ‒ (ordinal data) 예: 통증강도(severe/moderate/mild/none) ( ) [numerical (quantitative) data] ‒ (discrete data) 계수 자료(count data) 예: 동반질환의 수, 재원일수 ‒ (continuous data) 예: 혈압, 콜레스테롤 수치, 연령 (derived data) ‒ (percentage), (proportion) ( : ) ‒ (ratio, quotient) ( , : BMI) ‒ (rate) ( , : - , ) ‒ (score) ( , : ) (censored data) ‒ 기준점(cut-off value) 이하이기 때문에 undetectable 하게 된 절단값 ‒ 종료점(endpoint)을 관찰하지 못한 불완전 자료(incomplete data) 이유: 중도탈락/동의철회/연구종료 등 확률변수 코딩(coding) 양적 변수 질적 변수 질적 변수도 숫자로 코딩하면 확률변수가 됨 이산형 변수(discrete variable) (qualitative variable) 정수로 표현되는 경우에는 범주형 변수(categorical variable) ‒ (nominal variable): / 이진수 변수(binary variable): 두 개의 값만 취하는 명목형 변수 (예: 성별) (quantitative variable) ‒ (ordinal variable): / , 범주형 변수에 해당하나 연속형 변수로 취급하는 경우도 있음 (예: 중증도) Likert’s 5-point scale (리커트의 5점 척도) ‒ (interval variable): / /. 0 ‒ (ratio variable): / / / 0 굳이 구간형 변수(예: 온도)와 비 형 변수(예: 체중)를 구분할 필요는 없음 (일단은) 둘 다 연속형 변수로 간주하면 됨 연속형 변수(continuous variable) (independent variable), (explanatory variable) ‒ (cause) (dependent variable), (response variable) ‒ (outcome) 결과(종속변수) 원인(독립변수) 단변수 분석 y x y = + x (univariable analysis) 결과(종속변수) 원인들(독립변수들) 다변수 분석 y x1 x2 … xk (multivariable analysis) y =  0 + 1 x1 +  +  k xk cf.) 다변량 분석 (multivariate analysis) 결과 원인 종속변수, 반응변수, Y 독립변수, 설명변수, X 하나: 단변량 - (univariate -) 하 나 : 단변수 분석(univariable analysis) 여러 개: 다변량 - (multivariate -) 단순 - (simple -) 여러 개: 다변수 분석(multivariable analysis) 종속(반응)변수, y 다중 - (multiple -) 이산형(범주형) 연속형 2 – 검정 (행 vs 열) t-test 명목형 vs. 명목형 분산분석(ANOVA) 독립(설명)변수, x 범주형 명목형 vs. 순서형 반복측정 분산분석 순서형 vs. 순서형 GEE 기타 특수한 경우의 분석 방법들: 로지스틱 회귀분석 회귀분석 상관분석, 생존분석, 시계열분석, 연속형 (logistic regression) (Regression) log-linear 분석, 비모수 분석, 다변량분석 기법들, 메타분석, 로지스틱 회귀분석 공분산분석 혼합 일반선형모형(GLM) (ANCOVA) 생동성 검정 등등……… 일반화 추정방정식(GEE) ‒ ( ) ‒ 0/1 ( =1 / ‘ =0) 만일 1/2로 코딩하는 경우: 자료분석 시 (1/2)→(1/0)으로 recoding 해서 분석 (중요!) ‒ 크기를 줄여서 입력하는 것 지양 ‒ alerting worksheet ‒ Unique ID ( )– ! : / (missing value) : default value(. ) ‒ (yes, no) = (0, 1), (1, 0), (1, 2), (0, -1) doesn’t really matter Computer output – Same coefficient and significance level (i.e., p-value) – Only the sign of the coefficient may change ‒ 예) (yes, no) = (1, -1) ‒ ‒ ‒ Other undetermined etiology group has 4 times larger effect than small vessel occlusion group in its size ??? ‒ TOAST D1 D2 D3 Meaning of dummy coding SVO 1 0 0 If (D1, D 2, D3) = (1, 0, 0), then TOAST = 1 (SVO) LAA 0 1 0 If (D1, D 2, D3) = (0, 1, 0), then TOAST = 2 (LAA) CE 0 0 1 If (D1, D 2, D3) = (0, 0, 1), then TOAST = 3 (CE) UD 0 0 0 If (D1, D 2, D3) = (0, 0, 0), then TOAST = 4 (UD) 가변수 생성 방법 ‒ Need to create k-1 dummy variables First of all, need to decide a reference category Example (SPSS: can use first or last category as a reference) TOAST D1 D2 D3 TOAST D1 D2 D3 1 (SVO) 1 0 0 1 (SVO) 0 0 0 2 (LAA) 0 1 0 2 (LAA) 1 0 0 3 (CE) 0 0 1 3 (CE) 0 1 0 4 (UD) 0 0 0 4 (UD) 0 0 1 Model : Y=a+b1D1+b2D2+b3D3 instead of Y=a+b(TOAST) ‒ ‒ ‒ “흡연하십니까?”라는 질문에 100명이 No라고 대답했다면 “하루에 담배를 몇 대나 피십니까?”라는 질문에도 역시 100명이 N/A 이어야! ‒ ‒ ‒ ‒ ‒ ‒ ‒ ▪ ▪ 이상값 확인(예: 070230) / 논리적 검토(예: 생년과 나이의 불일치, 연구개시일 검토 등) ‒ ‒ ‒ ‒ 결측치에 덜 민감한 분석방법의 선택(예: repeated measures ANOVA / GEE) ‒ ▪ 해당 변수에 대한 자료값들의 average value를 imputing하는 것은 부적절 ▪ 통계적 방법들: single imputation (부적절), multiple imputation (MI) (추천!!) ‒ ‒ ‒ ‒ 분석결과가 서로 비슷하면 Ok 분석결과가 서로 상이하면 이상치에 영향을 많이 받지 않는 분석법(비모수적 방법 혹은 Robust regression 등) 을 선택 ‒ ‒ Two-sample t-test (ANOVA) ‒ (regression analysis) (data transformation) ‒ ‘ ’ ( X): x1, x2, …, xn → : log(x1), log(x2), …, log(xn) → ( Z): z1=log(x1), z2=log(x2), …, zn=log(xn) → (z1, z2, …, zn) → ( : mean, SD ) (back-transformation) ( , logarithmic transformation exponentiation) n  1 zi GM = e GSD = e SD ( z1 , z2 , , zn ) GCI = (e LCL ( z1 ,, z n ) , eUCL ( z1 ,, zn ) ) n i =1 기하평균 기하표준편차 기하신뢰구간 (logarithmic transformation) Z = log10 (Y ) Z = l n (Y ) ‒ ( 10) ( e) ‒ , (square root transformation) Z = Y ‒ ‒ ‒ ( rare event ) 집단 별로 Y값들의 평균이 증가함에 따라 Y값들의 분산도 함께 증가하는 경우, 즉, 집단 별 (분산/ 평균)이 일정한 경우에 효과적 ‒ (square transformation) Z =Y2 ‒. (logit transformation, logistic transformation) ‒ p (p=0 or 1 → ) ‒ S ‒ p = Pr(Y = 1)  p  Z = l n   1− p  자료의 산점도 y 1 0 x ‒ Using graphing techniques and Univariate statistics and bivariate statistics ‒ ‒ The width of the intervals of a histogram is chosen based on the density or sparseness of the data 확률과 통계 𝑃 𝐴 =𝐴 = 𝑎 𝑛 𝐴 𝑃 𝐴 0≤𝑃 𝐴 ≤1 𝑆 𝑃 𝑆 =1 ∅ 𝑃 ∅ =0 𝑃 𝐴 𝐵) = 𝑃(𝐴∩𝐵) 𝑃(𝐵) 𝑃 𝐴 𝐵) = 𝑃 𝐴 𝐵𝑐 = 𝑃(𝐴) 𝑃 𝐴 𝐵) ≠ 𝑃 𝐴 𝐵𝑐 ≠ 𝑃(𝐴) ‒ ‒ ‒ ‒ ‒ 𝑃 𝐴 𝐵) = 𝑃 𝐵𝑃(𝐵) 𝐴) 𝑃(𝐴) ‒ 𝑃 𝐴 , 𝐴 ‒ 𝑃 𝐵 𝐴) 𝐴 𝐵 ‒ 𝑃 𝐴 𝐵 𝐵 𝐴 ‒ 𝑃 𝐵 𝐵 (variable): ‘ ’. (data) ‒ (characteristic) real line 1:1 mapping (function) (random variable) ‒ (variable) real line mapping (probability distribution): : (parameter) ‒ (statistics) type( or ) ‒ : → (probability mass function, pmf) 이항분포(binomial distribution), 포아송 분포(Poisson distribution) 등 ‒ : → (probability density function, pdf) 정규분포(normal distribution), 카이제곱 분포(X2 distribution), t-분포, F-분포 등 참고. 모두의 인공지능 기초수학. 더북 1 𝑥−𝜇 2 𝑓𝑥 = 2𝜋𝜎 2 exp − 2𝜎2 , −∞ < 𝜇 < ∞, 𝜎 2 > 0 1 𝑥𝑘 −𝜇 2 𝐿= ς𝑛𝑘=1 𝑓 𝑥𝑘 = ( 2𝜋𝜎2 𝑛 𝑛 ) exp(− σ𝑘=1 2𝜎2 ) 1 𝑥𝑘 −𝜇 2 𝑙𝑜𝑔𝐿 = σ𝑛𝑘=1 𝑙𝑜𝑔𝑓 𝑥𝑘 = 𝑛𝑙𝑜𝑔 2𝜋𝜎2 exp(− 𝑛 σ𝑘=1 2𝜎2 ) 참고. 모두의 인공지능 기초수학. 더북 예) 재발률이 20%(p=0.2)인 시술. 이 시술을 받은 환자들 10명(n=10) 중 재발이 발생할 환자들의 수(r)에 관한 분포 ⇒ 이항분포(binomial distribution)에 따르게 됨 y-축 높이: 해당 x값에 부여된 확률 따라서 면적 = 확률 x-축 선: - 부터  까지의 실수 구간 Median = 25mg/dl ‒ Mean = 33.7mg/dl → → For skewed variables, report ‘median’ rather than ‘mean’ 모집단 자료의 분포  (표본수와는 관계없음) P(−  x i  ) = 1 P (  −   x   +  ) = 0.683 P (  − 1.282  x   + 1.282 ) = 0.90 P(  − 1.96  x   + 1.96 ) = 0.95 P (  − 2.575  x   + 2.575 ) = 0.99 정규분포(Normal distribution) ( x− )2 1 − f ( x;  ,  ) = e 2 2 2  X ~ N ( ,  2 ) 평균, 표준편차에 의해 형태가 결정됨 표준정규분포 (Standard Normal distribution) X − (표준화) 변환: Z =  z2 1 − f ( z; 0, 1) = e 2 2 Z ~ N (0, 1) 분포의 형태가 정해져 있음 t-분포 X ~ t (df ) (t-distribution) 또는 X ~ t( df ) 표본(sample)의 분포 → 따라서 표본수에 따라 분포 형태가 바뀜 t-분포의 형태는 자유도(degree of freedom, df)에 의해 규정됨 df = 표본 수의 함수 (예: n-1) 카이제곱 분포 (chi-square dist’n) X ~ 2 ( df ) (sample) → (degree of freedom, df) 로그-정규분포 (log-normal dist’n) 오른쪽으로 심하게 치우친 형태의 분포 자료를 로그 변환하면 정규분포화 함 의학연구에서 자주 사용됨 (예: titer, TG) 이항분포 n r (binomial distribution) P( X = r | n,  ) =    (1 −  ) n−r , r = 0, 1, 2, , n r X ~ B ( n,  )  (평균) = n ,  2 (분산) = n (1 −  ) 범주형 확률변수. 독립적인 사건(event) 수에 대한 분포 n = 독립시행의 횟수 / π = 각 시행에서 사건 발생 확률 표본 수가 커지면 정규분포로 근사 포아송 분포 50 50 (Poisson distribution) 40 40 X ~ P(  ) P( 0.5) 30 P(1) 30 빈도 빈도 − e  20 20 r P( X = r |  ) = , r = 0, 1, 2,  10 10 r! 0 0 1 2 3 0 0 1 2 3 4  = ,  =  P05 P1 2 20 12 10 15 (희귀 사건의) 계수자료(count data) 분석에 사용 8 P(5) P(10) 질병의 율(rate)에 관한 분석에 효과적 빈도 빈도 6 10 4 5 2 0 0 2 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 20 1 2 3 4 5 6 7 8 9 10 P10 P5 (location) : an average ‒ (arithmetic mean; mean) ‒ ( , median) n이 홀수? 크기 순으로 나열된 자료의 (n+1)/2 번째 값 n이 짝수? 크기 순으로 나열된 자료의 n/2번째 값과 (n/2 +1)번째 값의 산술평균 ‒ ( , mode) 가장 높은 빈도를 보이는 값 ‒ (geometric mean; GM) 로그변환된 값들의 산술평균을 역변환한 값 y = log e ( x) = l n ( x) – 자연로그를 사용하면 역변환으로 지수변환(exponentiate)을 사용 GM = e x y = log10 ( x) – 상용로그를 사용하면 역변환으로 십진수(10의 몇 승)를 사용 GM = 10 x ‒ (weighted mean) (spreadness), (dispersion), (variability) ‒ (range): R=max-min or (min, max) ‒ (percentile) 아래쪽 기준으로 명명 – 예) 제5백분위수, 5th percentile 십분위수(deciles) / 오분위수(quintiles) / 사분위수(quartiles) / 삼분위수(tertiles) – 사분위수: Q1(=min), Q2(=25th), Q3(=50th, median), Q4(=75th percentile) 사분위 범위(interquartile range, IQR) – IQR=Q3-Q1 십분위 범위(interdecile range, IDR) – IDR=P90-P10 기준구간, 기준범위, 정상범위(reference interval, reference range, normal range) – 자료의 가운데 95%, 즉, 97.5th percentile - 2.5th percentile, 또는 Q3-Q1 (spreadness), (dispersion), (variability) ‒ (variance, Var) ‒ (standard deviation; Std, SD) ‒ (geometric standard deviation; GSD) 로그변환된 값들의 표준편차를 역변환한 값 GM = e x , (coefficient of variation, CV) SD CV = 100(%) x Box: IQR T-bars: the highest and lowest values The horizontal line: Median or Mean ‒ ‒ SE가 크면 얻어진 추정치(즉, 표본평균)가 정밀하지 않다는 것을 의미 SE가 작으면 얻어진 추정치가 정밀하다는 것을 의미 ‒ 표본의 크기를 증가 시키거나, 변동량이 적은 관찰값들을 얻는 것 ‒ ‒ X  1.96  SE ( X ) SD X  1.96  n ‒ X  t0.025 (df )  SE ( X ) SD X  t0.025 (df )  n ‒ ‒ p(1 − p) p  1.96  n ‒ ‒ 411 patients, medical provider 만족도 조사 Ann intern Med, 2001;135:344-351 ‒ ‒ ‒ 임상 자료의 특징 중 하나 예) Cancer occurrence, recurrence, death ‒ Survival curves (생존곡선) Incidence rates (발생율) Anti-throbolytics를 중단한 다음부터 first thromboembolism의 발생할 때까지의 시간 NEJM 2000;343:457-462 참고. 모두의 인공지능 기초수학. 더북 ‒ ‒ ‒ ‒ 흔히 P-값이 0.05보다 작으면 H0 을 기각할 수 있는 증거가 충분하다고 봄. 이 경우 귀무가설을 기각하고 (Reject H0), 해당결과는 유의수준 5%에서 유의하다(statistically significant)고 함 반대로, P-값이 0.05와 같거나 이보다 크면 귀무가설을 기각할 수 있는 증거가 충분하지 않다고 봄. 이 경우 귀무가설을 기각하지 않으며(Do not reject H0), 해당결과는 유의수준 5%에서 유의하지 않다(Not significant) 고함 ‒ ‒ ‒ ‒ ‒ 예를 들어 1% 또는 0.1%라면 P-값이 0.01 또는 0.001보다 작은 경우에 귀무가설을 기각 ‒ ‒ 참고. 모두의 인공지능 기초수학. 더북 참고. 모두의 인공지능 기초수학. 더북 ‒ ‒ ‒ ‒ ‒ 의사 결정 Ho 채택 Ho 기각 Ho 참 OK Type I error (α) 실제 Ho 거짓 Type I error (β) OK ‒ 즉, 실제 차이가 있을 때 이를 발견해 낼 수 있는 확률 ‒ 표본의 수가 커지면 검정력도 커진다 ‒ 유의수준이 커질수록 검정력도 커진다 ‒ 유효크기가 커지면 검정력도 커진다. 즉, 집단 간 평균효과의 차이가 작은 경우보다 큰 경우에 더 쉽게 탐지해 낸다 ‒ 관측값들의 변동이 작을수록 검정력이 커진다 가설 검정 검정 통계량 Z-검정 Z-통계량 T-검정 T-통계량 분산 분석 F-통계량 카이제곱 검정 카이제곱 통계량 구분 T-검정 Z-검정 사용 목적 두 집단 간 평균을 비교하는 검정 용 모집단 평균의 차이를 검 도로 사용 정하는 용도로 사용 언제 사용 모집단의 표준편차를 모를 때 사용 모집단의 표준편차를 알 고 있을 때 사용 표본 크기 적음(30개 이하) 많음(30개 이상) ‒ ‒ ‒ ‒ ‒

Introduktion til kunstig intelligens matematik og statistik

Document Details

Tags

Related

Summary

Full Transcript