통계학 독립적 사건 및 포아송 분포

Podcast

Play an AI-generated podcast conversation about this lesson

Download our mobile app to listen on the go

Get App

Questions and Answers

더미 변수를 생성할 때 필요한 더미 변수의 수는 몇 개입니까?

k-1 (correct)
k+1
k/2
k

모델에서 TOAST 변수를 사용하지 않고 대체로 어떤 형태로 나타낼 수 있습니까?

Y=a+b(TOAST)
Y=a+b1D1+b2D2+b3D3 (correct)
Y=a+bD1+D2+D3
Y=a+b1+b2+b3

가변수 생성 시 기준 카테고리를 선택하는 역할은 무엇입니까?

상대적인 비교를 위한 기준 (correct)
더미 변수를 불필요하게 줄이기 위해
모든 카테고리를 포함하기 위해
관측치를 늘리기 위해

더미 코딩에서 D1, D2, D3가 (1, 0, 0)을 나타내면 TOAST 값은 몇입니까?

1 (SVO) (B) Signup and view all the answers

다음 중 더미 변수 생성에서 잘못된 설명은 무엇입니까?

모든 카테고리를 나타내기 위해 n개의 더미 변수가 필요하다. (C) Signup and view all the answers

로지스틱 회귀분석에서 0과 1의 코드 변환 시 어떤 값으로 리코딩하는 것이 중요합니까?

(1, 0) (B) Signup and view all the answers

일반화 추정방정식(GEE)의 분석 시 주의해야 할 점은 무엇입니까?

데이터 입력 시 크기를 줄여서는 안 된다. (D) Signup and view all the answers

로지스틱 회귀분석에서의 컴퓨터 출력과 관련하여 어떤 설명이 옳습니까?

계수의 부호가 변할 수 있지만 p-value는 항상 같다. (C) Signup and view all the answers

다변량 분석 기법의 예로 적절하지 않은 것은 무엇입니까?

일차원 분석 (D) Signup and view all the answers

기타 특수한 경우의 분석 방법으로 포함되지 않은 것은 무엇입니까?

단변량 분석 (B) Signup and view all the answers

정규분포에서 평균과 표준편차는 무엇을 결정하는가?

분포의 형태 (A) Signup and view all the answers

다음 중 이항분포의 평균을 올바르게 나타낸 식은 무엇인가?

$n eta$ (D) Signup and view all the answers

표준 정규분포에서 Z 점수를 구하는 공식에서 Z는 무엇을 의미하는가?

변환된 값 (A) Signup and view all the answers

로그-정규분포는 어떤 형태의 분포인가?

오른쪽으로 심하게 치우친 분포 (A) Signup and view all the answers

T-분포의 형태는 어떤 요소에 의해 결정되는가?

자유도 (A) Signup and view all the answers

정규분포에서 $P( \mu - 1.96 \sigma \leq x \leq \mu + 1.96 \sigma )$의 값은 무엇인가?

0.95 (D) Signup and view all the answers

정규분포의 밀도함수는 어떤 수식으로 표현되는가?

$f(x; \mu, \sigma) = \frac{1}{\sqrt{2\pi\sigma^2}} e^{-rac{(x - \mu)^2}{2\sigma^2}}$ (B) Signup and view all the answers

모집단의 자료에 대해 $P( \mu - 2.575 \sigma \leq x \leq \mu + 2.575 \sigma )$의 값을 나타내는 확률은 얼마인가?

0.99 (B) Signup and view all the answers

다음 중 카이제곱 분포에서 'df'는 무엇을 의미하는가?

자유도 (D) Signup and view all the answers

독립적인 사건의 경우 표본 수가 커지면 어떤 분포로 근사하게 되는가?

정규 분포 (C) Signup and view all the answers

포아송 분포에서 평균과 표준편차는 어떻게 정의되는가?

μ = λ, σ = λ (D) Signup and view all the answers

다음 중 포아송 분포가 효과적인 경우는 무엇인가?

희귀 사건의 계수자료 분석 (D) Signup and view all the answers

포아송 분포의 확률 질량 함수에서 'r'의 값은 무엇을 나타내는가?

사건의 수 (A) Signup and view all the answers

포아송 분포의 확률 질량 함수는 어떤 수식으로 표현되나?

$P(X = r | λ) = \frac{λ^r e^{-λ}}{r!}$ (B) Signup and view all the answers

포아송 분포가 주로 사용되는 분야는 무엇인가?

질병의 발생률 분석 (D) Signup and view all the answers

독립적인 사건의 확률을 계산할 때 사용되는 아래의 수식과 관련된 개념은 무엇인가?

조건부 확률 (D) Signup and view all the answers

표본 수가 커지면 정규 분포로 근사하는 이유는 무엇인가?

중심극한정리에 의해 (B) Signup and view all the answers

표본 수가 홀수일 때 산술 평균과 중앙값의 관계는 무엇인가?

항상 같다 (A) Signup and view all the answers

포아송 분포에서 r의 값이 증가하면 확률 $P(X=r|λ)$은 어떻게 변하는가?

처음 증가하다가 감소한다 (A) Signup and view all the answers

사분위수를 기준으로 한 사분위 범위(IQR)의 계산식은 무엇인가?

IQR = Q3 - Q1 (A) Signup and view all the answers

기하 평균의 정의로 옳은 것은 무엇인가?

로그 변환된 값들의 평균 (A) Signup and view all the answers

표본 평균의 정밀도를 측정할 때 사용되는 지표는 무엇인가?

표준 오차 (SE) (D) Signup and view all the answers

베이스라인의 참조 범위(normal range)를 정의할 때 고려되는 백분위수는 무엇인가?

97.5th percentile - 2.5th percentile (D) Signup and view all the answers

변동계수(CV)의 계산식에 포함되지 않는 것은 무엇인가?

n (B) Signup and view all the answers

임상의적인 생존 곡선(survival curve)이 나타내는 것은 무엇인가?

특정 사건 발생까지의 시간 (B) Signup and view all the answers

데이터의 범위(range)를 계산할 때 사용하는 공식은 무엇인가?

R = max - min (D) Signup and view all the answers

최빈값(mode)의 특징으로 맞는 것은 무엇인가?

가장 높은 빈도를 보이는 값이다. (C) Signup and view all the answers

기하 표준 편차(GSD)는 무엇을 나타내는가?

로그 변환된 값들의 표준편차 (A) Signup and view all the answers

변동성(variability)의 측정 방법 중 하나가 아닌 것은 무엇인가?

회귀 분석(regression analysis) (D) Signup and view all the answers

Flashcards are hidden until you start studying

Study Notes

독립적인 사건(event)

독립적인 사건은 서로에게 영향을 주지 않고, 각 시행에서의 발생 확률이 일정합니다.
독립시행의 횟수를 n으로, 각 시행에서 사건 발생 확률을 π로 표기합니다.
표본 수가 커지면 정규분포로 근사합니다.

포아송 분포 (Poisson distribution)

희귀 사건(rare event)의 계수자료(count data) 분석에 사용됩니다.
질병의 율(rate)에 관한 분석에 효과적입니다.
X ~ P(λ) 로 표기합니다.
평균(μ)와 분산(σ)는 모두 λ와 같습니다.

자료 분석의 기타 방법

자료의 특성에 따라 분석 방법을 선택합니다.
연속형 자료에는 회귀분석(regression)과 로그-선형 분석(log-linear analysis)을 사용합니다.
범주형 자료에는 로지스틱 회귀분석(logistic regression)을 사용합니다.
일반화 추정방정식(GEE)는 반복측정 자료(repeated measurements)의 분석에 유용합니다.
혼합효과 모형(mixed-effects model) 모델은 개체 간 variability를 고려한 분석에 사용됩니다.
생동성 검정(bioequivalence test)는 의약품의 생체 이용률을 비교하는 데 사용됩니다.

자료 입력 시 주의 사항

범주형 변수(categorical variable)의 값을 코딩할 때, 컴퓨터 분석 결과의 해석에 영향을 미칠 수 있으며, 동일한 정보를 제공합니다.
missing value는 기본값(.)으로 입력합니다.
alerting을 사용하여 잠재적인 오류를 방지합니다.
unique ID는 자료의 분석 및 추적을 위해 필요합니다.
크기를 줄여서 입력하는 것은 지양합니다.

가변수 생성 방법

k 개의 범주형 변수를 만들 때, k-1 개의 가변수를 생성합니다.
참조 범주(reference category)를 선택해야 하며, SPSS에서는 첫 번째 또는 마지막 범주를 참조 범주로 사용합니다.
모델(model)은 Y=a+b1D1+b2D2+b3D3로 표현할 수 있습니다.

자료 분석 시 기타 주의 사항

질문에 대한 답변이 N/A인 경우, 같은 답변이 있어야 합니다.
샘플 크기가 작은 경우, 표준오차가 커져 추정치의 정밀성이 떨어집니다.
샘플 크기를 증가시키거나, 변동량이 적은 관찰값들을 얻는 것이 중요합니다.
분포가 왜도가 심한 경우, 평균(mean) 대신 중앙값(median)을 표시합니다.
정규분포 (Normal distribution)
-  (population mean)은 표본수와 상관없이 일정합니다.
- P (  −   x   +  ) = 0.683
- P (  − 1.282  x   + 1.282 ) = 0.90
- P(  − 1.96  x   + 1.96 ) = 0.95
- P (  − 2.575  x   + 2.575 ) = 0.99

표준정규분포(Standard Normal distribution)

평균이 0이고, 표준편차가 1인 정규분포입니다.
Z ~ N(0,1)로 표기합니다.
Z = (X-μ)/σ로 계산합니다.

t-분포 (t-distribution)

표본(sample)의 분포를 나타냅니다.
자유도(degree of freedom, df)에 따라 분포의 형태가 바뀝니다.
df는 표본 수의 함수이며, n-1과 같습니다.

카이제곱 분포 (chi-square distribution)

X ~ 2 ( df )로 표기합니다.
자유도(degree of freedom, df)에 따라 분포의 형태가 다릅니다.

로그-정규분포 (log-normal distribution)

오른쪽으로 심하게 치우친 형태의 분포입니다.
자료를 로그 변환하면 정규분포화 합니다.
의학연구에서 자주 사용됩니다.

이항분포 (binomial distribution)

X ~ B(n, π)로 표기합니다.
평균(μ) = nπ, 분산(σ2) = nπ(1-π)입니다.

자료의 산포도 (spreadness), 분산도 (dispersion), 변동성 (variability)

범위(range): R=max-min or (min, max)
백분위수(percentile):
- 아래쪽 기준으로 명명
- 십분위수(deciles) / 오분위수(quintiles) / 사분위수(quartiles) / 삼분위수(tertiles)
- 사분위 범위(interquartile range, IQR)
- 십분위 범위(interdecile range, IDR)
- 기준구간, 기준범위, 정상범위(reference interval, reference range, normal range)
분산(variance, Var):
표준편차(standard deviation; Std, SD):
기하 평균(geometric mean; GM): 로그변환된 값들의 산술평균을 역변환 한 값
기하 표준편차(geometric standard deviation; GSD): 로그변환된 값들의 표준편차를 역변환 한 값
변동계수(coefficient of variation, CV): SD를 평균으로 나눈 값.

박스 플롯(box plot)

박스: IQR을 나타냅니다.
T-bars: 최대값과 최소값을 나타냅니다.
수평선: 중앙값 또는 평균을 나타냅니다.

표준오차(SE)

표본평균의 표준편차입니다.
SE가 크면 추정치의 정밀성이 떨어집니다.
SE가 작으면 추정치의 정밀성이 높습니다.
SE를 줄이려면 표본 크기를 늘리거나, 변동량이 적은 관찰값들을 얻는 것이 좋습니다.

신뢰구간(confidence interval)

모집단 평균을 추정하는 구간입니다.
95% 신뢰구간은 모집단 평균이 포함될 확률이 95%입니다.
X  1.96  SE(X) 또는 X  1.96  SD/n으로 계산할 수 있습니다.
t-분포를 사용하는 경우, X  t0.025(df)  SE(X) 또는 X  t0.025(df)  SD/n으로 계산합니다.

비율의 신뢰구간(confidence interval for proportion)

모집단 비율을 추정하는 구간입니다.
p  1.96  √[p(1-p)/n]으로 계산합니다.

생존 분석(survival analysis)

임상 자료의 특징 중 하나입니다.
암 발생, 재발, 사망 등을 분석하는 데 사용합니다.
생존 곡선(survival curves)과 발생율(incidence rates)을 사용합니다.

Studying That Suits You

Use AI to generate personalized quizzes and flashcards to suit your learning preferences.