통계학 독립적 사건 및 포아송 분포

Choose a study mode

Play Quiz
Study Flashcards
Spaced Repetition
Chat to Lesson

Podcast

Play an AI-generated podcast conversation about this lesson

Questions and Answers

더미 변수를 생성할 때 필요한 더미 변수의 수는 몇 개입니까?

  • k-1 (correct)
  • k+1
  • k/2
  • k

모델에서 TOAST 변수를 사용하지 않고 대체로 어떤 형태로 나타낼 수 있습니까?

  • Y=a+b(TOAST)
  • Y=a+b1D1+b2D2+b3D3 (correct)
  • Y=a+bD1+D2+D3
  • Y=a+b1+b2+b3

가변수 생성 시 기준 카테고리를 선택하는 역할은 무엇입니까?

  • 상대적인 비교를 위한 기준 (correct)
  • 더미 변수를 불필요하게 줄이기 위해
  • 모든 카테고리를 포함하기 위해
  • 관측치를 늘리기 위해

더미 코딩에서 D1, D2, D3가 (1, 0, 0)을 나타내면 TOAST 값은 몇입니까?

<p>1 (SVO) (B)</p> Signup and view all the answers

다음 중 더미 변수 생성에서 잘못된 설명은 무엇입니까?

<p>모든 카테고리를 나타내기 위해 n개의 더미 변수가 필요하다. (C)</p> Signup and view all the answers

로지스틱 회귀분석에서 0과 1의 코드 변환 시 어떤 값으로 리코딩하는 것이 중요합니까?

<p>(1, 0) (B)</p> Signup and view all the answers

일반화 추정방정식(GEE)의 분석 시 주의해야 할 점은 무엇입니까?

<p>데이터 입력 시 크기를 줄여서는 안 된다. (D)</p> Signup and view all the answers

로지스틱 회귀분석에서의 컴퓨터 출력과 관련하여 어떤 설명이 옳습니까?

<p>계수의 부호가 변할 수 있지만 p-value는 항상 같다. (C)</p> Signup and view all the answers

다변량 분석 기법의 예로 적절하지 않은 것은 무엇입니까?

<p>일차원 분석 (D)</p> Signup and view all the answers

기타 특수한 경우의 분석 방법으로 포함되지 않은 것은 무엇입니까?

<p>단변량 분석 (B)</p> Signup and view all the answers

정규분포에서 평균과 표준편차는 무엇을 결정하는가?

<p>분포의 형태 (A)</p> Signup and view all the answers

다음 중 이항분포의 평균을 올바르게 나타낸 식은 무엇인가?

<p>$n eta$ (D)</p> Signup and view all the answers

표준 정규분포에서 Z 점수를 구하는 공식에서 Z는 무엇을 의미하는가?

<p>변환된 값 (A)</p> Signup and view all the answers

로그-정규분포는 어떤 형태의 분포인가?

<p>오른쪽으로 심하게 치우친 분포 (A)</p> Signup and view all the answers

T-분포의 형태는 어떤 요소에 의해 결정되는가?

<p>자유도 (A)</p> Signup and view all the answers

정규분포에서 $P( \mu - 1.96 \sigma \leq x \leq \mu + 1.96 \sigma )$의 값은 무엇인가?

<p>0.95 (D)</p> Signup and view all the answers

정규분포의 밀도함수는 어떤 수식으로 표현되는가?

<p>$f(x; \mu, \sigma) = \frac{1}{\sqrt{2\pi\sigma^2}} e^{- rac{(x - \mu)^2}{2\sigma^2}}$ (B)</p> Signup and view all the answers

모집단의 자료에 대해 $P( \mu - 2.575 \sigma \leq x \leq \mu + 2.575 \sigma )$의 값을 나타내는 확률은 얼마인가?

<p>0.99 (B)</p> Signup and view all the answers

다음 중 카이제곱 분포에서 'df'는 무엇을 의미하는가?

<p>자유도 (D)</p> Signup and view all the answers

독립적인 사건의 경우 표본 수가 커지면 어떤 분포로 근사하게 되는가?

<p>정규 분포 (C)</p> Signup and view all the answers

포아송 분포에서 평균과 표준편차는 어떻게 정의되는가?

<p>μ = λ, σ = λ (D)</p> Signup and view all the answers

다음 중 포아송 분포가 효과적인 경우는 무엇인가?

<p>희귀 사건의 계수자료 분석 (D)</p> Signup and view all the answers

포아송 분포의 확률 질량 함수에서 'r'의 값은 무엇을 나타내는가?

<p>사건의 수 (A)</p> Signup and view all the answers

포아송 분포의 확률 질량 함수는 어떤 수식으로 표현되나?

<p>$P(X = r | λ) = \frac{λ^r e^{-λ}}{r!}$ (B)</p> Signup and view all the answers

포아송 분포가 주로 사용되는 분야는 무엇인가?

<p>질병의 발생률 분석 (D)</p> Signup and view all the answers

독립적인 사건의 확률을 계산할 때 사용되는 아래의 수식과 관련된 개념은 무엇인가?

<p>조건부 확률 (D)</p> Signup and view all the answers

표본 수가 커지면 정규 분포로 근사하는 이유는 무엇인가?

<p>중심극한정리에 의해 (B)</p> Signup and view all the answers

표본 수가 홀수일 때 산술 평균과 중앙값의 관계는 무엇인가?

<p>항상 같다 (A)</p> Signup and view all the answers

포아송 분포에서 r의 값이 증가하면 확률 $P(X=r|λ)$은 어떻게 변하는가?

<p>처음 증가하다가 감소한다 (A)</p> Signup and view all the answers

사분위수를 기준으로 한 사분위 범위(IQR)의 계산식은 무엇인가?

<p>IQR = Q3 - Q1 (A)</p> Signup and view all the answers

기하 평균의 정의로 옳은 것은 무엇인가?

<p>로그 변환된 값들의 평균 (A)</p> Signup and view all the answers

표본 평균의 정밀도를 측정할 때 사용되는 지표는 무엇인가?

<p>표준 오차 (SE) (D)</p> Signup and view all the answers

베이스라인의 참조 범위(normal range)를 정의할 때 고려되는 백분위수는 무엇인가?

<p>97.5th percentile - 2.5th percentile (D)</p> Signup and view all the answers

변동계수(CV)의 계산식에 포함되지 않는 것은 무엇인가?

<p>n (B)</p> Signup and view all the answers

임상의적인 생존 곡선(survival curve)이 나타내는 것은 무엇인가?

<p>특정 사건 발생까지의 시간 (B)</p> Signup and view all the answers

데이터의 범위(range)를 계산할 때 사용하는 공식은 무엇인가?

<p>R = max - min (D)</p> Signup and view all the answers

최빈값(mode)의 특징으로 맞는 것은 무엇인가?

<p>가장 높은 빈도를 보이는 값이다. (C)</p> Signup and view all the answers

기하 표준 편차(GSD)는 무엇을 나타내는가?

<p>로그 변환된 값들의 표준편차 (A)</p> Signup and view all the answers

변동성(variability)의 측정 방법 중 하나가 아닌 것은 무엇인가?

<p>회귀 분석(regression analysis) (D)</p> Signup and view all the answers

Flashcards are hidden until you start studying

Study Notes

독립적인 사건(event)

  • 독립적인 사건은 서로에게 영향을 주지 않고, 각 시행에서의 발생 확률이 일정합니다.
  • 독립시행의 횟수를 n으로, 각 시행에서 사건 발생 확률을 π로 표기합니다.
  • 표본 수가 커지면 정규분포로 근사합니다.

포아송 분포 (Poisson distribution)

  • 희귀 사건(rare event)의 계수자료(count data) 분석에 사용됩니다.
  • 질병의 율(rate)에 관한 분석에 효과적입니다.
  • X ~ P(λ) 로 표기합니다.
  • 평균(μ)와 분산(σ)는 모두 λ와 같습니다.

자료 분석의 기타 방법

  • 자료의 특성에 따라 분석 방법을 선택합니다.
  • 연속형 자료에는 회귀분석(regression)과 로그-선형 분석(log-linear analysis)을 사용합니다.
  • 범주형 자료에는 로지스틱 회귀분석(logistic regression)을 사용합니다.
  • 일반화 추정방정식(GEE)는 반복측정 자료(repeated measurements)의 분석에 유용합니다.
  • 혼합효과 모형(mixed-effects model) 모델은 개체 간 variability를 고려한 분석에 사용됩니다.
  • 생동성 검정(bioequivalence test)는 의약품의 생체 이용률을 비교하는 데 사용됩니다.

자료 입력 시 주의 사항

  • 범주형 변수(categorical variable)의 값을 코딩할 때, 컴퓨터 분석 결과의 해석에 영향을 미칠 수 있으며, 동일한 정보를 제공합니다.
  • missing value는 기본값(.)으로 입력합니다.
  • alerting을 사용하여 잠재적인 오류를 방지합니다.
  • unique ID는 자료의 분석 및 추적을 위해 필요합니다.
  • 크기를 줄여서 입력하는 것은 지양합니다.

가변수 생성 방법

  • k 개의 범주형 변수를 만들 때, k-1 개의 가변수를 생성합니다.
  • 참조 범주(reference category)를 선택해야 하며, SPSS에서는 첫 번째 또는 마지막 범주를 참조 범주로 사용합니다.
  • 모델(model)은 Y=a+b1D1+b2D2+b3D3로 표현할 수 있습니다.

자료 분석 시 기타 주의 사항

  • 질문에 대한 답변이 N/A인 경우, 같은 답변이 있어야 합니다.
  • 샘플 크기가 작은 경우, 표준오차가 커져 추정치의 정밀성이 떨어집니다.
  • 샘플 크기를 증가시키거나, 변동량이 적은 관찰값들을 얻는 것이 중요합니다.
  • 분포가 왜도가 심한 경우, 평균(mean) 대신 중앙값(median)을 표시합니다.
  • 정규분포 (Normal distribution)
    •  (population mean)은 표본수와 상관없이 일정합니다.
    • P (  −   x   +  ) = 0.683
    • P (  − 1.282  x   + 1.282 ) = 0.90
    • P(  − 1.96  x   + 1.96 ) = 0.95
    • P (  − 2.575  x   + 2.575 ) = 0.99

표준정규분포(Standard Normal distribution)

  • 평균이 0이고, 표준편차가 1인 정규분포입니다.
  • Z ~ N(0,1)로 표기합니다.
  • Z = (X-μ)/σ로 계산합니다.

t-분포 (t-distribution)

  • 표본(sample)의 분포를 나타냅니다.
  • 자유도(degree of freedom, df)에 따라 분포의 형태가 바뀝니다.
  • df는 표본 수의 함수이며, n-1과 같습니다.

카이제곱 분포 (chi-square distribution)

  • X ~ 2 ( df )로 표기합니다.
  • 자유도(degree of freedom, df)에 따라 분포의 형태가 다릅니다.

로그-정규분포 (log-normal distribution)

  • 오른쪽으로 심하게 치우친 형태의 분포입니다.
  • 자료를 로그 변환하면 정규분포화 합니다.
  • 의학연구에서 자주 사용됩니다.

이항분포 (binomial distribution)

  • X ~ B(n, π)로 표기합니다.
  • 평균(μ) = nπ, 분산(σ2) = nπ(1-π)입니다.

자료의 산포도 (spreadness), 분산도 (dispersion), 변동성 (variability)

  • 범위(range): R=max-min or (min, max)
  • 백분위수(percentile):
    • 아래쪽 기준으로 명명
    • 십분위수(deciles) / 오분위수(quintiles) / 사분위수(quartiles) / 삼분위수(tertiles)
    • 사분위 범위(interquartile range, IQR)
    • 십분위 범위(interdecile range, IDR)
    • 기준구간, 기준범위, 정상범위(reference interval, reference range, normal range)
  • 분산(variance, Var):
  • 표준편차(standard deviation; Std, SD):
  • 기하 평균(geometric mean; GM): 로그변환된 값들의 산술평균을 역변환 한 값
  • 기하 표준편차(geometric standard deviation; GSD): 로그변환된 값들의 표준편차를 역변환 한 값
  • 변동계수(coefficient of variation, CV): SD를 평균으로 나눈 값.

박스 플롯(box plot)

  • 박스: IQR을 나타냅니다.
  • T-bars: 최대값과 최소값을 나타냅니다.
  • 수평선: 중앙값 또는 평균을 나타냅니다.

표준오차(SE)

  • 표본평균의 표준편차입니다.
  • SE가 크면 추정치의 정밀성이 떨어집니다.
  • SE가 작으면 추정치의 정밀성이 높습니다.
  • SE를 줄이려면 표본 크기를 늘리거나, 변동량이 적은 관찰값들을 얻는 것이 좋습니다.

신뢰구간(confidence interval)

  • 모집단 평균을 추정하는 구간입니다.
  • 95% 신뢰구간은 모집단 평균이 포함될 확률이 95%입니다.
  • X  1.96  SE(X) 또는 X  1.96  SD/n으로 계산할 수 있습니다.
  • t-분포를 사용하는 경우, X  t0.025(df)  SE(X) 또는 X  t0.025(df)  SD/n으로 계산합니다.

비율의 신뢰구간(confidence interval for proportion)

  • 모집단 비율을 추정하는 구간입니다.
  • p  1.96  √[p(1-p)/n]으로 계산합니다.

생존 분석(survival analysis)

  • 임상 자료의 특징 중 하나입니다.
  • 암 발생, 재발, 사망 등을 분석하는 데 사용합니다.
  • 생존 곡선(survival curves)과 발생율(incidence rates)을 사용합니다.

Studying That Suits You

Use AI to generate personalized quizzes and flashcards to suit your learning preferences.

Quiz Team

More Like This

Mastering Independent Events
6 questions
Probability of Independent Events
15 questions
Independent Events and Probability
10 questions
Use Quizgecko on...
Browser
Browser