통계학 Statistics | |||
{{{#!wiki style="margin:0 -10px -5px; min-height:calc(1.5em + 5px); word-break: keep-all" {{{#!folding [ 펼치기 · 접기 ] {{{#!wiki style="margin:-5px -1px -11px" | <colbgcolor=#4d4d4d><colcolor=#fff> 수리통계학 | 기반 | 실해석학 (측도론) · 선형대수학 · 이산수학 |
확률론 | 사건 · 가능성 · 확률 변수 · 확률 분포 (표본 분포 · 정규 분포 · 이항 분포 · 푸아송 분포 · 카이제곱분포 · t분포 · Z분포 · F-분포 · 결합확률분포) · 확률밀도함수 · 확률질량함수 · 조건부확률 · 조건부기댓값 · 조건부분산 · 전체 확률의 법칙 · 베이즈 정리 · 도박사의 오류 · 도박꾼의 파산 · 몬티 홀 문제 · 뷔퐁의 바늘 · 마르코프 부등식 · 체비쇼프 부등식 · 큰 수의 법칙 (무한 원숭이 정리) · 중심극한정리 · 벤포드의 법칙 | ||
통계량 | 평균 (산술 평균 · 기하 평균 · 조화 평균 · 멱평균 · 대수 평균) · 기댓값 · 편차 (절대 편차 · 표준 편차) · 분산 (공분산) · 결정계수 · 변동계수 · 상관계수 · 대푯값 · 자유도 | ||
추론통계학 | 가설 · 변인 · 추정량 · 점추정 · 신뢰 구간 · 상관관계와 인과관계 · 실험통계학 · p-해킹 · 통계의 함정 · 그레인저 인과관계 · 신뢰도와 타당도 | ||
통계적 방법 | 회귀 분석 · 최소제곱법 · 분산 분석 · 주성분 분석 (요인 분석) · 시계열 분석 · 패널 분석 · 2SLS · 생존 분석 · GARCH · 비모수통계학 · 준모수통계학 · 기계학습 (군집 분석 · 분류 분석) · 위상 데이터분석 · 외삽법 · 메타 분석 · 모델링 (구조방정식) | ||
기술통계학 · 자료 시각화 | 도표 (그림그래프 · 막대그래프 · 선 그래프 · 원 그래프 · 상자 수염 그림 · 줄기와 잎 그림 · 산포도 · 산점도 · 히스토그램 · 도수분포표) · 그래프 왜곡 · 이상점 | }}}}}}}}} |
1. 개요
中心極限定理 / central limit theorem (CLT)무작위로 추출된 표본의 크기가 커질수록 표본 평균의 분포는 모집단의 분포 모양과는 관계없이 정규분포에 가까워진다는 정리.
2. 본문
3Blue1Brown의 설명 영상. |
표본 평균의 평균은 모집단의 모 평균과 같고, 표본 평균의 표준 편차는 모집단의 모 표준 편차를 표본 크기의 제곱근으로 나눈 것과 같다. 이러한 중심극한정리를 직관적으로 이해할 수 있는 설명영상도 있다.
독립항등분포(i.i.d.)를 따르는 확률 변수 [math(X_1, X_2, \cdots , X_n)]에 대해, 각각의 평균은 [math(E(X_i) = \mu)]이고 각각의 표준편차는 [math(\sigma)]라 하자. [math(\xi_n = \displaystyle \frac{\sum_{i=1}^{n}X_i - n\mu}{\sqrt{n}\sigma})] 라 둘 때, [math(\xi_n)]은 표준정규분포로 분포수렴한다.
더 복잡한 버전으로는 i.i.d. 가정을 적절히 약화시킨 Lindberg CLT나 Lyapunov CLT가 있으나, 학부 수업 수준에서는 상기한 결과만 알아도 충분하다.[1] 중심극한정리는 큰 수의 법칙과 함께 통계학의 뼈대를 이룬다고 할 수 있으며, 왜 정규분포가 중요하게 다뤄지는지 하나의 근거를 제시한다.
이 정리의 놀라운 점은, i.i.d. 가정이 성립하고 평균, 표준편차만 알고 있다면 [math(X_i)]의 분포 자체에 대한 어떤 정보도 없더라도[2] [math(\xi_n)]의 분포를 점근적으로 알 수 있다는 점이다. 대부분의 점근적인 검정들은 CLT를 기반으로 한다.
기초통계학만 배워도 제시되는 법칙이나, 증명은 상당히 까다롭고 대개 학부 3학년 정도에 수리통계학 수업에서 더 강한 조건[3]이 주어졌을 때의 증명을 배우게 된다. 일반적인 경우의 완전한 증명은 대학원 수준의 확률론에서 다룬다.
예를 들어 모집단의 분포가 일자형이라고 하자. "주사위를 한 번 던져서 나오는 수" 라는 변수가 있다고 하면 이 변수의 분포는 평평할 것이다. 어떤 특정한 수가 더 자주 나오는 게 아니라 1부터 6까지의 수가 모두 똑같은 확률로 나오니까. 자 이제 표본을 채집해 보자. "주사위 한 번 던져서 나오는 수" 를 50번 (n=50) 채집해서 표본 하나를 구성한다고 하자. 그리고 각 표본에서 평균값을 구한다. 그러면 예를들어 표본1 의 평균값은 3.21, 표본2 의 평균값은 3.56, 표본3 의 평균값은 3.40, 뭐 이런 식으로 나올 것이다. 표본을 한 5000개 정도 뽑아서 표본 평균의 분포를 그래프로 그려보면 n이 너무 작지 않은 한 (보통 30 미만은 너무 작다고 친다) 그 형태가 정규분포와 비슷하다는 거다.[4]
수학적으로 이야기하면 독립인 확률 변수들의 평균의 분포가 정규분포에 수렴한다는 이야기로[5], 이를 중심극한정리라 부른다. 이항분포 B(n,p)가 정규분포 N(np, npq)로 수렴한다는 내용은 이보다 이전에 라플라스(Pierre-Simon Laplace)가 증명하였고, 이 버전을 "라플라스의 정리"라 부르는 경우도 있다. 물론 이를 일반화하여 현재의 중심극한정리를 정립한 것은 가우스이다.
이 중심극한정리가 통계적 유의성 검정을 위한 이론적 토대가 된다. 예를 들어 채집한 표본의 평균값이 어떤 특정한 값에 비해 통계적으로 유의한 정도로 더 큰지 혹은 더 작은지를 검토한다고 할 때, 표본평균의 분포가 대략 정규분포를 이룬다는 전제(=중심극한정리)가 있기 때문에 채집한 표본의 값이 이론적으로 전개된 표본평균 분포상대에 비추어 봤을 때 나올 확률이 5%(통상적으로 상정되는 유의기준) 미만인지를 검토할 수 있는 것이다.
2.1. 큰 수의 법칙과의 관계
상보적인 관계에 가까운데, 확률수렴이 분포수렴보다 더 강력한 개념이기 때문에[6], 큰 수의 법칙이 더 강력한 결과라고 오해할 수도 있다. 그러나 중심극한정리는 점근적인 분포가 정규확률분포라는 추가적인 정보까지 제시해주기 때문에 두 법칙 간에 상하관계가 존재하는 것이 아니다.큰 수의 법칙은 표본평균이 모평균으로 확률수렴한다는 이야기이며, 중심극한정리는 표본평균의 분포가 "어떤 모양"을 가지고 수렴하는지에 관해 이야기하는 것이 그 핵심이다. 표본평균이 모평균에 얼마나 빠르게 수렴하는지, 그 수렴 속도에 관해 이야기하는 법칙은 반복된 로그의 법칙(law of iterated logarithm)이라고 불린다.
3. 증명
아래 증명은 적률생성함수가 존재하는 확률변수에 한해서만 유효하다. 그러나 적률생성함수가 존재하지 않는 확률변수라도 여전히 중심극한정리는 성립하는데, 이때의 증명은 적률생성함수 대신 특성함수(characteristic function)를 이용한다.[7] 적률생성함수와는 달리 특성함수는 모든 확률변수에 대하여 존재하기 때문이다. 주로 학부 수준에서는 적률생성함수를 이용하여 부분적인 경우를 증명하고, 대학원 수준에서 특성함수를 이용해서 완전히 증명한다.[math(\mathbb E(\bar X)=\mathbb E\left(\dfrac1n(X_1+X_2+X_3+\cdots+X_n)\right)\\=\dfrac1n\{\mathbb E(X_1)+\mathbb E(X_2)+\mathbb E(X_3)+\cdots+\mathbb E(X_n)\}\\=\dfrac1n×n\mathbb E(X)=\mu)]
[math(\mathrm {Var}(\bar X)=\mathrm {Var}\left(\dfrac1n(X_1+X_2+X_3+\cdots+X_n)\right)\\=\dfrac1{n^2}\{\mathrm {Var}(X_1)+\mathrm {Var}(X_2)+\mathrm {Var}(X_3)+\cdots+\mathrm {Var}(X_n)\}\\=\dfrac1{n^2}×n\mathrm {Var}(X)=\dfrac{\sigma^2}n)][A]
[math(\therefore\sigma(\bar X)=\dfrac\sigma{\sqrt n})]
[math(M_{\frac{\sqrt n(\bar X-\mu)}\sigma}(t)=\mathbb E\left(\exp\left(\dfrac{(X_1-\mu)+(X_2-\mu)+\cdots+(X_n-\mu)}{\sigma\sqrt n}t\right)\right)=\mathbb E\left(\exp\left(\dfrac{X_1-\mu}{\sigma\sqrt n}t\right)\right)\mathbb E\left(\exp\left(\dfrac{X_2-\mu}{\sigma\sqrt n}t\right)\right)\cdots\mathbb E\left(\exp\left(\dfrac{X_n-\mu}{\sigma\sqrt n}t\right)\right))][A]
[math(=\left\{\mathbb E\left(\exp\left(\dfrac{X-\mu}{\sigma\sqrt n}t\right)\right)\right\}^n\\=\left\{M_{\frac{X-\mu}\sigma}\left(\dfrac t{\sqrt n}\right)\right\}^n)]
[math(\therefore\displaystyle\lim_{n\to\infty}M_{\frac{\sqrt n(\bar X-\mu)}\sigma}(t)\\=\exp\left(\displaystyle\lim_{n\to\infty}n\ln M_{\frac{X-\mu}\sigma}\left(\dfrac t{\sqrt n}\right)\right))]
여기서 [math(h=\dfrac1{\sqrt n})]이라 하면 [math(n\to\infty)]일 때 [math(h\to0)]이므로
[math(=\exp\left(\displaystyle\lim_{h\to0}\dfrac{\ln M_{\frac{X-\mu}\sigma}(th)}{h^2}\right))]
여기서 [math(\displaystyle\lim_{h\to0}M_{\frac{X-\mu}\sigma}(th)=1)]이므로 로피탈의 정리에 의해
[math(=\exp\left(\displaystyle\lim_{h\to0}\dfrac{tM_{\frac{X-\mu}\sigma}'(th)}{2hM_{\frac{X-\mu}\sigma}(th)}\right)\\=\exp\left(\dfrac t2\displaystyle\lim_{h\to0}\dfrac{M_{\frac{X-\mu}\sigma}'(th)-0}{h}\right))]
여기서 [math(\displaystyle\lim_{h\to0}M_{\frac{X-\mu}\sigma}'(th)=0)]이므로 미분계수의 정의에 의해[10]
[math(=\exp\left(\dfrac t2\displaystyle\lim_{h\to0}\dfrac{M_{\frac{X-\mu}\sigma}'(t×h)-M_{\frac{X-\mu}\sigma}'(t×0)}{h}\right)\\=\exp\left(\dfrac t2×tM_{\frac{X-\mu}\sigma}''(t×0)\right))]
여기서 [math(M_{\frac{X-\mu}\sigma}''(0)=\mathbb E\left(\left(\dfrac{X-\mu}\sigma\right)^2\right)
\\
=\mathrm {Var}\left(\dfrac{X-\mu}\sigma\right)+\left\{\mathbb E\left(\dfrac{X-\mu}\sigma\right)\right\}^2
\\
=1+0^2=1)]
[math(\therefore\displaystyle\lim_{n\to\infty}M_{\frac{\sqrt n(\bar X-\mu)}\sigma}(t)=e^{\frac{t^2}2})]로 표준정규분포의 적률생성함수와 같은 형태이다. 즉, [math(n\to\infty)]일 때 [math(\dfrac{\sqrt n(\bar X-\mu)}\sigma\sim\mathrm N(0,1))]이므로 [math(\bar X\sim\mathrm N(\mu,\dfrac{\sigma^2}n))]이다.
[자료출처]
※ 로피탈 정리를 쓰지 않는 방법
- [펼치기•접기]
- 적률생성함수의 정의에서 [math( \displaystyle M_{\frac{X-\mu}\sigma}\left(\dfrac t{\sqrt n}\right)
= \sum_{k=0}^{\infty} \mathbb{E}\left[ \left( \frac{X-\mu}\sigma \right)^k \right] \frac 1{k!} \left( \frac t{\sqrt n} \right)^k
\\ = 1 + \frac 12 \left( \frac t{\sqrt n} \right)^2
+ \sum_{k=3}^{\infty} \mathbb{E}\left[ \left( \frac{X-\mu}\sigma \right)^k \right] \frac 1{k!} \left( \frac t{\sqrt n} \right)^k )] [12]
[math(\displaystyle = 1 + \frac {t^2}{2n} \left(1 + \frac {2t}{\sqrt n} o\left(n\right) \right) )]
이다. 여기서 [math(\displaystyle o\left(n\right) = \sum_{k=0}^{\infty} \mathbb{E}\left[ \left( \frac{X-\mu}\sigma \right)^{k + 3} \right] \frac 1{\left(k + 3\right)!} \left( \frac t{\sqrt n} \right)^k )]이며 적률생성함수가 존재한다면 이것의 극한은 수렴한다.
[math( \displaystyle \therefore \lim _{n \to \infty} \left\{M_{\frac{X-\mu}\sigma}\left(\frac t{\sqrt n}\right)\right\}^n
= \lim _{n \to \infty} \left\{ 1 + \frac {t^2}{2n} \left(1 + \frac {2t}{\sqrt n} o\left(n\right) \right) \right\}^n
= \lim _{n \to \infty} \left( 1 + \frac {t^2}{2n} \right)^n = \exp \frac {t^2}2 )]
===# 특성함수를 쓰는 증명 #===
기본적인 방법은 앞의 증명과 비슷하며, 따라서 중복되는 부분은 가급적 생략하였다.[13]
[math(\Phi_{\frac{\sqrt n(\bar X-\mu)}\sigma}(\omega)=\mathbb E\left(\exp \left(\dfrac{(X_1-\mu)+(X_2-\mu)+\cdots+(X_n-\mu)}{\sigma\sqrt n}\omega i\right)\right)=\mathbb E\left(\exp\left(\dfrac{X_1-\mu}{\sigma\sqrt n}\omega i\right)\right)\mathbb E\left(\exp\left(\dfrac{X_2-\mu}{\sigma\sqrt n}\omega i\right)\right)\cdots\mathbb E\left(\exp\left(\dfrac{X_n-\mu}{\sigma\sqrt n}\omega i\right)\right))][A]
[math(=\left\{\mathbb E\left(\exp \left(\dfrac{X-\mu}{\sigma\sqrt n}\omega i\right)\right)\right\}^n\\=\left\{\Phi_{\frac{X-\mu}\sigma}\left(\dfrac \omega{\sqrt n}\right)\right\}^n)]
[math(\therefore\displaystyle\lim_{n\to\infty}\Phi_{\frac{\sqrt n(\bar X-\mu)}\sigma}(\omega)\\=\exp\left(\displaystyle\lim_{n\to\infty}n\ln \Phi_{\frac{X-\mu}\sigma}\left(\dfrac \omega{\sqrt n}\right)\right))]
[math(=\exp\left(\displaystyle\lim_{h\to0}\dfrac{\ln \Phi_{\frac{X-\mu}\sigma}(\omega h)}{h^2}\right))]
여기서 [math(\displaystyle\lim_{h\to0}\Phi_{\frac{X-\mu}\sigma}(\omega h)=1)]이므로
[math(=\exp\left(\displaystyle\lim_{h\to0}\dfrac{\omega\Phi_{\frac{X-\mu}\sigma}'(\omega h)}{2hM_{\frac{X-\mu}\sigma}(th)}\right)\\=\exp\left(\dfrac \omega2\displaystyle\lim_{h\to0}\dfrac{\Phi_{\frac{X-\mu}\sigma}'(\omega h)}{h}\right))]
여기서 [math(\displaystyle\lim_{h\to0}\Phi_{\frac{X-\mu}\sigma}'(\omega h)=0)]이므로
[math(=\exp\left(\dfrac \omega2×\omega \Phi_{\frac{X-\mu}\sigma}''(0)\right))]
여기서 [math(\Phi_{\frac{X-\mu}\sigma}''(0)=i^2=-1)]이므로[15] 최종적으로 [math(\displaystyle\lim_{n\to\infty}\Phi_{\frac{\sqrt n(\bar X-\mu)}\sigma}(\omega)=\exp\left(-\dfrac {\omega^2}2\right))]가 얻어지며, 이는 표준정규분포의 특성함수이다.
[참고] 이 특성함수에서 확률밀도함수를 복원하는 방법
- [펼치기•접기]
- [math(\Phi\left(\omega\right)=)][math(mathcal{F})][math(\left(p\left(x\right)\right)\left(-\omega\right))]이므로 [math(p\left(x\right)={\mathcal{F}}^{-1}\left(\Phi\left(-\omega\right)\right)=\dfrac 1{2\pi}{\mathcal{F}}\left(\Phi\left(\omega\right)\right))]
그리고 지금 특성함수가 우함수이므로 위 식의 우변을 고쳐 쓰면
[math(p\left(x\right) = \displaystyle \frac 1{\pi} {\mathcal{F}}_c\left(\Phi\left(\omega\right)\right) = \frac 1{\pi} \int_{0}^{\infty} \exp\left(-\dfrac {\omega^2}2\right) \cos \omega x \, {\mathrm d}\omega)]
여기서 [math(p\left(x\right))]의 도함수를 생각하기로 하자. 그러면
[math(p'\left(x\right) = \displaystyle \frac 1{\pi} \int_{0}^{\infty} \exp\left(-\dfrac {\omega^2}2\right) \frac \partial{\partial x} \cos \omega x \, {\mathrm d}\omega
\\
= \frac 1{\pi} \int_{0}^{\infty} \exp\left(-\dfrac {\omega^2}2\right) × \left( -\omega \right) \sin \omega x \, {\mathrm d}\omega
\\
= \frac 1{\pi} \int_{0}^{\infty} \frac {\mathrm d}{{\mathrm d} \omega} \left( \exp\left(-\dfrac {\omega^2}2\right) \right) \sin \omega x \, {\mathrm d}\omega
\\
= \frac 1{\pi} \left( \left[ \exp\left(-\dfrac {\omega^2}2\right) \sin \omega x \right]_{0}^{\infty} - \int_{0}^{\infty} \exp\left(-\dfrac {\omega^2}2\right) × \frac \partial{\partial \omega} \sin \omega x {\mathrm d}\omega \right)
\\
= - \frac 1{\pi} \int_{0}^{\infty} \exp\left(-\dfrac {\omega^2}2\right) × x \cos \omega x {\mathrm d}\omega
\\
= -x × \frac 1{\pi} \int_{0}^{\infty} \exp\left(-\dfrac {\omega^2}2\right) \cos \omega x {\mathrm d}\omega = -x p\left(x\right)
)]
즉 [math(\dfrac {p'\left(x\right)}{p\left(x\right)} = -x)]이므로 [math(p\left(x\right) = A \exp \left(-\dfrac {x^2}2 \right) )]일 수밖에 없고, 이때 상수 A는 [math( p\left(0\right) )]와 같으므로
[math( A = \displaystyle \frac 1{\pi} \int_{0}^{\infty} \exp\left(-\dfrac {\omega^2}2\right) {\mathrm d}\omega = \frac 1{\pi} × \sqrt {\frac {\pi}2} = \frac 1{\sqrt{2\pi}} )] [16]
따라서 확률밀도함수는 [math(p\left(x\right) = \dfrac 1{\sqrt{2\pi}} \exp \left(-\dfrac {x^2}2 \right) )]이다.
4. 표준정규분포 중심극한정리
"어떤 모집단[math( N(\mu,\sigma^2) )]을 가정하고 이때 표본[math((n))]이 어느 일정량(수준)이상이 될때 표본평균 [math( \left(\overline{X}\right) )] 분포는 [math( N\left(\mu,\dfrac{\sigma^2}{n} \right) )]에 수렴(근사)하는 정규분포가 된다."
따라서 중심극한정리를 정규화[math( (N))]로 정의해 본다면 이를 표준화[math( \left(Z\right) )] 하면 [math( N(0,1) \to Z=\dfrac{\overline{X}-\mu}{\sqrt{ \dfrac{\sigma^2}{n} }} )]
표준정규분포를 조사할 수 있다.
5. 관련 문서
[1] 사실 그 이외에도 여러 다양한 조건들하에서 적용할 수 있는 CLT가 찾아보면 굉장히 많다. 그러나 그 모든 것들이 자주 쓰이지는 않으며, 학부나 대학원에서 배우는 정도의 CLT가 가장 많이 쓰이는 메이저한 지식이다.[2] 위를 보면 알 수 있겠지만 [math(X_i)]가 어떠한 분포를 따라야 한다는 제약이 없다.[3] 주로 적률생성함수가 존재함을 가정한다. 그 이유는 아래 증명에서 볼 수 있듯이 증명에 적률생성함수를 사용하기 때문.[4] 만약 30*30일 경우의 p를 구해보라. 구해보면 아마 소름이 돋을 것이다. 30 by 30 라고도 한다. CLT의 기본 정의를 이용한 증명인데, 수학적으로 관심있다면 매우 신기한 방향으로 증명이 이루어지는 것을 볼 수 있다.[5] 엄밀히 말하면: 같은 분포를 따르고 서로 독립인 확률변수 X1 , X2 , ..., Xn 에 대해 이들의 평균 X = (X1 + X2 + ... + Xn)/n 을 평균이 0, 분산이 1이 되게 표준화한 Z=(X-μ)/σ√n의 분포는 n이 무한대로 갈 때 정규분포에 수렴한다.[6] 미분가능하면 연속이듯, 확률수렴하면 분포수렴한다.[7] 지시함수와는 다르다. 확률론에서 말하는 특성함수란 [math(\mathbb E(e^{itX}))]를 뜻한다.[A] 각각의 Xk는 독립(복원추출)이므로 분리할 수 있다.[A] [10] 로피탈의 정리를 또 써도 된다.[자료출처] https://m.blog.naver.com/mykepzzang/220851280035[12] 0차 적률은 당연히 1이고 1차 적률은 [math(\dfrac{X-\mu}\sigma)]의 평균인 0, 따라서 2차 적률은 [math(\dfrac{X-\mu}\sigma)]의 분산으로서 1이 된다.[13] 형식적으로는 앞의 증명에서 t를 iω로 대체한 것뿐이다.[A] [15] 적률생성함수 증명법과 부호가 반대임에 유의[16] 이 적분을 하는 법은 가우스 적분을 참고할 것.