1. 개요
통계학에서의 표준화(standardization ,standardizing)는 서로 다른 정규 분포 사이에 비교를 하거나, 특정 정규분포를 토대로 하여 통계적 추정 등의 분석작업을 해야 할 때, 필요에 따라 정규분포의 분산[math((\sigma^2))]과 표준편차[math((\sigma) )]를 표준에 맞게 통일시키는 것으로 이로써 표준 정규 분포가 된다. 정규분포의 치환적분이라고 보면 된다.표준화(standardization)가 되지 않은 데이터는 비유하자면 늘어났다 줄어들었다 하는 자를 가지고 길이를 재는 것과도 같다. 게다가 서로 다른 단위체계를 가진 서로 다른 연구대상에 대해서도 분석의 호환이 안 된다. 그래서 표준적으로 사용할 수 있는 통계적 단위를 제안하여 그것에 자신의 "자" 를 일치시켜야 하는 것이다. 이 때 모두가 쓸 수 있는 단위로서 제안되는 것이 바로 표준 편차, 즉 시그마(sigma)이다.
즉, 평균을 0으로, 표준 편차를 1로 만들어주는 것이다.
표준화 | 표본(sample) | 모집단 |
수식 | [math(Z=\dfrac{X-m}{s} )] X:변수, m:평균, s:표준편차 X가 가지는 값과 평균m의 차이가 표준편차s의 Z배. | [math(Z = \dfrac{X(확률 변수)-\mu (평균)}{\sigma(표준 편차)} )] |
어떤 변수든지 원래 값에서 평균을 뺀 새로운 변수를 만들고 그 평균을 구하면 정확히 0이 나온다. 이렇게 변수에서 평균을 빼는 과정을 중심화(centering)라고 한다.
그리고 각 변수(관측치)를 표준편차로 나누는 것을 척도화(scaling)라고 한다.
중심화를 통해서 각 관측치가 평균에 비해서 얼마나 크고 작은지를 확인한 다음 척도화를 통해서 단위 차이를 없앤 숫자를 만들어낸다.
이렇게 계산된 값들은 평균도, 단위도 상관없이 '표준적인 차이'를 의미한다. 어떤 변수를 가져오든 상관없이 표준화를 거친 변수의 평균은 0이 되고 표준편차는 1이 된다.
표준화된 정규 분포는 표준 정규 분포(standardized normal distribution) 또는 그냥 z-분포(z-distribution)[1]라고 한다. 정규분포의 최고점으로부터 일정한 거리만큼 멀어지게 될 경우 1시그마, 2시그마, ... 같은 이름으로 불리며, 정규분포상의 특정한 점에서 최고점까지의 거리를 구하는 z-값(z-scores) 같은 것도 있다. 통계학자들은 각 시그마 값이 정규분포 상에서 차지하는 넓이 (-n sigma < z < +n sigma) 같은 것에도 관심이 있어서, 각 시그마 당 몇 퍼센트의 넓이를 차지하는지 정리해 놓기도 했다.
표준정규분포는 평균인 0을 중심으로 좌우대칭이고 종(bell) 모양인데 평균인 0을 중심으로 ±1시그마 내에 속할 확률은 68.27%, 0을 중심으로 ±2시그마 내에 속할 확률은 95.45%, 0을 중심으로 ±3시그마 내에 속할 확률은 99.73%, 0을 중심으로 ±4시그마 내에 속할 확률은 99.9937%, 0을 중심으로 ±5시그마 내에 속할 확률은 99.999943%, 0을 중심으로 ±6시그마 내에 속할 확률은 99.9999998%이다.
산업 현장에서는 여기서 따온 6시그마 같은 개념들도 활용되고 있다.#
수능 표준점수에 활용된다. 물수능 수학 원점 100점과 불수능 수학 원점 100점이 똑같은 100점이 아니다. 예를 들어 불수능 80점과 물수능 100점을 비교해서 어느쪽이 상대적으로 더 잘한 것인지 따질 때 표준화(standardization)란 과정을 이용한다. 예를 들어 2011년에 수학 원점수 80점을 받은 학생과 2015년에 수학 원점수 100점을 받은 학생 중에서 어느 쪽이 상대적으로 잘한 것인지를 표준화를 거쳐 살펴보자. 2011년 수능 수험생들 수학 원점수 평균이 47.8점, 표준편차가 19.7점이었고 2015년 수능 수험생들 수학 원점수 평균은 55.4점, 표준편차는 28.5점이라 했을 때 2011년 80점을 표준화하면 (80-47.8)/19.7=1.63, 2015년 100점을 표준화하면 (100-55.4)/28.5=1.56이 나온다. 시험이 어려울수록 점수는 하향평준화되고 대부분은 낮은 점수대를 형성하고 일부의 고득점자가 생긴다. 그래서 2011년의 평균점수는 47.8점으로 매우 낮고, 표준편차가 19.8점으로 낮다. 즉, 2011년의 80점은 중심(=평균)에서 오른쪽으로 1.63만큼의 거리로 떨어져 있고, 2015년의 100점은 중심(=평균)에서 오른쪽으로 1.56만큼 떨어져있다. 따라서 2011년의 80점이 2015년의 100점 보다 평균에서 0.07만큼 더 멀리 고득점쪽으로 앞서있으므로 상대적으로 더 우수했다고 볼 수 있다. 실제 수능에서는 이렇게 계산된 값에 20을 곱하고 100을 더해서 표준점수를 계산하는데 그러면 평균은 0에서 100으로 바뀌고 표준편차는 1에서 20배 늘어난 20이 된다. 현재 평가원은 이런 방식을 토대로 국어, 수학 등의 과목의 표준점수를 최저 0점에서 최대 200점 사이의 어느 한 수치가 되게 설정하고 있다.#
2. 표준화
모든 정규분포는 표준정규분포로 변환될수있다. [2][3]표준화[math((Z))] | [math(Z = \dfrac{X(확률변수)-\mu (평균)}{\sigma(표준편차)} )] |
기댓값 | [math( E(Z) = E \left( \dfrac{X-\mu}{\sigma} \right) = \dfrac{E(X)-\mu}{\sigma} = \dfrac{\mu-\mu}{\sigma} = 0)] |
분산 | [math( var(X) = var \left( \dfrac{X-\mu}{\sigma} \right) = \dfrac{var(X)}{\sigma^2} = \dfrac{\sigma^2}{\sigma^2} = 1)] |
2.1. 표준화의 예시
평균 7, 표준편차 8인 정규분포 [math(N(7,8^2))] 를 6이상 8이하값을 가질 확률을 표준화[math((Z))]하면 [math(Z = \dfrac{X(확률변수)-\mu (평균)}{\sigma(표준편차)} )]이므로[math(P(X \ge 7) = P\left( \dfrac{6-7}{8} \le \dfrac{X-7}{8} \ge \dfrac{8-7}{8} \right) = P(-0.125 \le Z \ge 0.125) )]
[math( = (P(Z \ge 0.125)-0.5 )\times 2 =(P(Z \ge 0.125)-0.5 )\times 2)]
[math( =P\left(Z \ge \left(\dfrac{0.12+0.13}{2}\right)-0.5 \right)\times 2 =(0.54975-0.5 )\times 2 = 0.0995 )]확률을 조사할수있다.[가]
이어서 포준정규분포표[math((Z분포))]에서 평균0점의 확률값 0.5을 사용한 대칭 위치 역시 조사할수있다.
이러한 0.5(평균 0)의 위치는 대칭의 성질을 잘보여줄뿐만아니라 여기서 한걸음 더 나아가 구간 값을 조사하는데 있어서도 매우 중요한 보조값 역할을 확인해 볼수있다. [가][6]
3. 표준화의 변형
표준화 | 수식 | 가정 |
기본형 ([math(Z)]분포) | [math(Z = \dfrac{X(확률변수)-\mu (평균)}{\sigma(표준편차)} )] | 추가 가정 없음 |
중심극한정리(CLT) | [math( Z \sqrt{n} = \dfrac{X(확률변수)-\mu (평균)}{\dfrac{\sigma(모 표준편차)}{\sqrt{n}} } )] | 표본이 충분히 크다(일반적으로 [math( n \ge 30 )]) |
표준화 변형 (t분포) | [math(t(n-1) = \dfrac{X(확률변수)-\mu (평균)}{\dfrac{s(표본 표준편차)}{\sqrt{n}}} )] | (정규분포를 따르는 모집단의 표본이 충분히 크지 않으나) 모 표준편차를 표본표준편차로 대체할수있다 |
카이제곱 분포 | [math( \dfrac{표본분산\cdot자유도}{모 분산} = s^2\dfrac{(n-1)}{\sigma^2} = \chi^2(n-1) )] | 중심극한정리(CLT)와 t분포와의 상관관계 |
3.1. 카이 제곱 분포
[math(\chi^2 )]분포(카이 제곱 분포chi-square distribution)는 정규분포가 중심극한정리와 표준화의 변형인 t분포간에 자유도(n-1),모표준편차,표본표준편차와의 상관관계가 성립한다는 사실을 보여준다는것으로 부터 이를 정리한 분포이다.중심극한정리(CLT) [math( Z \sqrt{n} = \dfrac{X(확률 변수)-\mu (평균)}{\dfrac{\color{red}{\sigma(모 표준 편차)}}{\sqrt{n}} } )]
t분포 [math(t{\color{red}(n-1)} = \dfrac{X(확률 변수)-\mu (평균)}{\dfrac{ {\color{red}s(표본 표준 편차)} }{\sqrt{n}}} )]
이것은 표본 분산([math(s^2)])을 모분산[math(({\sigma^2}) )]으로 나눈 확률 변수는 자유도[math(n-1)]에서 카이 제곱임을 보여줄수있다.
[math( s^2\dfrac{(n-1)}{\sigma^2} = \chi^2(n-1) )]
따라서 [math( \dfrac{s^2}{\sigma^2} = \chi^2 )]
따라서 표본 분산([math(s^2)])에 상수(constant)인 [math((n-1)/\sigma^2)]을 곱한 확률 변수는 자유도가 [math(n-1)]인 카이 제곱 분포를 따른다. 이를 이용하여 표본 분산 [math(s^2)]을 가지고 모분산 [math(\sigma^2)]에 대한 가설검정이나 신뢰구간 도출이 가능하다. 바로 이 기능, 표본 분산을 보고 모분산을 추측하는 것이 카이 제곱 분포의 주요한 용도이다.
4. 관련 문서
[1] Z-disitribution의 평균은 Zero[2] 행동과학 연구를 위한 기초통계학,저자 : 최윤영 조경철, 도서출판 신정 2019-03-10 | 978-89-5912-480-0 93310[3] 보건통계학 이경무, 김경남, 윤병준 저 | 한국방송통신대학교출판문화원 | 2022년 07월 25일 ISBN10 8920042500[가] \[지오지브라\] 확률분포 계산기https://www.geogebra.org/classic[가] [6] 나부랭이의 수학블로그 > 정규분포 문제풀이https://math100.tistory.com/40