실제로 분산분석을 실시하는 기술적 절차에 대한 내용은 통계적 방법/분석/분산분석 문서 참고하십시오.
통계학 Statistics | |||
{{{#!wiki style="margin:0 -10px -5px; min-height:calc(1.5em + 5px); word-break: keep-all" {{{#!folding [ 펼치기 · 접기 ] {{{#!wiki style="margin:-5px -1px -11px" | <colbgcolor=#4d4d4d><colcolor=#fff> 수리통계학 | 기반 | 실해석학 (측도론) · 선형대수학 · 이산수학 |
확률론 | 사건 · 가능성 · 확률 변수 · 확률 분포 (표본 분포 · 정규 분포 · 이항 분포 · 푸아송 분포 · 카이제곱분포 · t분포 · Z분포 · F-분포 · 결합확률분포) · 확률밀도함수 · 확률질량함수 · 조건부확률 · 조건부기댓값 · 조건부분산 · 전체 확률의 법칙 · 베이즈 정리 · 도박사의 오류 · 도박꾼의 파산 · 몬티 홀 문제 · 뷔퐁의 바늘 · 마르코프 부등식 · 체비쇼프 부등식 · 큰 수의 법칙 (무한 원숭이 정리) · 중심극한정리 · 벤포드의 법칙 | ||
통계량 | 평균 (산술 평균 · 기하 평균 · 조화 평균 · 멱평균 · 대수 평균) · 기댓값 · 편차 (절대 편차 · 표준 편차) · 분산 (공분산) · 결정계수 · 변동계수 · 상관계수 · 대푯값 · 자유도 | ||
추론통계학 | 가설 · 변인 · 추정량 · 점추정 · 신뢰 구간 · 상관관계와 인과관계 · 실험통계학 · p-해킹 · 통계의 함정 · 그레인저 인과관계 · 신뢰도와 타당도 | ||
통계적 방법 | 회귀 분석 · 최소제곱법 · 분산 분석 · 주성분 분석 (요인 분석) · 시계열 분석 · 패널 분석 · 2SLS · 생존 분석 · GARCH · 비모수통계학 · 준모수통계학 · 기계학습 (군집 분석 · 분류 분석) · 위상 데이터분석 · 외삽법 · 메타 분석 · 모델링 (구조방정식) | ||
기술통계학 · 자료 시각화 | 도표 (그림그래프 · 막대그래프 · 선 그래프 · 원 그래프 · 상자 수염 그림 · 줄기와 잎 그림 · 산포도 · 산점도 · 히스토그램 · 도수분포표) · 그래프 왜곡 · 이상점 | }}}}}}}}} |
1. 개요
종속 변인 | 독립 변인 | 분석 |
측정형 | 분류형 | 분산 분석 |
측정형 | 측정형 | 회귀 분석 |
분류형 | 분류형 | 교차 분석 |
分散分析 / analysis of variance, ANOVA
분산 분석 또는 변량 분석은 종속 변수의 분산(variance, 변량)을 설명하는 독립 변수의 유의성을 알아보는 방법 중 하나이다. 영국의 통계학자 Fisher가 농업 생산성 관련 연구를 하려고 만들었다. 3개 이상의 처리 효과 또는 모평균을 비교하는 경우에는 일반적으로 실험을 계획하고 실험을 실시한 후에 얻은 자료를 기초로 하여 분석한다. 통계학 쪽에서는 통칭 아노바(ANOVA)라고 부른다.
분산분석이란 명목척도로 측정된 독립변수와 등간척도 또는 비율척도로 측정된 종속변수 사이의 관계를 연구하는 통계 기법이다.
분산 분석의 귀무 가설 H0는 "μ1=μ2=μ3"같은 것이고, 대립 가설 H1은 "H0가 아니다"와 같은 것이다. 구체적인 예를 들자면, H0는 "약품 세 가지가 효과 차이가 없다"와 같은 것이고, H1은 "적어도 한 가지는[1] 효과 차이가 있다"와 같은 것이다.
세 개 이상의 집단의 평균 차이가 있는가를 검증할 때 쓴다. 예를 들어, 약물 3종류를 투여하고, 약물의 효과에 차이가 있는지 검증할 때 쓸 수 있다. p-값이 0.05보다 작으면 통계적으로 유의미한 차이가 있다고 볼 수 있다. 즉, 약물이 효과가 있다고 볼 수 있다.
크게 연구방법론 측면에서 보면, 회귀분석에 비해 집단비교가 그나마(?) 직관적인 부분이 있다(
2. 전제 조건
변량 분석을 이용하여 가설 검증을 하기 위해서 각 변량들에 근거하여 갖추어야 할 전제 조건들이 있다.3. 요인의 수에 따른 구분
요인의 수에 따라 다음으로 구분할 수 있다.3.1. 일원 배치법
일원 배치법(one-way layout), 일원 분산 분석(one-way ANOVA)일원 배치법은 특성값에 대한 한 종류의 변수의 영향을 조사할 때 사용하는 분산 분석법이다. 변수의 각 수준이 처리가 되며 2개의 처리 효과를 비교할 때는 t-검정을, 3개 이상의 처리 효과를 비교할 때는 ANOVA를 사용한다. 처리(treatment)는 각 실험 단위에서 특정한 실험 환경 또는 실험 조건을 가하는 것을 말한다.
- 반복이 일정한 모수 모형인 경우
- 반복이 일정하지 않은 모수 모형인 경우
- 반복이 일정한 변량 모형인 경우
- 반복이 일정하지 않은 변량 모형인 경우
3.2. 이원 배치법
이원 배치법(two-way layout), 이원 분산 분석(two-way ANOVA)- 반복없는 이원 배치법
이원 배치법은 특성치에 영향을 주는 2개의 인자에 대하여 그 영향력을 조사하고자 할 때 사용하는 실험방법이다. 인자(factor)의 교호 작용이 있다고 판단 될 때에는 반복이 있는 실험을 하고, 교호작용이 없다고 생각되는 경우, 즉 A와 B가 독립인 경우에는 반복이 없는 실험을 한다. 교호작용(interaction)은 독립변수 사이에 상호 작용을 하여 서로의 작용에 영향을 주는 것을 말한다.
5. 반복이 없는 이원배치법
- 난괴법(randomized (complete) block design)
난괴법은 농업 관련의 시험에서 처리(시비량, 품종 등)의 효과를 지역 차를 극복하여 바르게 검정하기 위해서 사용한다. 지역을 몇 개의 구획으로 나누고, 이것을 다시 분할해서 처리 수만큼은 시험구(plot)를 만들고, 각 시험구에 무작위로 각 처리를 할당하는 실험 방식이다. 반복없는 이원 배치법의 일종이다.
난괴법
6. 난괴법
- 반복있는 이원 배치법(모수 모형)
최고차의 교호작용(A X B)이 오차항에서 분리되어 나온다.
7. 반복있는 이원배치법(모수모형)
- 반복있는 이원 배치법(혼합 모형)
8. 반복 있는 이원배치법(혼합모형)
3.3. 삼원 배치법
삼원 배치법(three-way layout), 삼원 분산 분석(three-way ANOVA)3.4. 다변량 분산 분석
다변량 분산 분석 (Multivariate analysis of variance)4. 분석 모형
- 고정 효과(fixed-effects)
- 확률 효과, 무선 효과(random-effects)
- 혼합 효과(mixed-effects)
5. 자유도
분산 분석의 자유도(degrees of freedom, df)는 다음과 같이 구한다.자료에 k개의 열(column)과 n개의 행(row)이 있는 경우 처리 제곱합의 자유도는 k-1이다.
잔차 제곱합의 자유도는 N-k 또는 k(n-1)이다.
총 제곱합의 자유도는 N-1 또는 nk-1이다.
6. 엑셀로 분산 분석 하기
엑셀로 일원배치 분산분석 (One-way ANOVA) 하기엑셀로 통계 분석하는 방법
7. 기타
- 에타 제곱
- 본페로니 방법
8. 관련 문서
[1] 굉장히 중요하다. 분산분석을 할 때 여러개의 변수 중에서 보통 1~2개만 차이가 있는 경우가 많다.