주성분 분석

[include(틀:다른 뜻, 설명1=미국의 장로회 교단, 문서명1=미국 장로회(PCA), 설명2= 미국의 야구 선수, 문서명2=피트 크로우암스트롱, 설명3=아머드 코어 시리즈의 단체, 문서명3=행성 봉쇄 기구, ]

통계학 Statistics
{{{#!wiki style="margin:0 -10px -5px; min-height:calc(1.5em + 5px); word-break: keep-all" {{{#!folding [ 펼치기 · 접기 ] {{{#!wiki style="margin:-5px -1px -11px"	<colbgcolor=#4d4d4d><colcolor=#fff> 수리통계학	기반	실해석학 (측도론) · 선형대수학 · 이산수학
확률론		사건 · 가능성 · 확률 변수 · 확률 분포 (표본 분포 · 정규 분포 · 이항 분포 · 푸아송 분포 · 카이제곱분포 · t분포 · Z분포 · F-분포 · 결합확률분포) · 확률밀도함수 · 확률질량함수 · 조건부확률 · 조건부기댓값 · 조건부분산 · 전체 확률의 법칙 · 베이즈 정리 · 도박사의 오류 · 도박꾼의 파산 · 몬티 홀 문제 · 뷔퐁의 바늘 · 마르코프 부등식 · 체비쇼프 부등식 · 큰 수의 법칙 (무한 원숭이 정리) · 중심극한정리 · 벤포드의 법칙 · 독립항등분포
통계량		평균 (제곱평균제곱근 · 산술 평균 · 기하 평균 · 조화 평균 · 멱평균 · 대수 평균) · 기댓값 · 편차 (절대 편차 · 표준 편차) · 분산 (공분산) · 결정계수 · 변동계수 · 상관계수 · 대푯값 · 자유도
추론통계학	가설 · 변인 · 추정량 · 점추정 · 신뢰 구간 · 상관관계와 인과관계 · 실험통계학 · p-해킹 · 통계의 함정 · 그레인저 인과관계 · 신뢰도와 타당도
추론통계학	통계적 방법	회귀 분석 · 최소제곱법 · 분산 분석 · 주성분 분석 (요인 분석) · 시계열 분석 · 패널 분석 · 2SLS · 생존 분석 · GARCH · 비모수통계학 · 준모수통계학 · 기계학습 (군집 분석 · 분류 분석) · 위상 데이터분석 · 외삽법 · 메타 분석 · 모델링 (구조방정식)
기술통계학 · 자료 시각화		도표 (그림그래프 · 막대그래프 · 선 그래프 · 원 그래프 · 상자 수염 그림 · 줄기와 잎 그림 · 산포도 · 산점도 · 히스토그램 · 도수분포표) · 그래프 왜곡 · 이상점	}}}}}}}}}

<colbgcolor=#000> 과학 연구 · 실험 Scientific Research · Experiment
{{{#!wiki style="margin: 0 -10px -5px" {{{#!folding [ 펼치기 · 접기 ] {{{#!wiki style="margin: -6px -1px -11px"	<colbgcolor=#000><colcolor=#fff><rowcolor=#000,#fff> 배경	과학적 방법
기반	수학(미적분학 · 선형대수학 · 미분방정식) · 통계학(수리통계학 · 추론통계학 · 기술통계학)
연구·탐구	논증(귀납법 · 연역법 · 유추(내삽법 · 외삽법)) · 이론(법칙 · 공리 · 증명 · 정의 · 근거이론 · 이론적 조망) · 가설 · 복잡계(창발) · 모형화(수학적 모형화) · 관측 · 자료 수집 · 교차검증 · 오컴의 면도날 · 일반화
연구방법론	합리주의 · 경험주의 · 환원주의 · 복잡계 연구방법론 · 재현성(연구노트)
	통계적 방법	혼동행렬 · 회귀 분석 · 메타 분석 · 주성분 분석 · 추론통계학(모형(구조방정식) · 통계적 검정 · 인과관계와 상관관계 · 통계의 함정 · 신뢰도와 타당도)
측정·물리량	물리량(물리 상수 · 무차원량) · 차원(차원분석) · 측도 · 단위(단위계(SI 단위계 · 자연 단위계) · 단위 변환) · 계측기구 · 오차(불확도 · 유효숫자 · 과학적 표기법)
실험	실험설계 · 정성실험과 정량실험 · 실험군과 대조군 · 변인(독립 변인 · 조작 변인 · 종속 변인 · 변인 통제) · 모의 실험(수치해석) · 맹검법 · 사고 실험 · 인체실험 · 임상시험 · 실험 기구(거대과학)
연구윤리	뉘른베르크 강령 · 헬싱키 선언 · 연구투명성 · 연구 동의서 · 연구부정행위 · 표절(표절검사서비스) · 편향 · 문헌오염 · 자기교정성 · 연구윤리위원회
논문	소논문 · 리포트 · 학술지 · 형식(초록 · 인용(양식 · 참고문헌) · 감사의 글) · 저자 · 동료평가 · 지표 · 저널인용보고서 · 구글 학술검색 · 학술 데이터베이스 · 게재 철회
과학 공동체	논문제출자격시험 · 연구계획서 · 학회 · 세미나 · 학술대회 · 학제간 연구
철학 관련 정보 · 연구방법론 관련 정보 · 수학 관련 정보 · 자연과학 관련 정보 · 물리학 관련 정보 · 통계 관련 정보 · 사회과학 조사연구방법론			}}}}}}}}}

1. 개요2. 상세3. 방법4. 경제학 연구방법론으로서의 활용

1. 개요

主成分分析 / Principal Component Analysis (PCA)

개별 자료의 상관관계를 이용해 자료의 차원(dimensionality of data)을 줄이는 통계학 기법.

쉽게 설명하면 무수히 많은 데이터 중에서 그들을 대표할 수 있는 대표 데이터를 선언하는 기법으로 이를 이용해 상관관계 분석을 한다.

2. 상세

요인 분석과 동일한 원리로 작동한다. 그러나 요인 분석과는 본질적으로 차이가 있다. 많은 정보를 함유하고 있는 여러 변수들에서 공통된 정보를 추출하여 자료의 차원을 줄이거나 여러 변수들을 대표하는 지표를 구성하기 위해 주성분 분석/요인 분석이 쓰인다.

주성분 분석의 목적은 변수의 개수를 줄이는 것, 즉 자료의 차원축약이 목적이다.

따라서 독립변수에 사용할 변수를 추려내는 기준이 있어야하며 이에 대해서는 여러 가지 기준이 있다.

실무에서 사용하기 용이하게 일반적으로 받아들여지는 관례적인 기준, 시각화를 사용한 기준, 통계 이론을 사용한 좀 더 엄밀한 기준이 있다.

통계 이론에 기반한 기준이라고 해도 그것이 완전무결한 기준은 아니기 때문에 다양한 기준을 숙지하고 자신이 하고자 하는 실증분석에 적합한 기준을 채택하여 사용하는 것이 필요하다.

처음에 주성분 분석의 아이디어가 무엇인지만 이해하면, 나머지 내용은 모두 행렬과 벡터에 대한 내용 뿐이다. 선형대수를 얼마나 충실하게 공부했고 수리통계학, 회귀분석을 들으며 이를 충분히 연습했다면 쉽게 공부할 수 있다. 통계학과 고학년 수준에서 주성분 분석에만 특별히 요구되는 지식은 없다고 봐도 무방하기 때문이다. 경제학 쪽에서도 대학원 계량경제학1을 소화할 수 있는 능력이라면 학부 주성분 분석은 독학으로 어렵지 않게 공부할 수 있다.

3. 방법

주성분 분석의 방법을 요약해서 우선 설명해보면 다음과 같다.

서로 연관성이 있는 고차원공간의 데이터를 선형연관성이 없는 저차원(주성분)으로 변환하는 과정을 거친다(선형변환을 사용)

2. 기존의 기본변수들을 새로운 변수의 세터로 변환하여 차원을 줄이되 기존 변수들의 분포특성을 최대한 보존하여 이를 통한 분석결과의 신뢰성을 확보한다.

예를 들어서 [math(\mathbf{x} = \begin{bmatrix} x_1 \quad x_2 \quad ... \quad x_p \end{bmatrix})]로 이뤄진 자료가 주어졌다고 할 때, 주성분 분석을 위해선 X의 대리변수를 찾아야 한다. [1]

이 때 대리변수를 찾는 방법이 선형변환(직교변환)이다. 즉 적절한 행렬 A를 활용해 X를 대신할 수 있는 Y = AX를 얻고, Y 행렬의 변수 중요 변수 몇 개를 추려 X 대신 사용하는 형식으로 분석한다.

따라서, 선형변환을 하는 행렬 A를 어떻게 찾아내느냐가 주성분 분석의 핵심이다.

이를 찾아내는 자세한 과정을 첨부한다. https://rython.tistory.com/18

A를 찾는 데에 공분산행렬이나 상관계수 행렬을 사용한다. [2]

공분산 행렬, 상관계수 행렬의 변동성을 최대한 많이 가져오는 행렬 A를 만듦으로써 설명력이 높은 대리변수를 만들고자 하는 것이다.[3]

그런데, 공분산 행렬과 상관계수 행렬은 모두 대칭행렬이고 양정치행렬[4] 이다.

모든 원소가 실수인 대칭행렬은 모든 고유값(eigenvalue)이 실수이며 대각화(diagonalization)가 항상 가능하다.

특히 스펙트럼 분해가 가능하다. 또한 양정치행렬의 고유값은 모두 양수이다.[5] 따라서 공분산행렬과 상관계수 행렬은 항상 모든 고유값이 양수인 스펙트럼 분해가 가능하다. 이를 잘 활용하면 적절한 Y를 만들어주는 A를 찾을 수 있고 여기에서 설명력이 높은 변수가 무엇인지 알 수 있다.

4. 경제학 연구방법론으로서의 활용

경제학에서 흔하지는 않았던 방법이다. 그러나 2000년대부터 거시경제학 분야에서 활용되기 시작하고 있다. 벡터자기회귀 (VAR) 모형으로 금융정책의 영향을 살펴보고 싶다면 제한된 수의 변수를 이용한다. 이렇게 변수의 수에 제한이 있다면 '변수 누락에 따른 편의'[6]가 나타날 수 있다. Bernanke et al.(2005)나 Biovin et al.(2009)은 이런 문제를 해결하기 위해 요소추가 벡터자기회귀 (FAVAR)[7] 모형을 주장하였다. 여기서는 '관찰 가능한 모든 변수'에 요인 분석을 적용해 금융정책을 대변하는 잠재변수[8]을 추정하고 이를 활용하여 벡터자기회귀 모형을 추정한다. 또 이런 분석방법은 노동경제학에서도 유용하다. [9]

[1] 대리변수는 위 x의 방대한 데이터를 대표하는 변수를 의미한다.[2] 공분산 행렬과 상관계수 행렬을 사용하는 이유는 이 행렬들이 주어진 자료의 변동성을 반영하기 때문이다.[3] 자칫 변동성이 크면 모형의 불확실성이 높아지고 적합도가 떨어지지 않느냐고 생각할 수 있다. 그러나 이는 종속변수의 변동성이 클 때의 이야기이다. 주성분 분석은 딱히 독립변수와 종속변수를 구분하지 않고 모형을 전개한다. 직관적으로 설명하자면, 주성분 분석에서 변수의 분산은 자료의 폭과 다양함, 설명할 수 있는 범위의 크기를 반영한다고 생각하면 된다.[4] positive-definite. 영벡터를 제외한 임의의 실벡터 u에 대해 {\bf u^t B u} > 0를 만족하는 행렬 B를 양정치행렬이라고 한다.[5] 통계학에서 이차형식을 다룰 때에는 대칭행렬을 고려하는 것이 일반적이기 때문에 '대칭행렬이며 양정치 행렬이다'가 아니라 '양정치 행렬이다'라고만 서술하는 경우도 많다.[6] ommited variable bias[7] Factor-augmented VAR[8] latent variable[9] 참고문헌

주성분 분석

1. 개요

2. 상세

3. 방법

4. 경제학 연구방법론으로서의 활용

분류