통계학 Statistics | |||
{{{#!wiki style="margin:0 -10px -5px; min-height:calc(1.5em + 5px); word-break: keep-all" {{{#!folding [ 펼치기 · 접기 ] {{{#!wiki style="margin:-5px -1px -11px" | <colbgcolor=#4d4d4d><colcolor=#fff> 수리통계학 | 기반 | 실해석학 (측도론) · 선형대수학 · 이산수학 |
확률론 | 사건 · 가능성 · 확률 변수 · 확률 분포 (표본 분포 · 정규 분포 · 이항 분포 · 푸아송 분포 · 카이제곱분포 · t분포 · Z분포 · F-분포 · 결합확률분포) · 확률밀도함수 · 확률질량함수 · 조건부확률 · 조건부기댓값 · 조건부분산 · 전체 확률의 법칙 · 베이즈 정리 · 도박사의 오류 · 도박꾼의 파산 · 몬티 홀 문제 · 뷔퐁의 바늘 · 마르코프 부등식 · 체비쇼프 부등식 · 큰 수의 법칙 (무한 원숭이 정리) · 중심극한정리 · 벤포드의 법칙 | ||
통계량 | 평균 (제곱평균제곱근 · 산술 평균 · 기하 평균 · 조화 평균 · 멱평균 · 대수 평균) · 기댓값 · 편차 (절대 편차 · 표준 편차) · 분산 (공분산) · 결정계수 · 변동계수 · 상관계수 · 대푯값 · 자유도 | ||
추론통계학 | 가설 · 변인 · 추정량 · 점추정 · 신뢰 구간 · 상관관계와 인과관계 · 실험통계학 · p-해킹 · 통계의 함정 · 그레인저 인과관계 · 신뢰도와 타당도 | ||
통계적 방법 | 회귀 분석 · 최소제곱법 · 분산 분석 · 주성분 분석 (요인 분석) · 시계열 분석 · 패널 분석 · 2SLS · 생존 분석 · GARCH · 비모수통계학 · 준모수통계학 · 기계학습 (군집 분석 · 분류 분석) · 위상 데이터분석 · 외삽법 · 메타 분석 · 모델링 (구조방정식) | ||
기술통계학 · 자료 시각화 | 도표 (그림그래프 · 막대그래프 · 선 그래프 · 원 그래프 · 상자 수염 그림 · 줄기와 잎 그림 · 산포도 · 산점도 · 히스토그램 · 도수분포표) · 그래프 왜곡 · 이상점 | }}}}}}}}} |
1. 개요
정보기하학(情報幾何學, information geometry; IG)은 확률 분포를 요소로 하는 통계모델에 관한 미분기하학을 의미하며, 좁은 의미로는 쌍대 아핀접속(dual affine connection)의 미분기하학을 뜻한다일본 위키피디아. '수리통계학의 미분기하학화', '통계적 추정의 기하학적 방법론', '정보이론에 있어서 미분기하를 이용한 정식화(定式化, canonicalization)'와 같이 표현되는데에서 보듯이, 정보기하학은 통계학, 정보이론, 확률이론을 넘나드는 학제적인 분야이다.역사적으로 정보기하학은 C.R.Rao의 연구[1]에서 시작됐는데, 해당 연구에서 Rao는 피셔계량을 처음으로 리만계량으로서 간주했다. 정보기하학의 현대적인 이론에는 아마리 슌이치(甘利 俊一, Amari Shun'ichi)[2]가 크게 기여했으며, 지금까지도 이 분야에서 그의 연구는 지대한 영향을 미치고 있다.
고전적으로 정보기하학에서는 매개변수를 지닌 통계적 모형(statistical model)을 리만 다양체로 간주한다. 그러한 모델에서는 리만계량의 자연스러운 선택이 존재하는데, 그것이 피셔 정보계량(Fisher information metric)이다[3]. 지수족(exponential family)과 같은 특정 통계모델에 대해서는 헤시안 계량으로 통계다양체를 유도하는 것이 가능하다. 이때 다양체는 자동적으로 2개의 평탄한 아핀접속(flat affine connection)과 정준 Bregman divergence[4]를 갖는다. 지금까지 정보기하학은 대부분 이 예제들을 연구하면서 발전해왔다.
현대의 정보기하학은 지수족에만 한정되지 않고 다양한 맥락에서 적용되는데, 예를들어 비지수족(non-exponential families), 비매개변수 통계학(non-parametric statistics), 그리고 기존에 알려진 통계모델에서는 유도가 불가능한 여러 추상적 통계다양체까지 다양한 것들을 정보기하학에서 다루고있다. 이 연구들은 정보이론, 아핀 미분기하, convex 해석학 및 다른 여러분야의 방법론들을 적용해서 이루어진다.
2. 수학적 정식화
정보기하학의 이론적인 구조는 통계학의 언어를 필요로 하지 않고, 순수한 미분기하학의 개념만으로 정식화 가능하다. 통계다양체(statistical manifold)의 정의는 여러개가 존재하지만, 현재 시점에서 가장 표준적인 정의는 쿠로세(1994)에 의한 것으로, [math(C^{\infty})] 다양체 M과 M 위에 뒤틀림이 없는 아핀접속 [math(\nabla)]와 유사 리만메트릭(pseudo-Rimmanian metric) [math(g)]의 조합 [math((M,\nabla,g))]에서 [math((0,3))] 텐서장 [math(\nabla g)]가 대칭인 것으로 정의하며, 조합 [math((\nabla,g))]을 통계구조(statistical structure)라고 한다.
[math(\nabla^*)]가 [math(\nabla)]의 [math(g)]에 관한 쌍대(雙對, dual) 접속이라고 하는것은 임의의 [math(M)]상의 벡터장 [math(X, Y, Z)]에서 라이프니츠 법칙과 유사한 것이 성립한다는 뜻이며, 조합 [math((M,g,\nabla^*))]를 쌍대 통계다양체라고 한다. [math(\nabla)]가 평탄(flat)하다면 [math(\nabla^*)]도 평탄하며, 조합 [math((M,g,\nabla,\nabla^*))]를 쌍대평탄공간이라고 하며, 조합 [math((g,\nabla,\nabla^*))]를 쌍대구조라고 한다.
[math(\nabla)]가 평탄하다는 것은, 텐서장 [math(\nabla g)]가 대칭이고 어떤 함수 [math(\phi)]가 국소적으로 존재해서 [math(g=\nabla d\phi)]로 표현가능한 것과 동치이며, 이것은 헤시안이다. [math(\nabla)]가 평탄한 통계다양체는 1970년대에 시마 히로히코(志磨裕彦)가 정의한 헤세 다양체(Hessian manifold)와 일치하며, 그 구조를 헤세 구조, 함수 [math(\phi)]를 헤세 포텐셜이라고 한다. 헤세 구조는 물리학에서 AdS/CFT 대응에 있어서 BTZ 블랙홀에서 발견된 것이 알려져있다.
3. 참고도서
아마리 슌이치와 히로시 나가오카의 책 "Methods of Information Geometry(2000)"[5]가 대표적으로 쓰이며, 최근에 쓰인 책으로는 Nihat Ay 등의 "Information Geometry(2017)"[6]가 있다. 2018년에는 Frank Nielsen이 Information Geometry 저널을 발간하기도 했다.[1] Rao, C. R. (1945). "Information and Accuracy Attainable in the Estimation of Statistical Parameters". Bulletin of the Calcutta Mathematical Society. 37: 81–91. Reprinted in Breakthroughs in Statistics. Springer. 1992. pp. 235–247.[2] https://en.wikipedia.org/wiki/Shun%27ichi_Amari[3] https://en.wikipedia.org/wiki/Fisher_information_metric[4] https://en.wikipedia.org/wiki/Bregman_divergence[5] Amari, Shun'ichi; Nagaoka, Hiroshi (2000). Methods of Information Geometry. Translations of Mathematical Monographs. Vol. 191. American Mathematical Society. ISBN 0-8218-0531-2.[6] Ay, Nihat; Jost, Jürgen; Lê, Hông Vân; Schwachhöfer, Lorenz (2017). Information Geometry. Ergebnisse der Mathematik und ihrer Grenzgebiete. Vol. 64. Springer. ISBN 978-3-319-56477-7.