최근 수정 시각 : 2023-05-17 00:05:32

위상 데이터분석

<rowcolor=#fff> '기하학·위상수학
'
{{{#!wiki style="margin: 0 -10px -5px; min-height: calc(1.5em + 5px)"
{{{#!folding [ 펼치기 · 접기 ]
{{{#!wiki style="margin: -5px -1px -11px"
평면기하학에 대한 내용은 틀:평면기하학 참고.
기본 대상
공리 유클리드 기하학 · 비유클리드 기하학
도형 기본 도형 평면 · 부피 · 꼬인 위치 · 각기둥 · 각뿔 · 원기둥 · 원뿔 · (공 모양) · 전개도 · 겨냥도 · 다면체 (정다면체) · 정사영 · 대칭(선대칭 · 점대칭)
곡면 타원면 · 타원포물면 · 쌍곡포물면 · 원환면
프랙털 도형 시에르핀스키 삼각형 · 시에르핀스키 사각형(멩거 스펀지) · 망델브로 집합 · 코흐 곡선 · 드래곤 커브
기타 다포체 · 초구 · 준구 · 일각형 · 이각형
다루는 대상과 주요 토픽
대수기하학 대수다양체 · · 스킴 · 에탈 코호몰로지 · 모티브 · 타원곡선
미분기하학 미분다양체 · 측지선 · 곡률(스칼라 곡률 · 리만-크리스토펠 곡률 텐서 · 리치 텐서) · 열률 · 텐서 · 쌍곡 공간(쌍곡삼각형 · 푸앵카레 원반) · 타원 공간(구면삼각형) · 아핀접속
위상수학 위상 공간 유계 · 옹골 집합 · 다양체 · 택시 거리 공간 · 연결 공간 · 위상수학자의 사인곡선
위상도형 사영평면 · 뫼비우스의 띠 · 클라인의 병 · 매듭(/목록)
주요 성질·정리 분리공리 · 우리손 거리화정리(우리손 보조정리) · 베르 범주 정리
대수적 위상수학 호모토피 · 사슬 복합체 · 호몰로지 이론(호몰로지 · 코호몰로지) · 사상류 군 · 닐센-서스턴 분류
기타 차원 · 좌표계 · 거리함수 · 그물 · 쾨니히스베르크 다리 건너기 문제 · 사이클로이드
정리·추측
실베스터-갈라이 정리 · 해안선 역설 · 바나흐-타르스키 역설 · 라이데마이스터 변환 · 오일러 지표 · 푸앵카레 정리 · 페르마의 마지막 정리 · 호지 추측미해결 · 버치-스위너턴다이어 추측미해결
분야
논증기하학 · 대수기하학 · 미분기하학 · 해석 기하학 · 매듭이론 · 프랙털 이론 · 정보기하학 · 위상 데이터분석 }}}}}}}}}

통계학
Statistics
{{{#!wiki style="margin:0 -10px -5px; min-height:calc(1.5em + 5px); word-break: keep-all"
{{{#!folding [ 펼치기 · 접기 ]
{{{#!wiki style="margin:-5px -1px -11px"
<colbgcolor=#4d4d4d><colcolor=#fff> 수리통계학 기반 실해석학 (측도론) · 선형대수학 · 이산수학
확률론 사건 · 가능성 · 확률 변수 · 확률 분포 (표본 분포 · 정규 분포 · 이항 분포 · 푸아송 분포 · 카이제곱분포 · t분포 · Z분포 · F-분포 · 결합확률분포) · 확률밀도함수 · 확률질량함수 · 조건부확률 · 조건부기댓값 · 조건부분산 · 전체 확률의 법칙 · 베이즈 정리 · 도박사의 오류 · 도박꾼의 파산 · 몬티 홀 문제 · 뷔퐁의 바늘 · 마르코프 부등식 · 체비쇼프 부등식 · 큰 수의 법칙 (무한 원숭이 정리) · 중심극한정리 · 벤포드의 법칙
통계량 평균 (제곱평균제곱근 · 산술 평균 · 기하 평균 · 조화 평균 · 멱평균 · 대수 평균) · 기댓값 · 편차 (절대 편차 · 표준 편차) · 분산 (공분산) · 결정계수 · 변동계수 · 상관계수 · 대푯값 · 자유도
추론통계학 가설 · 변인 · 추정량 · 점추정 · 신뢰 구간 · 상관관계와 인과관계 · 실험통계학 · p-해킹 · 통계의 함정 · 그레인저 인과관계 · 신뢰도와 타당도
통계적 방법 회귀 분석 · 최소제곱법 · 분산 분석 · 주성분 분석 (요인 분석) · 시계열 분석 · 패널 분석 · 2SLS · 생존 분석 · GARCH · 비모수통계학 · 준모수통계학 · 기계학습 (군집 분석 · 분류 분석) · 위상 데이터분석 · 외삽법 · 메타 분석 · 모델링 (구조방정식)
기술통계학 ·
자료 시각화
도표 (그림그래프 · 막대그래프 · 선 그래프 · 원 그래프 · 상자 수염 그림 · 줄기와 잎 그림 · 산포도 · 산점도 · 히스토그램 · 도수분포표) · 그래프 왜곡 · 이상점 }}}}}}}}}

파일:science_transmed_tda.png파일:tda_nature_report_cancer.png파일:umap_cell.png
왼쪽부터 Mapper를 사용한 당뇨연구 (Science Translational Medicine지 표지논문), Persistent homology를 사용한 전립선암 연구 (Nature Scientific Reports지 논문), UMAP을 사용한 세포연구 (Cell지 논문).

1. 개요2. 위상 데이터분석의 관점3. 단적복체를 사용한 분석
3.1. 지속적 호몰로지 (Persistent homology)3.2. 이산적 모스이론 (Discrete Morse theory)
4. 미분다양체를 사용한 데이터 분석
4.1. 비선형적 차원축소 (Nonlinear dimensionality reduction)4.2. 다양체 학습 (Manifold learning)
5. 응용 범주론 (Applied category theory)6. 매퍼 (Mapper)

1. 개요

위상 데이터분석 (Topological Data Analysis, TDA)는 수학통계학의 한 분야로, 데이터위상수학기하학적 기법을 사용해서 연구하는 데이터 과학이다. 2000년대에 연구가 시작되었다.

2. 위상 데이터분석의 관점

고전적 통계학은 순수수학의 위상수학기하학과 별다른 접점이 없다. 근래에 생겨난 접점 중 정보기하학 (information geometry) 이라는 분야가 있다. 이 분야에서는 확률분포를 다양체 (manifold)의 점들로 본다. 따라서 통계학적 방법론을 사용하는 빅 데이터 프로세싱머신러닝 역시 데이터를 보통 위상수학과 기하학의 도구들로 분석하지 않는다. 여기서 "기하학"은 현대 순수수학의 기하학을 일컫는 것이며, 물론 다각형, 다면체, 그리고 선형대수의 도구들은 통계학은 물론 수학과 자연과학, 공학에서 숨쉬듯이 쓰인다.

현대의 기하학과 위상수학은 중, 고등학교에서 배우는 원, 삼각형, 다면체보다 더 다양한 대상들을 다룬다. 덕분에 수학자들에게는 (1) 4차원 이상의 공간을 손쉽게 다루는 언어가 있으며[1][2] (2) 곡률과 호몰로지 등 "모양"을 구체화한 개념이 다양하다. 위상 데이터분석에서는 이런 도구들을 데이터 분석의 영역으로 끌어오는 연구분야이다. 위상수학 뿐만이 아니라 기하학 역시 사용하기 때문에 위상기하적 데이터분석 (Topological and Geometric Data Analysis, TGDA)라는 용어를 쓰기도 한다. 이 문서에서는 TGDA의 더 포괄적인 개념을 소개하고자 한다.[3]

현실에서 존재하는 데이터는 결국 유한한 정보만을 담고있고, 이를 연속적인 대상을 분석하는 위상수학 및 기하학에 연결하기 위해서는 징검다리가 필요하다. 위상 데이터분석은 이산적인 정보를 연속적이며 기하학적인 대상으로 바꾸는 데에서 시작한다.

예를 들어 호몰로지라는 (순수)위상수학의 개념을 공간의 "구멍"을 세는 방법이라고 한다면,[4] 이것을 바로 이산적 대상에 적용하면 문제가 생긴다. 연속적 대상인 원의 첫번째 호몰로지 군은 1차원이며, 이는 직관적으로 "원의 구멍은 1개"라는 의미이다. 한편 원 위에 10000개의 점을 고른 후에 "구멍"을 찾으라고 하면 사람은 이를 보고 "1개"라고 답할 것이며 호몰로지는 "0개"라고 답할 것이다. 왜 그럴까? 사람은 흩뿌려진 점들의 집합에서 원의 구조를 찾아내서 원의 구멍을 찾는 반면 기존의 호몰로지는 10000개의 점을 완전히 분리된 점들의 모임으로 본 후, "각 점에는 구멍이 없는데요?"라고 반문하기 때문이다. 이와같이 10000개의 점을 단순히 "원"이라는 단어 하나로 표현하는 것은 인간의 기하학적 직관이 강력한 도구임을 보여준다. 물론 구멍을 세는것과 마찬가지로 곡률을 재거나 거리를 재는 기하학적 작업 역시 이와같은 연속적 대상을 찾아내는 것이 먼저 필요하다.

"점의 모임"이 데이터에서 유의미한 이유는, 많은 데이터가 "고차원적 점의 모임"으로 표현되기 때문이다. 예를 들어, 가로 세로 100 x 100개의 화소로 된 그림 파일은 각 화소에 RGB값 3개를 담고 있기에 3x100x100=30000개의 숫자값으로 표현할 수 있다[5]. Single-cell RNA 등 의학적 데이터 역시 비슷하게 표현가능할 때가 많다. 따라서 이와같은 그림 파일은 각각 30000차원 벡터, 즉 실수공간 [math(\mathbb{R}^{30000})]의 점으로 볼 수 있으며, 더불어 이런 그림파일이 1000개 있으면 [math(\mathbb{R}^{30000})]에서 1000개의 점을 고른 것이라고 할 수 있다.

이와 같이 많은 데이터는 [math(\mathbb{R}^{n})]의 유한 부분집합으로 표현되며[6], 데이터 분석은 여기서 구조를 찾아내는 것이라고 할 수 있다. 이런 상황에서 대표적으로 사용되는 기하학적 대상은 단적복체 (Simplicial complex)와 다양체 (Manifold)가 있다. 전자가 보통 더 넓은 범주이지만[7] 단적복체를 표현하기 위해선 미분다양체보다 더 많은 정보가 필요할 수 있다. 따라서 이 두가지 방법론은 상호보완적이며 둘중 하나가 더 우수한 접근이라고 볼 수 없다.

3. 단적복체를 사용한 분석

점들의 모임에서 단적복체를 만들어내는 법은 대표적으로 비에토리스-립스 복체 (Vietoris-Rips complex, or VR complex)와 체흐 복체 (Cech complex)가 있다. VR 복체는 계산이 빠르지만 기하학적 의미가 부정확하다는 단점이 있으며[8] 체흐 복체는 계산이 느리지만 기하학적 의미가 명확하다.

점들의 집합 [math(X = \{x_1, \cdots x_N\} \subseteq \mathbb R^d)]가 주어졌을때 역치 (threshold) r의 VR 복체는 [math(\|x_i - x_j\| < r)]인 점들 [math(x_i, x_j)]를 모두 이어서 그래프 [math(G_r)]를 만드는 것으로 시작한다. 이 후에는 [math(G_r)]의 모든 완전 부분그래프에 단체 (simplex)를 삽입함으로써 VR 복체 [math(\text{VR}_r(X))]가 완성된다. 즉, VR 복체 [math(\text{VR}_r(X))]는 [math(G_r)]에 넣을 수 있는 모든 단체를 있는대로 넣어서 만들어지는 복체이다.

위처럼 점들의 모임 [math(X)]가 주어졌을때, 체흐 복체 [math(\text{\v C}_r(X))]는 각 점 [math(x_i)]에서 반지름 [math(r)]짜리 구들 [math(B_i := \{y | \|x_i-y\| < r \})]들을 생각하고 [math(\bigcap_{i \in I} B_i \neq \emptyset)]이 되는 모든 집합 [math(I \subseteq \{1, \cdots N\})]에 대해 단체를 [math(\{x_i | i \in I\})]에 삽입함으로써 만들어진다. 신경 보조정리 (Nerve lemma)에 의해서 [math(\text{\v C}_r(X))]는 사실 구들의 합집합 [math(\bigcup_{i} B_i)]와 호모토피 동치 (homotopy equivalent)하다. 따라서 이와같은 구의 합집합과 호몰로지 군은 같으며, 직관적 의미는 간단하다.

여기서 [math(r\leq r')]이면 [math(\text{VR}_r(X) \subseteq \text{VR}_{r'}(X))]와 [math(\text{\v C}_r(X) \subseteq \text{\v C}_{r'}(X))]이 성립하므로 역치 r이 증가할수록 단체는 새로 삽입되기만 하고 사라지지 않는다는 사실에 주목하자. 즉, 위의 복체들은 여과(filtration)가 된다. 이 덕분에 역치 r은 일종의 해상도로 볼 수 있다.

두 복체는 다음과 같은 포함관계를 만족한다:
[math(\text{\v C}_{r/2} \subseteq \text{VR}_r(X) \subseteq \text{\v C}_{r} )]
첫번째 포함관계의 증명: 두 점을 잡고 그사이의 거리에 반절에 해당하는 구를 두개 그리면 그 구들은 반드시 교차하기 때문에 [math(\text{\v C}_{r/2}(X))]의 그래프 부분 (1-skeleton)은 [math(\text{VR}_{r}(X))]의 그래프 부분과 정확히 일치한다. 한편, 위에서 설명했듯이 VR복체는 모든 단체를 있는대로 넣어서 만들어지기 때문에 포함관계가 성립한다.
두번째 포함관계의 증명: 만약 index의 모임 [math(I \subseteq \{1, \cdots N\})]가 VR복체에서 단체를 이룬다면, 모든 점들간의 거리가 r 이내인데, 이중 아무 점이나 고르면 이것이 I의 원소에 해당하는 점에 중심을 둔 반지름 r짜리 구들의 교집합에 들어간다. 따라서 포함관계가 성립한다.

위에서는 유클리드공간의 유한 부분집합에 대해서만 이 복체들을 설명했지만, VR복체는 임의의 거리공간(metric space)에 대해서 정의되며, 체흐복체는 거리공간 하나 (점들의 모임에 해당)와 이것이 포함된 더 큰 거리공간 (유클리드공간에 해당)이 주어졌을때 정의할 수 있는 더 일반적인 개념들이다.

3.1. 지속적 호몰로지 (Persistent homology)

단적복체의 위상적 정보를 계산하는 작업은 주로 지속적 호몰로지 (Persistent homology)라는 도구로 계산된다. 여기서 호몰로지의 지속성 (persistence)은 단적복체 하나만을 고려하지 않고 점을 잇는 "해상도"에 따라 어느 구멍이 계속 지속되는지를 바라보겠다는 철학이다.

(PID Structure theorem을 사용한 구조정리 추가 필요)

(Persistent landscape, Persistent homology transform, Multiparameter persistence 등의 수학적 도구 추가 필요)

(응용예시 추가 필요. 계산적 우주론, 뇌암 진단, 지도 자동생성, 위상적 오토인코더 등의 연구 예시가 있음)

3.2. 이산적 모스이론 (Discrete Morse theory)

(Vidit Nanda, Yusu Wang 등의 연구 추가필요)

4. 미분다양체를 사용한 데이터 분석

이 분야는 다양체 학습 (Manifold learning)이라고 한다. 기계학습 학계에서는 Isomap, t-SNE, UMAP과 같은 (비선형적) 차원축소 알고리즘을 연구하는 분야라는 오해가 있지만, Niyogi-Smale-Weinberger의 논문과 Aamari et al.의 Estimating the Reach, Fefferman et al.의 Testing the manifold hypothesis, 그리고 Scoccola and Perea의 계산적 벡터번들 연구 등을 생각하면 다양체 학습 분야는 수학적 근본에 충실한 양상을 띄는 연구가 활발히 진행되고 있다.

4.1. 비선형적 차원축소 (Nonlinear dimensionality reduction)

(Isomap, Laplacian eigenmap, t-SNE, UMAP 등 추가필요)

(물론 PCA에 대한 설명도 필요.)

4.2. 다양체 학습 (Manifold learning)

(위에서 언급한 그 외의 상당히 수학적인 논문들. Local tangent space alignment도 여기에 껴주는게 적절하다.)

5. 응용 범주론 (Applied category theory)

(Nina Otter, John Baez 등이 하는 연구)

6. 매퍼 (Mapper)

(유방암, 당뇨병, Ayasdi에 대한 내용 추가 필요)


[1] 벡터공간 뿐만이 아니라 현대 기하학이 다루는 공간에는 대표적으로 미분다양체, 대수다양체 및 번들 (bundle), 단적복체 (simplicial complex), 층화공간 (stratified space), 스킴 (scheme), 스택 (stack), 애딕 공간 (adic space)등등 별별 것이 다 있다. 원문의 "고차원 공간"은 미분다양체를 생각하면 충분하다.[2] 단적복체는 공식 번역이 존재하는지 의문인 개념으로, 일본어로는 "단체복체"를 쓰지만 simplicial complex라는 말은 simplex(단체)적인 complex(복체)이기에 "단체복체"라는 단어를 선택했다.[3] 예를 들어 밑에서 설명할 다양체 학습 (Manifold learning)은 원래 TDA의 세부분야로 보통 치지 않지만, TGDA라는 분류를 생각하면 TGDA의 세부분야로 생각하기에 전혀 문제가 없다. 한편 TDA의 주 대상으로 치는 Persistent homology가 거리에 의존하는 개념이라는 것을 생각하면 TDA가 "거리개념이 부재한 위상공간의 성질"만을 연구하는 분야라고 부르는 데에는 애매한 점이 있다는 것 역시 알 수 있다.[4] 물론 Torsion항이나 코호몰로지, 혹은 Sheaf 코호몰로지 등은 그냥 "구멍"이 아니다. 설명을 위해 단순화했음을 이해해주기 바란다.[5] 비트맵 형식.[6] 젠더처럼 수치보다는 범주에 가까운 데이터나 시간에 따라 변하는 시계열(time series)적 데이터는 이야기가 다르긴 하다. 한편, 시계열의 경우 Delay embedding이라는 방법으로 유클리드공간 상에서 분석하는 것이 가능하다.[7] 미분다양체는 모두 Triangulable 하다. 한편 일반적인 다양체는 단적복체로 표현할 수 없는 경우가 존재한다.[8] 원 위에서 점을 고른 후 VR 복체를 계산하면 모든 홀수차원의 구와 같은 호모토피 타입을 가질 수 있다. 참조논문.