1. 개요
Diffusion Model확산 모델은 생성형 모델의 한 종류로 비지도학습 방식으로 데이터 분포를 학습하며 새로운 데이터 생성에 사용된다. 특히 이미지나 오디오 같은 복잡한 데이터 생성 분야에서 뛰어난 성능을 보여준다. 최근 인공지능 분야에서 가장 주목받는 기술 중 하나로 데이터에 점진적으로 노이즈를 추가하는 확산 과정(Forward Process)와 노이즈로부터 원본 데이터를 복원하는 역확산 과정(Reverse Process)을 통해 학습하는 것이 핵심 원리다.
2. 역사
확산 모델의 아이디어는 2015년 솔 딕스타인(Sohl-Dickstein)과 그의 동료들이 의해 비평형 열역학과의 연관성 속에서 처음 제안되었지만 한동안은 GAN이나 VAE에 밀려 큰 주목을 받지 못했다. 반전의 계기가 된 것은 2020년 구글 브레인의 조너선 호(Jonathan Ho)와 그의 동료들이 발표한 DDPM. DDPM이 전에 없던 뛰어난 이미지 생성 성능을 보여주면서 확산 모델은 폭발적인 관심을 받기 시작했다. 이후 샘플링 속도 개선, 조건부 생성 등 다양한 방향으로 빠르게 발전하며 생성형 모델 분야의 주류 기술 중 하나로 자리매김했다.3. 원리
확산 모델의 작동 원리는 크게 두 단계로 나뉜다3.1. 확산 과정(Forward Process)
원본 데이터에서 시작해 정해진 스케줄에 따라 점진적으로 가우시안 노이즈를 추가한다. 이 과정을 여러 단계 반복하면 충분히 많은 단계를 거쳐 원본 데이터 형태는 사라지고 결국 순수한 가우시안 노이즈와 구별할 수 없게 된다. 이 확산 과정 자체는 미리 정의된 확률 과정으로 모델이 학습할 필요는 없고, 데이터가 노이즈로 변해가는 수학적 경로를 제공한다.3.2. 역확산 과정(Reverse Process)
확산 모델 학습의 핵심 단계이다. 순수한 가우시안 노이즈에서 시작하여 확산 과정을 거꾸로 거슬러 올라간다. 즉, 노이즈 상태에서 점진적으로 노이즈를 제거하며 원본 데이터 분포에 속하는 새로운 데이터를 생성하는 것이 목표이다.보통 U-Net 구조를 사용하여 각 단계에서 추가된 노이즈를 예측하도록 학습시키는데, 모델은 노이즈 예측값을 이용해 이전 단계의 덜 노이즈 낀 상태를 추정한다. 이 과정을 계속 반복하면서 최종적으로 깨끗한 데이터 샘플을 얻을 수 있으며 수많은 데이터와 노이즈 단계 쌍을 통해 노이즈 예측 능력을 정교하게 학습할 수 있게 된다.
4. 특징
4.1. 장점
- 높은 생성 품질
현존하는 생성 모델 중 가장 높은 수준의 데이터 품질을 보여준다 특히 이미지 생성 분야에서 매우 사실적이고 세밀한 결과물을 만든다
- 안정적인 학습
생성적 적대 신경망(GAN)과 비교했을 때 학습 과정이 비교적 안정적이다.GAN의 고질적인 문제인 모드 붕괴(Mode Collapse)현상이 잘 발생하지 않는다.
- 다양성
데이터 분포의 다양한 모드를 잘 학습하여 생성되는 결과물의 다양성이 높은 편이다
4.2. 단점
- 느린 샘플링 속도
데이터를 생성하기 위해 역확산 과정을 수백 수천 단계 반복해야 하고 새로운 샘플 하나를 얻는 데 시간이 오래 걸리며 추론 속도가 느린 편이다.
- 높은 계산 비용
모델 학습과 데이터 생성 모두 상당한 계산 자원을 요구한다. 많은 메모리와 연산 능력이 필요하며 고성능 GPU가 필수적이다
- 잠재 공간 해석의 어려움
VAE나 GAN처럼 명시적인 잠재 변수를 사용하는 모델과 달리 확산 모델의 중간 단계 노이즈는 인간의 입장에서 직관적인 의미 해석이 어렵다.
5. 응용
확산 모델은 다양한 분야에서 활용된다- 이미지 생성: 가장 활발하게 연구되고 사용되는 분야로 다른 모델에 비해 매우 사실적인 고해상도 이미지를 생성한다.
- 텍스트-이미지 변환: 주어진 텍스트 설명을 바탕으로 이미지를 생성하는 기술의 핵심 요소로 사용된다. 스테이블 디퓨전과 DALL-E 등이 대표적이다.
- 비디오 생성: 시간적 일관성을 유지하며 비디오 클립을 생성하는 연구가 진행 중이다. Sora등 대부분의 STOA 모델들이 DiT기반이다.
- 이미지 편집 및 복원: 이미지 인페인팅, 손상 복구, 초해상도 향상, Style transfer 등 다양한 이미지 보정과 처리 작업에 응용된다
6. 주요 모델
- DDPMs(Denoising Diffusion Probabilistic Models, 2020)
2020년 발표되어 확산 모델의 가능성을 보여준 중요한 모델이며 현재 많은 확산 모델 연구의 기반이 된다.
- 잠재확산모델(Latent Diffusion Model, 2021)
고차원의 픽셀 공간 대신 오토인코더로 압축된 저차원의 잠재 공간(latent space)에서 확산 과정을 수행하는 모델. 계산 복잡도를 크게 줄이면서도 고품질 고해상도 이미지 생성이 가능하다.
- DDIM(Denoising Diffusion Implicit Model, 2023)
DDPMs의 느린 샘플링 속도를 개선하기 위해 제안된 모델이다. 더 적은 단계로 유사한 품질의 샘플 생성을 가능하게 한다.
- DiT (Diffusion Transformer, 2023)
기존 확산 모델의 U-Net 신경망 대신 트랜스포머(Transformer) 아키텍처를 백본(backbone)으로 사용하는 모델. 트랜스포머의 확장성을 활용하여 모델 및 연산 규모를 키움으로써 이미지 생성 성능을 크게 향상시킬 수 있다.
- Stable Diffusion
오픈소스로 공개된 텍스트-이미지 모델
- Imagen / DALL·E2 / Midjourney
구글, OpenAI, Midjourney 등에서 개발한 대표적인 고성능 이미지 생성 모델들이며 대부분 확산 모델 기술에 기반한다.[1]