생성형 인공지능

편집 보호된 문서입니다.

#!if (문서명=문서명?문서명:calleeTitle) != null
문서의 [[https://namu.wiki/acl/|{{{#!html <span style="color: var(--espejo-link-color, var(--text-color))">ACL 탭</span>}}}]]을 확인하세요.

<nopad> 생성형 인공지능 관련 문서
{{{#!wiki style="margin: 0 -10px -5px; min-height: calc(1.5em + 5px)" {{{#!folding [ 펼치기 · 접기 ] {{{#!wiki style="margin: -5px -1px -11px"	<colbgcolor=#2e3039,#2e3039><colcolor=#fff,#fff> 종류	대화형 인공지능 (주요 목록) · 코드 생성 인공지능 · 그림 인공지능 · 영상 인공지능 · 음악 인공지능 · 음성 인공지능 · 3D 모델링· 지능형 에이전트 · VLA · 멀티모달 모델 · 언어 모델 · 월드 모델
프롬프트	프롬프트 · 프롬프트 엔지니어링 · 프롬프트 해킹 · 에이전트 스킬 · 하네스 엔지니어링
아키텍처	트랜스포머 · GAN · 확산 모델 · 변분 오토인코더 · 자기회귀모델
학습	자기지도학습 · 강화학습 (RLHF)
응용	AI 개요 · 인공지능 검색 엔진 · 바이브 코딩 · 에이전틱 코딩 (AGENTS.md · CLAUDE.md · CONTEXT.md) · Computer Use (Model Context Protocol · Chrome DevTools Protocol · Postman · Playwright) · 인공지능 로봇 (테슬라 옵티머스)
문화·밈	AI 커버 · 쇼거스 · 인공지능 버츄얼 유튜버 · ChatGPT 지브리풍 이미지 생성 유행 · 와... 너 정말, 핵심을 찔렀어. · 세상에서 제일 하찮은 프롬프트
기타	AI 슬롭 · AI wrapper · 인공지능 환각 · 인공지능 검사기 · AI 중독 · 인공지능 벤치마크 · 대중화 · 인공 일반 지능 · 인공지능 정렬 · Spiritual bliss attractor · AI 데이터 센터

}}}}}}}}} ||

1. 개요2. 원리3. 특징4. 파운데이션 모델

4.1. 생성 방식에 따른 분류4.2. 모달리티에 따른 분류

4.2.1. 언어 모델4.2.2. 이미지 인공지능 (Text to Image, Image to Image)4.2.3. 영상 인공지능 (Text to Video/Image to Video)4.2.4. 음성 · 오디오 인공지능4.2.5. 작곡 · 음악 인공지능4.2.6. VLA4.2.7. 자율주행4.2.8. 단백질 구조 예측 인공지능4.2.9. 월드 모델

5. AI 크리에이터

5.1. 개별 문서가 있는 크리에이터5.2. 개별 문서가 없는 크리에이터5.3. 관련 커뮤니티

6. AI wrapper

1. 개요

생성형 인공지능(Generative AI)은 프롬프트에 대응하여 텍스트, 이미지, 기타 미디어를 생성할 수 있는 약인공지능이다. 단순히 기존 데이터를 분석하는 것이 아닌, 새로운 콘텐츠를 창조해내는 인공지능 모델 및 그에 기반한 서비스를 말한다.

인공지능 모델을 말할 때는 판별형 모델(discriminative model)[1]에 상대되는 개념이다. 결정 경계를 학습하는 판별형 모델과 달리 생성형 모델은 데이터 분포를 직접 학습한다는 차이점이 있다.

대한민국의 '인공지능 발전과 신뢰 기반 조성 등에 관한 기본법'에서는 "입력한 데이터의 구조와 특성을 모방하여 글, 소리, 그림, 영상, 그 밖의 다양한 결과물을 생성하는 인공지능시스템"이라고 정의한다.

2. 원리

기계학습(머신러닝)의 하위 분류인 심층학습(딥러닝)의 한 분야에 해당한다. 생성형 인공지능의 기본 골자가 되는 대규모 언어 모델(LLM)은 상당히 높은 수준의 자연어 생성 능력을 보유하고 있다. LLM은 기존 데이터를 학습하여 새로운 형태의 정보를 만들어내며, 이러한 과정에서 사용자의 입력(프롬프트)에 따라 다양한 방식으로 반응한다.

2022년 ChatGPT 등장 이후로는 대부분 트랜스포머 기반 인공신경망을 기반으로 하며, 이전에는 생성적 적대 신경망이나 변분 오토인코더 등을 이용하기도 하였다.[2]

트랜스포머 인공신경망의 경우, 기반이 되는 이론인 Attention Is All You Need는 2017년도에 발표되었으며, 출시 이후 여러 학습 모델의 기반이 되었고 강화판으로 BERT 같은 자연어 처리 모델이 나오기도 했다. 이후 발전을 거듭한 끝에 트랜스포머 이론을 활용한 인공지능 어플리케이션의 성능이 매우 뛰어나다는 사실이 밝혀지면서 ChatGPT를 필두로 상용 제품이 나오기 시작했고 대중들 사이에서 본격적으로 유명해지기 시작했다.

3. 특징

사실상 인공지능의 대중화를 이끈 기술로서, 해당 기술이 인공지능에 대한 사람들의 전반적인 인식을 매우 크게 바꿔놓았다고 해도 과언이 아니다. 물론 모든 기술이 그렇듯이 세상에 긍정적인 영향만 끼치지는 않았고, 학습 과정에서 생기는 저작권 침해 논란과 기술적 실업, 사기 같은 범죄에 악용, 가짜뉴스 및 허위정보 양산 같은 인공지능의 부정적인 면모도 본격적으로 드러나고 있다. 자세한 내용은 인공지능/논란, 그림 인공지능/논란 및 사건 사고, 딥페이크 문서 참조.

데이터 원본을 통한 학습으로 이미지, 비디오, 코딩, 음악, 미술 등 다양한 콘텐츠 생성에 이용된다. 2022년 그림 인공지능의 등장으로 주목도가 높아졌으며, 해외에서 미드저니, ChatGPT 등 여러 모델들을 잇달아 공개하면서 화제의 중심이 되었다.

따라서 생성형 AI는 단순한 정보 분석 및 생성 도구를 넘어 창의적이고 혁신적인 콘텐츠 제작을 지원하는 도구로 발전하고 있다. 이를 통해 마케팅, 예술, 교육, 헬스케어 등 다양한 분야에서 활발히 응용되고 있다.

보통 딥러닝 인공지능은 학습 혹은 결과 출력 전 원본 자료를 배열 자료형[3] 숫자 데이터로 변환하는 인코딩 과정이 중요한데, 생성 AI의 경우 인공지능의 출력 데이터를 역으로 그림, 글 등의 원하는 형태로 변환시켜주는 디코딩 과정 또한 필요하다.

2026년 기준으로 여전히 생성형 AI는 우리가 흔히 생각하는 인간처럼 스스로 사고하는 인공지능이라고 보긴 힘들고, AI의 작동 및 결과물 산출을 만들어내기 위해 인간의 의지와 의사가 필요하다. 그럼에도 강인공지능에 대한 정의가 학자들마다 분분하단 점, 그리고 AI 모델의 성능 향상이 계속되고 있단 점으로 인해 근시일 내에 AGI가 실현될 것으로 보는 이들도 있다. o1을 위시한 추론모델의 등장, 다양한 지능형 에이전트의 발전 등 ai가 할 수 있는 영역이 점차 많아지고 있기 때문.

그럼에도 여전히 생성형 AI의 본질은 응용통계학 기반으로 기존 데이터에서 변주와 혼합 아래 산출물을 생성하는 분석 모델이다. 따라서 굳이 표현하자면 '극도로 고도화된 데이터 회귀 모델'이 정확하다. 회귀 모델이란 입력 x에 대해 정답 레이블 y를 찾는 문제 중 레이블 y가 이산적이지 않고 선형인 것을 찾아내는 모델을 말한다.[4] 기존과의 차이라면 단순히 어떠한 값을 찾는 게 아니라, 이용자가 한 질문에 문장으로 된 적절한 답장을 찾아내는 것.

4. 파운데이션 모델

4.1. 생성 방식에 따른 분류

생성형 인공지능은 결과물을 생성하는 방식에 따라서 분류할 수 있다.

자기회귀모델(Autoregressive Models): 현재 timestep의 생성물을 모델에 입력하여 다음 timestep의 생성물을 순차적으로 생성하는 방식.

트랜스포머(Transformer) : 자기회귀모델 방식의 하나로, ChatGPT나 Gemini, Claude 등등의 상업 LLM과 LLaMA, DeepSeek, Kimi 등의 오픈소스 LLM은 대부분 이 방식을 사용한다.

변분 오토인코더(VAE, Variational Autoencoder): 학습 데이터를 잠재공간으로 압축하고 다시 복원하는 방식.
생성적 적대 신경망(GAN, Generative Adversarial Network): 생성자와 판별자의 경쟁을 통해 생성형 인공지능을 훈련하는 방식.
디퓨전 모델(Diffusion Models): 데이터에 노이즈를 추가하고 다시 제거함으로써 결과를 생성하는 방식.

2022년 이후, 텍스트를 생성하는 인공지능은 자기회귀모델이, 이미지를 생성하는 인공지능은 디퓨전 모델을 사용하나, 트랜스포머 아키텍쳐가 워낙 성능이 뛰어난 관계로, 대부분의 아키텍쳐에서 트랜스포머는 반드시 조합하는 방식으로 발전하고 있다.

4.2. 모달리티에 따른 분류

4.2.1. 언어 모델

ChatGPT

4.2.2. 이미지 인공지능 (Text to Image, Image to Image)

자세한 내용은 그림 인공지능 문서

#!if (문단 == null) == (앵커 == null)
를

#!if 문단 != null & 앵커 == null
의 [[그림 인공지능#s-|]]번 문단을

#!if 문단 == null & 앵커 != null
{{{#!if 문서명 = 문서명 != null ? 문서명 : calleeTitle
의 [[그림 인공지능#|]] 부분을}}}

참고하십시오.

4.2.3. 영상 인공지능 (Text to Video/Image to Video)

4.2.4. 음성 · 오디오 인공지능

4.2.5. 작곡 · 음악 인공지능

4.2.6. VLA

자세한 내용은 VLA 문서

#!if (문단 == null) == (앵커 == null)
를

#!if 문단 != null & 앵커 == null
의 [[VLA#s-|]]번 문단을

#!if 문단 == null & 앵커 != null
{{{#!if 문서명 = 문서명 != null ? 문서명 : calleeTitle
의 [[VLA#|]] 부분을}}}

참고하십시오.
한동안 인공지능을 로봇에 적용하려는 시도는 비전 인식 모델이나 언어 모델을 로봇에 삽입하는 정도로 그쳐 인공지능 로봇이라고 부르기 무색할 정도였다. 그동안 대중들은 사람과 대화가 가능하거나 고도의 기동력을 갖춘 로봇을 인공지능 로봇이라고 부르기도 했으나 대부분은 언어 모델에 껍데기를 씌운 것이거나 인공지능 자체가 아예 개입하지 않은 순수 로봇공학의 산물에 불과했다.

그러나 2017년 처음 개발되어 딥러닝 필드에서 일대 파란을 일으킨 트랜스포머 아키텍쳐는 결국 로봇공학의 영역에도 여지없이 손을 뻗었다. 2023년~2024년을 기점으로 로봇 파운데이션 모델, 그 중에서도 VLA 모델을 엔드 투 엔드(end-to-end)로 적용하려는 시도가 빅테크와 실리콘밸리 스타트업의 주도로 연달아 성공하면서 인공지능 로봇이라는 개념이 역사상 처음으로 구체화되었다.

4.2.7. 자율주행

4.2.8. 단백질 구조 예측 인공지능

4.2.9. 월드 모델

genesis
Genie

5. AI 크리에이터

위에서 언급한 생성형 인공지능을 활용해서 여러 창작물을 만드는 크리에이터를 의미한다.

5.1. 개별 문서가 있는 크리에이터

자세한 내용은 분류:AI 크리에이터 문서

#!if (문단 == null) == (앵커 == null)
를

#!if 문단 != null & 앵커 == null
의 [[분류:AI 크리에이터#s-|]]번 문단을

#!if 문단 == null & 앵커 != null
{{{#!if 문서명 = 문서명 != null ? 문서명 : calleeTitle
의 [[분류:AI 크리에이터#|]] 부분을}}}

참고하십시오.

5.2. 개별 문서가 없는 크리에이터

나무위키 등재 기준을 만족한 경우만 기술합니다.

* 판타소너

5.3. 관련 커뮤니티

AI 음악 창작 갤러리

AI 창작 갤러리

수노 AI (SunoAI) 갤러리

6. AI wrapper

독자 개발 모델에 기반하지 않은 상용 생성형 인공지능 서비스에 대한 자세한 내용은 AI wrapper 문서

#!if (문단 == null) == (앵커 == null)
를

#!if 문단 != null & 앵커 == null
의 [[AI wrapper#s-5|5]]번 문단을

#!if 문단 == null & 앵커 != null
{{{#!if 문서명 = 문서명 != null ? 문서명 : calleeTitle
의 [[AI wrapper#|]] 부분을}}}

참고하십시오.

[1] 분류 모델이라고도 한다.[2] 트랜스포머가 나온 이후에도 계속해서 쓰이고 있지만, 예전처럼 단독으로 사용하기 보다는 트랜스포머와 조합하는 방식을 이용하고 있다.[3] 보통 텐서 자료형을 정의해 많이 이용한다.[4] 레이블 y가 이산적이면 분류 모델이다. 쉽게 말해 영화 대본을 던져놓고 이 영화가 어떤 장르인지를 찾아내거나 번호판을 촬영해서 번호가 뭔지 알아맞추는 작업 등을 말한다.[5] 중국판 Sora라고 불린다.[6] 海螺는 골뱅이를 뜻한다.[7] Movby.ai는 다양한 인기 AI 이미지 및 비디오 생성 모델을 통합 제공하는 올인원 생성형 AI 플랫폼이다.[8] 이 중 알파폴드2는 약 2억 종류에 달하는 단백질을 예측하는 공을 세워 연구원과 알파폴드 대표이사가 2024년 노벨 화학상을 수상했다.