영상 인공지능

1. 개요

영상 인공지능(映像人工知能, Video AI)은 생성형 인공지능 기술의 한 분야로 영상 데이터를 분석 처리, 생성하는 딥러닝 알고리즘을 말한다. 트랜스포머, 잠재 확산 모델 아키텍처 등을 사용한다.

2. 역사

2.1. 2023년 이전

영상 인공지능의 발전사는 크게 두 갈래로 정리해볼 수 있는데 하나는 페이스 스왑, 즉 딥페이크로 시작한 영상 조작 기술이며 다른 하나는 텍스트나 이미지 인풋을 기반으로 하는 생성형 영상 인공지능이다.

하지만 딥페이크 인공지능 모델은 영상에 이미지를 덧씌우는 형태로, 원본 영상 자체가 인공지능으로 생성되지는 않는다. 이런 유형의 인공지능 모델이나 서비스는 딥페이크로 통칭되며 생성형 영상 인공지능과는 별개의 것으로 간주되는 경향이 있다. 실질적으로 영상 인공지능이라 하면 T2V, I2V 기능을 갖춘 생성형 영상 인공지능을 일컫는 경우가 대부분이다.

2023년 이전의 생성형 인공지능 영상도 원시적이기는 마찬가지였는데 i2v나 v2v인 경우 입모양을 바꾸거나 고개를 움직이게 하는 등 그림의 일부만 움직이는 것이 고작이었다.

그게 아니면 그림 인공지능의 생성 결과물을 사람이 여러 개 이어 붙이는 방식이어서[1] 부자연스럽고 일관성이 몹시 떨어졌다.

3D모델링을 바탕으로 인공지능 그림을 여러 개 이어붙인 결과물[2]

2.2. 2023년 이후

생성형 영상 인공지능의 역사는 2023년 Runway AI사의 Runway gen1과 gen2가 시작이라고 할 수 있다. Runway gen1과 gen2는 자연어 프롬프트와 클릭 한 번에 꽤 긴 길이의 비교적 일관된 형태의 영상을 만들 수 있어 생성형 그림 인공지능과 비견되는 i2v, t2v 모델의 가능성을 처음으로 보여주었다고 평가된다. 2023년 하반기에는 Pika labs가 Pika 1.0을 공개, 시장에서 유이한 t2v 생성형 영상 인공지능 서비스로서 양강 대결구도를 형성했다.

Runway gen2와 Pika 1.0은 그 이전의 영상 인공지능에 비해 진일보한 결과물을 만들어 냈으나 생성되는 영상 길이가 짧기도 하거니와 퀄리티 측면에서도 CGI나 실사 촬영 등 일반적인 방식으로 만들어지는 영상에 비하면 크게 떨어졌다. 시간적 일관성은 여전히 부족하기 짝이 없었으며 결과물에 대한 통제 범위에도 한계가 뚜렸했기에 일반 대중으로부터 폭넓은 관심을 받지는 못했다.

영상 인공지능이 대중적인 인지도를 얻게 된 시점은 2024년 상반기부터였다. 이 새로운 시대의 시작을 알린 것은 OpenAI의 Sora였는데, Sora는 여러모로 DALL·E2에 비견할만한 영상 ai계의 분기점이었다고 할 수 있다. 당시 최신 모델이었던 Runway gen2에 결여 되어있는 현실성과 일관성을 갖추고 있었기 때문이다. Sora는 발표는 되었으나 일반 대중에 공개되지 않았으며 다른 영상 인공지능 개발사의 개발속도와 투자에 박차를 가하는 촉매제 역할을 하였다.

이후 Runway AI를 위시한 미국과 중국의 여러 개발사가 2024년 6월을 즈음하여 연달아 Sora에 비견되는 생성형 영상 인공지능 서비스를 공개하면서 영상 인공지능이 사람들의 생활 속에 본격적으로 침투하게 되었다. 영상 인공지능은 그림 인공지능에 비해 중국 기업들의 활약이 특히 두드러졌는데 Kling, Hailuo, Hunyuan 등의 쟁쟁한 모델들이 전부 중국 기업들의 것이다.

2024년의 한 해 동안의 발전사를 보면 기업들 간의 열띤 경쟁과 발전하는 기술에 힘입어 21년~22년 사이의 그림 인공지능의 발전 도상과 비추어 볼 때도 꽤나 단기간에 퀄리티와 일관성이 상승한 측면이 있다.

그 탓에 업계의 위기감을 불러온 Sora가 연말에 공개될 때 쯤에는 다른 상업 서비스들이 Sora의 퀄리티를 능가해버렸고, 비싼 가격에도 불구하고 Veo 2가 압도적인 SOTA 성능을 보여주며 영상 인공지능의 새로운 흐름을 만들어냈다.

2.3. 이력

2017년 11월 2일: 레딧 유저 deepfakes, 서브레딧 /r/deepfakes 개설

2020년 2월 First Order Motion Model for Image Animation 논문 출간

2020년 7월: FOMMIA를 사용한 바카미타이 밈 유행 시작

2023년 2월: Runway AI, Runway gen1과 gen2 공개

2023년 3월 15일: 유튜버 demonflyingfox, Harry potter by Balenciaga 업로드

2023년 11월 28일: Pika labs, t2v, i2v, v2v기능을 갖춘 영상 인공지능 모델 Pika 1.0 공개

2024년 2월: OpenAI, Sora 발표

2024년 6월 7일: 콰이쇼우 테크놀로지(快手 technology), 잠재 확산 트랜스포머 기반 t2v 모델 Kling AI 공개

2024년 6월 12일: Lumalabs, Dream machine 공개

2024년 6월 17일: Runway AI, Runway gen3 alpha 공개

2024년 7월 12일: Pika labs, i2v 피쳐(image conditioned video generation) 업데이트

2024년 8월 15일: Runway AI, Runway gen3 alpha turbo 출시

2024년 9월: Minimax사, t2v ai 서비스 Hailuo AI video-01 공개 [3]

2024년 9월: Kling AI 1.5 출시. 1080p 영상 생성과 모션 브러쉬 기능 업데이트

2024년 10월 2일: Pika labs, Pika 1.5 출시

2024년 10월 8일: Minimax사, Hailuo AI i2v 기능 업데이트 #

2024년 11월 1일: Runway gen3 alpha turbo 카메라 컨트롤 기능 업데이트

2024년 12월 3일: 텐센트 130억개 매개변수의 생성형 영상 인공지능 훈위안(hunyuan) 공개

2024년 12월 9일: OpenAI 연말 발표 행사 ’12 Days of OpenAI’에서 Sora 공개

2024년 12월 14일: Pika 2.0 업데이트

2024년 12월 16일: 구글 딥마인드 Veo2 발표

2025년 2월 26일: 알리바바 Wan 2.1 오픈소스로 공개

2025년 3월 31일: Runway gen4 공개

3. 영상 인공지능 서비스

2024년 현재 서비스되는 주요 영상 인공지능 서비스로는 Runway AI의 Runway gen3, Pika labs의 Pika 1.5, 콰이쇼우 테크놀로지의 Kling AI, Minimax사의 HailuoAI , Luma labs의 Dream machine등이 있으며 공개되지 않은 것 중에는 메타의 Meta movie gen과 Open AI의 Sora가 있다.

3.1. 공개 서비스

Runway gen 3 alpha turbo
Runway AI사의 최신 인공지능. 전작인 Runway gen3 alpha에 비해 7배의 속도 향상과 생성 비용 절감을 달성했다. 카메라 컨트롤기능과 Act-One 기능이 특징.

Pika 2.0
Pika labs에서 개발한 생성형 영상 인공지능. 전작인 Pika 1.0과 1.5의 후신이며 전경의 사물을 찌그러뜨리거나 부풀리거나 공중에 띄우는 효과 모음인 Pika effect 기능을 제공한다. pika effect를 적용한 영상은 2024년 하반기 숏폼 플랫폼에서 소소한 인기를 끌기도 했다.

Luma Dream machine
Lumalabs에서 개발한 인공지능.

Kling AI 1.5
콰이쇼우 테크놀로지에서 개발한 영상 인공지능.

Hailuo AI Video-01
Minimax사에서 개발한 영상 인공지능. 로그인 하면 매일 무료로 영상 생성에 사용할 수 있는 30크레딧을 부여하여 부분 유료 가격정책을 시행 중이다.

Sora
Open AI에서 개발한 영상 인공지능. 생성형 영상 AI의 존재를 대중에 알린 마중물 역할을 하였다.

3.2. 미공개 서비스

Meta movie gen
Meta에서 개발한 영상 인공지능. 공개되지는 않았으나 순수 t2v만으로 높은 성능을 보여 Sora 이후 가장 큰 혁신이라는 평가를 받았다.

Veo 2
구글 딥마인드에서 개발한 영상 인공지능. Sora를 비롯해 현존 최고 수준의 영상 인공지능들을 가뿐히 뛰어넘는 높은 수준의 시연 영상으로 관심층의 흥미를 불러일으키고 있다. 2025년 초순 공개예정

4. 제작 방식

순수히 T2V로 제작하는 것도 가능하지만 2024년 현재까지 나온 인공지능 영상 가운데 시네마틱 비디오라고 할만한 수준의 영상은 대부분 Midjourney, Stable Diffusion, FLUX.1 등으로 고퀄리티의 그림을 먼저 생성한 후 이를 Kling, Hailuo 등 영상 인공지능의 인풋으로 사용해 텍스트 프롬프트와 image to video generation을 병행하는 방식으로 제작하는 경우가 많다.

하지만 Sora나 Veo 2의 경우 T2V 성능이 오히려 I2V나 T2I2V보다 뛰어나다고 한다. # 특히 베타테스트를 진행 중인 Veo 2의 경우 외부 이미지를 들여와 영상으로 변형하는 I2V 기능이 아예 없기 때문에 대개 텍스트 프롬프트만으로 영상을 제작한다.

5. 딥페이크와의 차이

딥페이크는 생성형 영상 인공지능보다 먼저 등장한 기술로, 특정 인물의 얼굴을 다른 영상에 합성하여 마치 그 인물이 실제로 해당 행동을 하는 것처럼 보이게 만드는 기술이다. 기본적으로 기존의 영상 데이터를 변형하여 새로운 콘텐츠를 만들어내는 방식으로 작동한다.

반면, 생성형 영상 인공지능은 완전히 새로운 영상을 생성하는 데 초점을 둔다. 영상 인공지능은 방대한 데이터 세트에서 패턴을 학습하고 이를 기반으로 사용자의 입력이나 프롬프트에 따라 새로운 영상을 만들어낸다. 예를 들어, 텍스트 프롬프트나 사진을 입력하면 해당 인풋을 레퍼런스 삼아 시각화한 영상을 생성하는 식이다. 기존의 데이터를 변형하는 딥페이크와 달리 완전히 새로운 콘텐츠를 창조하는 것이다.

현재는 이렇게 개념적인 구분이 존재하지만 머지 않은 미래에는 이런 구분이 희미해질 공산이 있다. 첫 번째 이유는 기술 발전으로 인한 세대 교체다. 지금의 영상 인공지능은 몇 가지 기술적 한계를 떠안고 있다. 그 중 하나는 일관되고 자연스러운 롱테이크 영상 생성. 카메라 컨트롤 등의 기술이 발전하고 있으나 일관성을 절대적으로 고수하려면 후처리나 반복 생성 후 취사선택이 필요하다. 그나마도 잦은 장면 전환 없이 자연스러운 결과물을 만들려면 영화 티저나 짧은 광고 정도의 길이가 한계다. 또 다른 주요 기술적 한계는 영상 인공지능이 제시된 프롬프트에 100% 충실한 영상을 만들지 못한다는 것이다. 개념적으로는 어떤 툴로 영상을 처음부터 끝까지 생성할 수 있다면, 같은 툴로 영상을 부분적으로 수정하는 것도 가능해야 맞다. 하지만 2025년 현재로서는 영상 인공지능으로 생성되는 영상의 모든 디테일을 통제하기는 어렵거나 사실상 불가능하다. 그래서 비용 문제를 차치하고서라도 기술적인 이유로도 여전히 딥페이크가 필요한 것이다.

그러나 현재의 기술발전 추이를 비추어 볼 때, 영상 인공지능이 가진 한계가 앞으로도 계속될 것이라고 전망하기는 어렵다. 레퍼런스 이미지를 따라 인물 영상을 생성하는 것은 이미 기술적으로 구현 가능한 영역이다. 일관성 문제이나 프롬프트 충실성 문제만 해결되면 딥페이크는 사양 기술이 되어 빠르게 사라지고 생성형 인공 지능이 딥페이크의 역할과 수요를 전면적으로 흡수할 가능성이 높다.

그리고 생각해볼만한 문제가 하나 더 있는데, 고성능 로컬 영상 모델의 등장으로 인한 검열 무력화가 바로 그것이다. 딥페이크의 악용 사례는 대개 딥페이크 모델이 로컬로 돌아가는 모델이라는 점에서 기인한다. 즉, 훈련과 운용에 있어 별다른 제약사항이 없다는 것이다. 이에 반해 퀄리티가 높은 영상 인공지능은 기업에서 구축해서 서비스하므로 상당한 수준의 검열과 제약이 걸려있고 퀄리티가 높아질수록 생성 비용도 높아진다. 추후 기술 발전으로 로컬모델이 생성하는 영상의 수준이 높아지면 실제 인물이 등장하는 그럴듯한 영상을 만드는데 기술적, 경제적 제약이 낮아진다. 영상 인공지능의 상품성과 저변 확대에는 도움이 되겠으나 이렇게 되면 그 동안 딥페이크가 초래해온 각종 사회적 논란 및 불법적 영상물 무단 생성 이슈 역시 생성형 영상 인공지능이 그대로 물려받게 된다.

6. 활용

6.1. 영화

생성형 영상 인공지능의 발전과 함께 인공지능 영화(AI film)라는 개념도 본격적으로 궤도에 오르기 시작했다. 인공지능 영화만을 위한 영화제들도 등장했으며, 한국에서도 경기콘텐츠진흥원 주도로 AI 국제영화제가 열리기도 했다.

대한민국 국제 AI 영화제 개막작 ‘아버지의 책’ 예고편

6.2. 광고

코카콜라 광고 '휴일이 온다'[4]

2024년 말을 기점으로 생성형 영상 인공지능을 광고 및 마케팅의 수단으로 삼는 기업들이 본격적으로 생기기 시작했다. 코카콜라도 그 중 하나.

2024년 11월 14일 틱톡은 게티 이미지와 협력하여 인공지능 광고 제작도구에 영상 생성 기능을 추가하기도 했다.#

6.3. 밈

윌 스미스가 스파게티를 먹는 영상. 낮은 시간 일관성과 게걸스러운 모습이 재미 포인트가 되어 바이럴을 탔고 새로운 영상 인공지능 모델이 나올 때 종종 성능 향상을 평가하는 지표처럼 쓰이기도 한다. 화제가 되자 배우 본인이 패러디 영상을 올리기도 하였다

해리포터 등장인물들을 발렌시아가 화보 촬영을 하는 하이패션 모델로 묘사한 영상. 이 영상이 컬트적인 인기를 끌자 이후 다양한 국적과 작품들로 변주되었다.

[1] 재료가 되는 그림은 텍스트 프롬프트로 바로 생성하는 경우도 있었으나 원본 영상이 따로 있거나 3D 모델링을 먼저하고 i2i로 생성한 인공지능 그림을 이어붙이는 경우도 있었다.[2] 인공지능 영상은 좌측이고, 우측이 후처리 후의 모습이다. 후처리가 없으면 시간 일관성이 떨어져 옷과 머리, 얼굴이 계속 글리치처럼 바뀌는 것을 볼 수 있다[3] Hailuo AI는 비디오 생성 기능 업데이트 이전에 LLM과 음악 AI서비스로 서비스를 시작했다.[4] 코카콜라가 생성형 영상 인공지능을 사용해 1995년 동명의 자사광고를 재현한 광고

생성형 인공지능
{{{#!wiki style="margin:-0px -10px -5px" {{{#!folding [ 펼치기 · 접기 ] {{{#!wiki style="margin:-5px -1px -11px; word-break:keep-all"	유니모달 모델 기반
<colkeepall> 텍스트	[[소설\| 소설 ]] NovelAI · AI Dungeon · AI Novelist
대화형	[[챗봇\| 챗봇 ]] ChatGPT · Microsoft Copilot · Gemini · CLOVA X · Cue: · Inflection AI · Mistral AI · Grok
대화형	[[언어 모델\| 언어모델 ]] GPT · LLaMA · Gemma · Claude · Phi · Exaone · OpenELM · Qwen · DeepSeek
코드	[[코드#컴퓨터 소프트웨어\| 코드 ]] GitHub Copilot · Devin · Phind · DeepSeek
이미지	[[그림 인공지능\| 그림 ]] Midjourney · DALL·E · Imagen · Artbreeder · NovelAI Image Generation · Stable Diffusion · FLUX.1 · Gaugan2 · Dream by WOMBO · Adobe Firefly· Deep Dream Generator
	[[영상 인공지능\| 영상 ]] Stable Video · Sora · Meta Movie gen · Lumiere · Veo · Runway AI · Kling AI
	[[모델링\| 모델링 ]] LATTE3D
오디오 소리	[[음성\| 음성 ]] A.I.VOICE · DeepVocal · Voice Engine
오디오 소리	[[음악\| 음성/음악 ]] Suno · Stable Audio · Udio · AIVA
멀티모달 모델 기반
대화형	+이미지 Exaone 3.5 · Samsung Gauss
	+음성/이미지 GPT-4o · ~~GPT-5~~ · Gemini · o1 · o3 · o4 · DeepSeek
	+에이전트 Galaxy AI · Claude 3.7 Sonnet · SAIP
행위 동작	[[지능형 에이전트\| 에이전트 ]] Apple Intelligence · Project Astra · Operator · ~~Google Jarvis~~ · Manus AI
행위 동작	[[인공지능 로봇\| 체화 ]] Tesla optimus · Google RT-X · Gemini Robotics · Isaac Gr00t N1 · Helix	}}}}}}}}}