최근 수정 시각 : 2024-04-17 12:24:56

Sora


파일:OpenAI 로고.svg파일:OpenAI 로고 화이트.svg
{{{#!wiki style="margin:0 -10px -5px"
{{{#000,#fff {{{#!folding [ 펼치기 · 접기 ]
{{{#!wiki style="margin:-6px -1px -11px"
{{{#000,#e5e5e5
제품군
서비스 ChatGPT · OpenAI(인공지능)
모델 GPT-1 · GPT-2 · GPT-3(GPT-3.5) · GPT-4(GPT-4 Turbo) · GPT-5
DALL·E · Codex · CLIP · Whisper · Voice Engine · Sora
관련 인물
일론 머스크(퇴사) · 샘 올트먼 · 미라 무라티 · 일리야 수츠케버 · 안드레 카파시 · 그렉 브록만
관련 기업
마이크로소프트
}}}}}}}}}}}}}}} ||
생성형 인공지능
{{{#!wiki style="margin:-0px -10px -5px"
{{{#!folding [ 펼치기 · 접기 ]
{{{#!wiki style="margin:-5px -1px -11px; word-break:keep-all"
텍스트 [[소설|
소설
]] NovelAI · AI Dungeon · AI 노벨리스트
대화형 [[챗봇|
챗봇
]] ChatGPT · Microsoft Copilot · Gemini · CLOVA X · Cue: · Inflection AI · Mistral AI
[[언어 모델|
언어모델
]] GPT-1 · GPT-2 · GPT-3 · GPT-4 · GPT-5 · LLaMA · Gemma · Claude
코드 [[코드#컴퓨터 소프트웨어|
코드
]] GitHub Copilot · Devin
그림/영상 [[그림 인공지능|
그림
]] Midjourney · DALL·E · Artbreeder · NovelAI Image Generation · Stable Diffusion · Gaugan2 · Dream by WOMBO · Adobe Firefly
[[영상|
영상
]] Stable Video · Sora · Lumiere · Runway AI
[[모델링|
모델링
]] LATTE3D
오디오/소리 [[음성|
음성
]] A.I.VOICE · DeepVocal · Voice Engine
[[음악|
음악
]] Suno AI · Stable Audio · Udio · AIVA · SOUNDRAW · Mix.audio · vio.dio
멀티모달 [[멀티모달 모델|
멀티모달
]] 삼성 가우스 · Gemini
행위/동작 [[인공지능 로봇|
로봇
]] Robot Operating Syetem(ROS) · Google RT-X · 피규어 01 · 프로젝트 그루트
}}}}}}}}}
Sora
<colbgcolor=#ddd,#010101> 분류 동영상 생성 인공지능
개발사 OpenAI
관련 링크 모델 소개, 기술 보고서

1. 개요2. 역사3. 기능4. 학습원리5. 일지6. 문제점
6.1. 저작권 침해 가능성6.2. 성능 한계
7. 반응

[clearfix]

1. 개요


OpenAI가 개발하여 2024년 2월 15일에 공개한 동영상 생성 인공지능. 하늘을 뜻하는 일본어 소라([ruby(空, ruby=そら)])에서 이름을 따왔으며, 그 이름은 무한하고 창의적인 잠재력에 대한 아이디어를 불러일으키는 모습을 묘사한다고 한다. 움직이는 물리적 세계를 이해하고 시뮬레이션하는 인공지능을 지향하며, 실세계의 상호작용이 필요한 문제 해결을 하는 모델을 목적으로 한다.

GPT와 마찬가지로 트랜스포머 아키텍처를 사용한다. 비디오와 이미지를 패치(Patch)라고 하는 작은 데이터 단위의 모음으로 표현하며, 각 패치는 GPT의 토큰과 유사하다고 한다. #

2. 역사

  • 2024년 4월 기준 일반인이 이용할 수는 없으며, 언젠가는 이용이 가능해지겠지만 당장은 아니라고 한다. 일부 전문가들만 이를 이용하고 있다고 한다. #
  • 2024년 3월 13일 월스트리트 저널의 보도에서 미라 무라티 OpenAI 최고기술책임자(CTO)가 “올해 (대중들이) 소라를 이용할 수 있을 것이며 이는 몇 달 후가 될 수도 있다”라고 밝혔다. #

3. 기능

기존 동영상 생성 모델에 비해 매우 사실적인 영상을 생성하고, 자연스러운 카메라 움직임을 묘사할 수 있다. 상상 속의 장면이라도 이를 묘사하는 프롬프트를 입력하면 그 모습의 표현이 가능하다. 대상 영속성이 구현된 동영상이 생성되는데, 어떤 사물이 배경을 지나가도 사물이 배경에 특별한 영향을 끼치지 않으면 그 배경이 변하지 않는다.
  • 입력한 이미지와 프롬프트를 토대로 한 애니메이션 생성이 가능하다.
  • 주어진 동영상의 앞뒤에 자연스럽게 이어지는 새로운 동영상을 생성할 수 있다. 사람이 그림을 그리는 동영상에는 그 그림이 더 그려지는 모습도 생성할 수 있다. 여러 개의 다른 동영상이 똑같은 장면으로 끝나게 할 수 있다.
  • 끊기지 않는 무한 루프가 이어지는 동영상 생성이 가능하다.
  • 주어진 동영상의 배경만을 바꿀 수 있다.
  • 두 개의 아예 다른 동영상 사이에 완벽히 이어지는 동영상을 생성할 수 있다.
  • 이미지 생성이 가능하다.

4. 학습원리

기존의 RunwayML과 같은, 즉 Text-to-Video와 학습 방식이 완전히 다르다. 기존의 Text-to-Video는 예를들어 "강아지가 점프했다 착지하는 영상을 만들어줘"라고 했다면, 해당 영상 1분짜리 픽셀 덩어리를 통으로 던져주고 "자, 이게 바로 강아지가 점프하는 영상이라는 픽셀 덩어리 영상이야, 이걸 가지고 학습해서 앞으로 비슷하게 만들면 돼"라는 방식이었다.[2]

하지만 Sora는 프레임 단위로 일일이 다 쪼개서 각각 텍스트 묘사와 다시 비교해봐서 검증한 다음 영상으로 이어붙이는 방식으로 수작업 노가다를 하는 방식이다. 토큰 및 패치화에 관한 소라의 학습 원리 설명

Sora는 쉽게 말해 모든 영상을 프레임 단위로 일시정지해서 일일이 Text와 Video와 비교한 다음, 그 다음 장면에 나와야 할 상황의 프레임이 Text와 Video와 매치하는지를 반복하는 슈퍼 노가다를 한 방식이다. 안될공학 - 더쉽게 설명한 소라의 학습 원리

즉, "강아지가 점프했다 착지하는 영상을 만들어줘"라고 한다면, 일단 처음의 수백 프레임은 각각 일일이 "강아지가 이 영상의 초반 프레임에서 점프하는 장면이 보여진다면 강아지가 X축 Y축 위치가 어디쯤 돼야하고 조명과 각도가 어떻게 돼야하는지"를 일일이 텍스트와 비교하고 그 다음 영상 프레임으로 넘어간다음, 그 다음 수백 프레임은 각각 일일이 "이 영상 몇 백 프레임 대에서는 강아지가 중력의 힘으로 인해 Y축 위치가 감소할 것이므로 앞발 각도가 이렇게 묘사돼야 하고 자세가 어떻게 바뀌며 그게 텍스트와 매치가 되는지"를 토큰 단위로 다 쪼개 일일이 검증해서 합치는 방식이다. 결국 이러한 방식의 학습 방법으로 인해, Sora는 단순히 Text-to-video가 아니라 영상 속 물리 법칙 및, 조명 등 실제 현실 세계에서 작용하는 세상의 법칙들을 학습할 수 있었다고 설명하고 있다.
  • 위와 같은 학습 방식의 특성상 Sora의 설명 페이지에는 아예 대놓고 세계 시뮬레이터(World Simulator)라는 표현을 직접적으로 명시하고 있다.
  • Sora의 학습원리를 설명하는 페이지에서는 학습 방식 자체를 더 연구해서 개선할 것이 아니라, 컴퓨팅 파워만 키워도 결과가 더 좋게 나온다며 1배, 4배, 32배 GPU 사용시 각각 출력물을 비교하고 있다.
  • 즉, 더 많은 GPU와 데이터 센터 등이 확보되어 연산능력이 훨씬 좋아진 Sora를 자율주행 자동차 혹은 인공지능 로봇 등에 탑재시킨다면 갑자기 자동차 또는 로봇에 뇌와 눈이 동시에 달린 파급효과가 생길 수도 있게 된다.
  • 이 때문에 Ethan Caballero is Busy라는 X (구 트위터) 페이지에 올라온 Scale is all you need - AGI is coming이라는 밈이 뜨겁게 재조명받고 있다.

5. 일지

  • 2024년 3월 26일 영상 전문가들이 베타 테스트로 만든 영상을 추가로 공개했다.#

6. 문제점

6.1. 저작권 침해 가능성



오픈AI의 최고기술책임자(CTO)인 미라 무라티가 월스트리트 저널과의 인터뷰에서 Sora에 사용한 학습 데이터에 대해 "사용한 데이터의 세부 내용은 모르지만, 그것들은 공개된 것 혹은 라이센스가 있는(licensed) 데이터들이다."[3] 라고 대답하여 큰 문제가 되었다. # 이에 기자가 "그러니까, 유튜브의 동영상이요?", "페이스북, 인스타그램에서는요?" 등을 재차 질문했으나, 무라티는 계속 말을 더듬고 돌러다가 결국 "나도 사실 정확히 무슨 데이터로 훈련시켰는지 모른다."고 어물쩡 넘어갔다.

명색이 한 회사의 CTO라는 사람이 자사의 AI 솔루션에 사용한 훈련 데이터가 정확히 뭔지를 모른다고 언론 인터뷰에서 말하는 것 자체도 문제지만,[4] 만일 유튜브 영상과 같이 라이센스가 있는 영상 및 이미지 데이터를 Sora의 훈련에 사용한 것이 사실이라면 이는 명백한 저작권 침해이다. 이미 OpenAI는 ChatGPT와 관련하여 언론사들, 작가들 등으로부터 다수의 저작권 소송을 당하고 있는데, 이번에는 그 이상의 소송을 맞을 수도 있는 것이다.

6.2. 성능 한계

아직까진 불규칙하고 난잡한 동영상을 완벽하게 생성하는데 무리가 있는 것으로 보인다. 예를들어 유리가 깨지는 현상같은 초기조건에 따라서 결과가 무한에 가깝게 만들어지는 현상은 아직 제대로 묘사하지 못하며, 여러 요소가 비일관적이고, 복잡다단한 상호작용을 묘사하는 것에는 상대적으로 약한 모습을 보인다.

7. 반응




이처럼 Sora가 몇 초 안에 60초 분량의 실사 영상을 만들 수 있다는 것은 각종 업계의 일자리에 사형선고를 내린 것과 마찬가지로, 이는 게임, 영화, 유튜브, 광고 등을 총망라한 영상 매체를 이 인공지능으로 만들 수 있는 가능성이 열렸기 때문이다. 그 중에서도 특히 할리우드 등 영상 분야 현직자들이 이로 인하여 치명적인 타격을 입을 것으로 보인다.[5][6]

향후 온갖 부작용 및 사건 사고 또한 빈번하게 벌어질 것으로 전망된다. 가령 정치적인 목적으로 허위 영상을 만들어 시중에 배포하면 엄청난 파급력을 일으킬 것이다.

2월 17일, Sora 발표 이후 Adobe의 주가가 하루 만에 7.41%, 금주에 12% 급락했다.믿기 힘든 가짜 도쿄…어도비 끌어내린 오픈AI

중국보안업체인터넷 업체인 치후360CEO인 저우홍이(周鴻祎)는 소라 등장으로 인간 지능에 가까운 인공범용지능(AGI) 구현에 필요한 기간이 10년에서 1~2년으로 단축될 것이라는 코멘트를 남겼다.#
[1] 영상 공개 후, 오디오 생성 AI를 개발하는 기업들이 생성 오디오를 붙이기도 했다. 가우디오랩#, 일레븐랩스#[2] Runway Gen-2로 만든 영상을 봐도 알겠지만 이렇게되면 뭔가 초현실적인 영상이 만들어진다(...)[3] "I'm just not going to go into the details of the data that was used, but it was publicly available or licensed data.”[4] 물론 이는 추후 소송을 회피하기 위한 말돌리기일 가능성이 크다.[5] 할리우드는 영상 분야에서 제작비가 가장 많이 들기에 가장 먼저 대체될 가능성이 높다.[6] 바로 위 영상에서도 설명이 나오지만, 예를 들어 Sora의 해안가 드론 샷의 경우 드론 비용 + 비행기값 + 차비 + 카메라값 + 인건비 = 최소 몇백만 원 상당의 비용이 들어가는데, 이제는 이를 방구석에서 텍스트 몇 줄만 작성하여 대체할 수 있다는 뜻이다.