o1은(는) 여기로 연결됩니다.
사와노 히로유키의 앨범에 대한 내용은 o1(사와노 히로유키) 문서 참고하십시오. {{{#!wiki style="margin:0 -10px -5px" {{{#000,#fff {{{#!folding [ 펼치기 · 접기 ] {{{#!wiki style="margin:-6px -1px -11px" {{{#000,#e5e5e5 | 제품군 | |
서비스 | ChatGPT · OpenAI(인공지능) | |
모델 | GPT-1 · GPT-2 · GPT-3(GPT-3.5) · GPT-4(GPT-4 Turbo · GPT-4o · GPT-4o mini) · GPT-5(개발 중) o1(o1-preview · o1-mini) | |
DALL·E · Codex · CLIP · Whisper · Voice Engine · Sora · SearchGPT | ||
관련 인물 | ||
일론 머스크 · 샘 올트먼 · 미라 무라티 · 일리야 수츠케버 · 안드레 카파시 · 그렉 브록만 · 다리오 아모데이 | ||
관련 기업 | ||
마이크로소프트 |
OpenAI o1 | |
출시일 | 2024년 9월 12일 |
개발사 | OpenAI |
기능 | 추론 특화 멀티모달 모델 |
하드웨어 | NVIDIA H100 |
라이선스 | Proprietary Software |
관련 링크 |
[clearfix]
1. 개요
OpenAI가 개발한 추론형 멀티모달 모델. 코드명은 스트로베리였다.2. 특징
반응하기 전 생각하는 데에 더 많은 시간을 할애하도록 설계되어 복잡한 작업을 추론하고 과학, 코딩, 수학 분야의 이전 모델보다 더 어려운 문제를 해결할 수 있다. 그밖의 이공계 분야가 아닌 학문이나 취미 분야라도 논리적인 요소가 필요한 부분, 예를 들면 필요한 글의 핵심을 찾아서 정리하는 능력, 언어의 문법을 자료대로 탐구하는 부분이나 논리적인 언어 유희에 반응하는 능력, 주어진 자료를 고려한 게임 공략 도출의 능력까지도 좋아졌다.o1 모델은 물리학, 화학, 생물학 등 까다로운 벤치마크 과제에서 박사 과정 학생과 비슷한 수준을 보였으며, 국제 수학 올림피아드(IMO) 예선 시험에서 83%의 성적을 받아, 이전 모델인 'GPT-4o'의 13%를 크게 넘어섰다. 코딩 능력을 가리는 코드포스에서는 89번째 백분위에 올랐으며, 백준의 일부 다이아몬드 5 문제도 잘 풀이하는 모습을 보여주었다.
테스트-시간 계산(test-time computation)' 학습법을 도입했다. 이는 강화 학습(훈련 시간 컴퓨팅)이 더 많아지고 사고에 더 많은 시간을 할애할수록(테스트 시간 컴퓨팅) 지속적으로 향상된다는 개념이다.
또 '생각의 흐름(CoT)'을 사용해 생각하는 방법을 향상했다. 이에 따라 사용자가 별도의 프롬프트 엔지니어링을 사용하지 않아도, 모델이 스스로 문제를 분석할 수 있다.
3. 모델
3.1. o1-preview
o1의 미리보기 모델. 지속적으로 업데이트가 이루어질 예정이며 정식 버전 때는 preview 모델보다 더 높은 성능으로 출시될 것으로 보인다.2024년 9월, 수능의 경우 수학 영역에서 확률과 통계를 택한 경우 원점수 92점으로 수학 1등급 94점에 근접한 점수가 나왔다. # 수능 국어는 백분위 97 정도로 1등급을 달성했다. #
마찬가지로, 일본 입시에서도 2024년 도쿄대 이과 수학시험에서 55/120점을 기록하여 합격 커트라인을 달성했다.#
사상 최초로 인간 평균 아이큐인 100을 넘어선 120을 기록했다. #
3.2. o1-mini
o1의 경량화 모델. o1-preview에 비해 약 80% 저렴하며 코딩에 특화되어 있다. 80% 저렴함에도 모든 모델을 통틀어서 o1-preview 다음가는 성능을 가지고 있다. 이 모델 또한 GPT-4o에 비교해보았을 때 추론 능력이 좋은 편이며, 논리나 수학적 사고가 요구되는 분야의 성능이 크게 향상되었다. 추론 시간이 짧게 있는 대신 추론 후 출력 속도도 GPT-4o를 능가할 정도로 꽤 빠르다.위의 preview와 함께 풀어본 수능 국어에서는 78점을 얻어 평가대상 중 2위를 차지했다, 다만 97점을 획득한 preview와는 19점 가까이 차이가 났다.
4. 요금제
ChatGPT Plus(유료) 가입자들을 대상으로 우선 공개되었다.5. 평가
기존 생성형 인공지능으로 해결이 어려웠던 논리적인 문제를 추론을 통해 돌파구를 마련했다는 평이 있다. 다만 작문 등 문학적인 부분의 답변 품질은 종전과 비슷하다.한국에서는 preview 수준만 놓고 보아도 수능, 회계사 시험 문제, PSAT 등에서 종전 GPT 대비 성과가 매우 뛰어나다는 평이다. 수식을 LaTeX로 변환한 다음 풀게 하면 종종 풀린다. 이공계 학문을 중심으로 답변의 품질이 좋아졌다는 평이 있다. 특히 수능을 푸는 성능이 완벽은 아니어도 종전에 비해서는 상당히 좋아진 상황이라 이 속도로 인공지능의 성능 개선이 지속된다면 교육계에도 어떤 영향이 있을 것이라는 평도 있다.