최근 수정 시각 : 2025-02-11 13:19:12

CUA


파일:OpenAI-black-wordmark-crop.svg파일:OpenAI-white-wordmark-crop.svg
{{{#!wiki style="margin:0 -10px -5px"
{{{#000,#fff {{{#!folding [ 펼치기 · 접기 ]
{{{#!wiki style="margin:-6px -1px -11px"
{{{#000,#e5e5e5
<colkeepall> 제품군
서비스 ChatGPT, OpenAI(인공지능), Operator
모델 GPT-1, GPT-2, GPT-3(GPT-3.5), GPT-4(GPT-4 Turbo, GPT-4o, GPT-4o mini, GPT-4.5(개발 중)), GPT-5(개발 중)
o1(o1-preview, o1-mini, o1 pro mode), o3(o3-mini)
DALL·E, Codex, CLIP, Whisper, Voice Engine, Sora, SearchGPT, CUA
관련 인물
일론 머스크, 샘 올트먼, 미라 무라티, 일리야 수츠케버, 안드레 카파시, 그렉 브록만, 다리오 아모데이
관련 기업
마이크로소프트
}}}}}}}}}}}}}}} ||
생성형 인공지능
{{{#!wiki style="margin:-0px -10px -5px"
{{{#!folding [ 펼치기 · 접기 ]
{{{#!wiki style="margin:-5px -1px -11px; word-break:keep-all"
유니모달 모델 기반
<colkeepall> 텍스트 [[소설|
소설
]] NovelAI · AI Dungeon · AI Novelist
대화형 [[챗봇|
챗봇
]] ChatGPT · Microsoft Copilot · Gemini · CLOVA X · Cue: · Inflection AI · Mistral AI · Grok
[[언어 모델|
언어모델
]] GPT · LLaMA · Gemma · Claude · Phi · Exaone · OpenELM · Qwen · DeepSeek
코드 [[코드#컴퓨터 소프트웨어|
코드
]] GitHub Copilot · Devin · Phind · DeepSeek
이미지 [[그림 인공지능|
그림
]] Midjourney · DALL·E · Imagen · Artbreeder · NovelAI Image Generation · Stable Diffusion · FLUX.1 · Gaugan2 · Dream by WOMBO · Adobe Firefly · Deep Dream Generator
[[영상 인공지능|
영상
]] Stable Video · Sora · Meta Movie gen · Lumiere · Veo · Runway AI · Luma Dream Machine · Kling AI
[[모델링|
모델링
]] LATTE3D
오디오
소리
[[음성|
음성
]] A.I.VOICE · DeepVocal · Voice Engine
[[음악|
음악
]] Suno · Stable Audio · Udio · AIVA
멀티모달 모델 기반
대화형
+이미지
Exaone 3.5 · Samsung Gauss
+음성/이미지
GPT-4o · GPT-5 · Gemini · o1 · o3 · DeepSeek
+에이전트
Galaxy AI · Claude 3.5 Sonnet
행위
동작
[[지능형 에이전트|
에이전트
]] Apple Intelligence · Project Astra · Operator · Google Jarvis
[[인공지능 로봇|
체화
]] Tesla optimus · Google RT-X · Project Gr00t
}}}}}}}}}

CUA
Computer Using Agent
출시일 2025년 1월 23일
개발사 OpenAI
기능 지능형 에이전트
사용처 Operator
하드웨어 NVIDIA H100
라이선스 Proprietary Software
링크 파일:홈페이지 아이콘.svg

1. 개요2. 상세3. 성능

[clearfix]

1. 개요

OpenAI가 개발한 에이전트 기능 특화 인공지능 모델. Operator에 적용되었다.

2. 상세

GPT-4o의 비전 기능과 추론 기능을 통합하여 GUI를 인식하고 이와 상호작용하도록 학습되었다.

CUA는 픽셀 데이터를 처리하여 화면에서 무슨 일이 일어나고 있는지 이해하고, 가상 마우스와 키보드를 사용하여 작업을 수행한다.

사용자의 지시가 주어지면 CUA는 인식, 추론, 행동의 반복 루프를 통해 작동한다.
- 인식: 컴퓨터의 스크린샷이 입력되어 컴퓨터의 현재 상태를 파악한다.
- 추론: CUA는 현재 및 과거의 스크린샷과 동작을 고려하여 CoT를 사용하여 다음 단계를 추론하여 도출한다.
- 행동: 작업이 완료되었거나 사용자 입력이 필요하다고 판단할 때까지 클릭, 스크롤 또는 타이핑과 같은 동작을 수행한다.

3. 성능

벤치마크 결과 컴퓨터 사용 분야에서 OSWorld에서 38.1%의 성공률, 웹 기반 작업의 경우 WebArena에서 58.1%, WebVoyager에서 87%의 성공률을 달성했다.