최근 수정 시각 : 2024-05-15 22:51:56

Attention Is All You Need

Attention Is All You Need
<colbgcolor=#646464><colcolor=#fff> 논문 저자 Ashish Vaswani\
분야 NLP
발표 년도 2017
논문 링크



1. 개요2. 초록3. 논문이 미친 영향
3.1. 트랜스포머의 등장3.2. QKV Self Attention3.3. 연쇄 창업
4. 여담5. 외부 링크

[clearfix]

1. 개요

트랜스포머 구조를 처음 발표한 구글브레인의 논문이다. 이 논문을 기점으로 Attention을 쓰는 딥러닝 모델 대부분은 QKV Self Attention 방식을 채택했다.

2. 초록

지금까지의 특징을 전달하는(transduction) 모델은 주로 복잡한 순환 신경망이나 인코더-디코더같은 합성곱 신경망 방식이 우세하지만, 우리는 어텐션을 사용한 '트랜스포머'라는 간단한 모델을 제안한다. 두 가지의 기계 번역 문제에 대해 실험했고, 학습 시간이 매우 적어야 한다는 것과 병렬적이여야 한다는 조건 하에서 상기된 모델이 질적으로 우수함을 보였다. 상기된 모델은 WMT[1] 2014 영어-독일어 번역 문제를 앙상블이 포함된 기존에 존재했던 결과보다 2 BLEU 향상시킨 28.4 BLEU를 달성했다. 영어-프랑스어 번역에서는, 기존 최상 모델들의 학습 비용의 작은 부분 정도인, 8개의 GPU를 활용해 3일 12시간에 걸쳤던 학습을 마친 후 41.8 BLEU의 신규 모델 상태를 지정했다. 또한 한정된 학습 데이터와 방대한 학습 데이터와 함께 영어 파싱(parsing)에 성공적으로 어텐션 방식을 적용함으로써 트랜스포머가 다른 문제들에도 이를 일반화한 것을 보였다.

3. 논문이 미친 영향

3.1. 트랜스포머의 등장

파일:상세 내용 아이콘.svg   자세한 내용은 트랜스포머(인공신경망) 문서
번 문단을
파급력 부분을
참고하십시오.
트랜스포머를 탄생시켰다는 한 마디로 정리 가능하다.
트랜스포머의 등장 이후 매우 많은 인공지능 모델들이 트랜스포머를 기본 구조로 채용했다. 이에 HuggingFace라는 트랜스포머 모델 전용 비즈니스까지 만들어졌다. 구글의 제미나이와 마찬가지로 OpenAI의 모델도 트랜스포머 기반이다.

로제타폴드, 구글 번역기 등 인공지능 서비스 성능의 비약적 향상도 트랜스포머 모델의 등장을 기점으로 한다. 또한 대부분의 언어모델은 해당 논문을 기반으로 하고 있다.

3.2. QKV Self Attention

[math(\mathrm{Attention}(Q,K,V)=\mathrm{softmax}\left(\dfrac{QK^T}{\sqrt{d_k}}\right)V)]
곱셈적 모듈, 시그마 파이 유닛, 하이퍼 네트워크 등으로 불리던 구조를 QKV 방식으로 정립하였다.

3.3. 연쇄 창업

파일:B54C60DC-A483-430B-B67E-02B060A770E2.jpg
공동저자들의 근속 기간
[clearfix]
저자명 퇴사 이후 비고
Ashishi Vaswani ADEPT 창업
Essential AI 창업
[2]
Niki Parmar
Noam Shazeer Character.AI 창업 [3]
Jacob Uszkoreit Inceptive 창업 [4]
Llion Jones Sakana AI 창업 [5]
Aidan Gomez 코히어 창업 [6]
Lukasz Kaiser OpenAI 이직 [7]
Illia Polosukhin 니어 프로토콜 창업 [8]

2023년 기준으로는 공동저자 8명이 전부 구글을 퇴사한 상태이다. 8명 중 7명이 퇴사 후 창업에 도전했으며, 무려 5개의 유니콘 기업이 탄생했다. 이들이 설립한 기업들의 도합 가치는 175억 달러에 육박한다.# 이들 공동저자들은 공통적으로 트랜스포머의 한계점을 인지하고 있으며, 모델 크기가 방대해짐에 따라 컴퓨팅 파워와 소비전력을 낮추는 새로운 모델의 필요성을 지적하고 있다.

2024년 3월 20일 NVIDIA GTC 2024 행사의 특별 세션에 부득이한 사정으로 불참한 니키 파마를 제외한 7명의 공동저자가 참여했다.

4. 여담

  • 트랜스포머가 아닌, 카고넷(CARGO Net)이라는 명칭이 사용될 뻔했다고 한다. 또한 본래 영어와 독일어 간 번역을 위해 만들었다고 한다.

5. 외부 링크

NIPS2017
arXiv:1760.03762


[1] 계산언어학회(ACL)의 연례 통계기반번역 학술 워크샵이다.[2] 각각 구글브레인과 구글리서치에서 근무했으며, 논문의 핵심 제안자였다. 2021년 AGI 구축을 위해 ADEPT 창업 이후, 동반 퇴사하여 Esseantial AI를 다시 창업했다. 두 기업 모두 유니콘 기업에 등극했다.[3] 논문 발표 이후에도 구글브레인 소속으로 LaMDA 프로젝트를 이끌다, 동료와 함께 Character.AI를 창업했다. 개인화된 챗봇을 구축하는 인공지능 컴패니언 업체이며, 유니콘 기업에 등극했다.[4] 구글리서치 소속 소프트웨어 엔지니어였으며, 합성분자 소프트웨어 개발사인 Inceptive Nucleics를 창업했다. NVIDIA 등으로부터 투자를 유치하며 3억 달러 기업가치를 인정받았다.[5] 구글리서치 소속이었으며, 일본에서 Sakana AI를 창업했다. 여담으로 공동저자 중에서 가장 마지막에 구글을 퇴사했다.[6] 논문에는 학생연구원 소속으로 참여했으며 졸업 이후 구글브레인 연구원들과 함께 코히어를 창업했는데, 공동저자가 창업한 기업 중 가장 기업가치가 높은 유니콘 기업이다.[7] 구글브레인 소속으로 Tensorflow 프로젝트에도 참여했으며, 현재는 OpenAI에서 언어모델을 개발하고 있다.[8] 가장 먼저 퇴사한 이후 블록체인 분야 기업인 니어 프로토콜을 창업했다. 70억 달러 기업가치를 인정받은 유니콘 기업이다.