인공지능 칩

[[컴퓨터공학|컴퓨터 과학 & 공학

Computer Science & Engineering

]]

[ 펼치기 · 접기 ]

||<tablebgcolor=#fff,#1c1d1f><tablecolor=#373a3c,#ddd><colkeepall><colbgcolor=#0066DC><colcolor=white> 기반 학문 ||수학(해석학 · 이산수학 · 수리논리학 · 선형대수학 · 미적분학 · 미분방정식 · 대수학(환론 · 범주론) · 정수론) · 이론 컴퓨터 과학 · 암호학 · 전자공학 · 언어학(형태론 · 통사론 · 의미론 · 화용론 · 음운론) · 인지과학 ||

하드웨어 구성	SoC · CPU · GPU(그래픽 카드 · GPGPU) · ROM · RAM · SSD · HDD · 참조: 틀:컴퓨터 부품
기술	기계어 · 어셈블리어 · 바이오스 · 절차적 프로그래밍 · 객체 지향 프로그래밍 · 함수형 프로그래밍 · 해킹 · ROT13 · 일회용 비밀번호 · 사물인터넷 · 와이파이 · GPS · 임베디드 · 인공신경망 · OpenGL · EXIF · 마이크로아키텍처 · ACPI · UEFI · NERF · gRPC · 리버스 엔지니어링 · HCI · UI · UX · 대역폭 · DBMS · NoSQL · 해시(SHA · 브루트 포스 · 레인보우 테이블 · salt · 암호화폐) · RSA 암호화 · 하드웨어 가속
연구 및 기타	논리 회로(보수기 · 가산기 · 논리 연산 · 불 대수 · 플립플롭) · 정보이론 · 임베디드 시스템 · 운영체제(멀티태스킹 · 프로세스 스케줄링 · 데드락 · 식사하는 철학자 문제 · 뮤텍스 · 세마포어 · 인터럽트) · 데이터베이스 · 컴퓨터 언어 · 프로그래밍 언어{컴파일러(어셈블러 · JIT) · 인터프리터 · 유형 이론 · 어휘 분석 · 파싱 · 링커 · 난해한 프로그래밍 언어} · 마크업 언어 · 메타데이터 · 기계학습 · 빅데이터 · 폰노이만 구조 · 양자컴퓨터 · 행위자 모델 · 인코딩(유니코드 · MBCS) · 네트워크(네트워크 포트) · 컴퓨터 보안 · OCR · 슈퍼컴퓨터 · 튜링 머신 · FPGA · 딥러닝 · 컴퓨터 구조론 · 컴퓨터 비전 · 컴퓨터 그래픽스 · 인공지능 · 시간 복잡도(최적화) · 소프트웨어 개발 방법론 · 디자인 패턴 · 정보처리이론 · 재귀 이론 · 자연어 처리(기계 번역 · 음성인식) · 버전 (버전 관리 시스템)

1. 개요2. 상세3. 구조4. 분류

4.1. 사용 목적4.2. 사용 환경

5. 관련 기업 및 대표 제품

5.1. 해외5.2. 한국

6. 관련 문서

1. 개요

AI 가속기(AI accelerator) / NPU(Neural Processing Unit, 신경망 처리장치) / AI칩(AI Chip)

기계학습 모델을 구축하여 인공지능 소프트웨어 구현을 하기 위해 특화 설계된 통합 칩이다.

2. 상세

AI칩은 통합 칩을 의미하며, 인공신경망 연산을 위해 맞춤으로 설계된 NPU를 포괄하는 개념이다. 하지만 뉴로모픽 칩하고는 다른데, 둘 다 AI를 굴리기 위한 장치지만, 뉴로모픽 칩은 메모리를 GPU처럼 만들어 실제 신경망 구조를 하드웨어로 모방하는 칩인 반면, AI칩은 GPU 같은 병렬연산 장치를 AI 소프트웨어의 작동 효율만을 목적으로 설계된 칩이라는 점이 다르다. 즉 AI 가속 장치이자 효율 장치인 것. 특히 AI가속기란 개념은 AI칩을 포함한 아키텍처를 통칭하는 더 큰 단위이다. 즉 NPU(연산 유닛) ⊂ AI칩(통합 칩) ⊂ AI가속기(아키텍처)이다.

2010년대 중반까지는 전용 SDK [1]를 활용한 GPGPU가 곧 인공신경망 구축을 위한 유일한 해답이라고 봐도 무방했다. 다만 어디까지나 GPGPU는 태생부터가 고인력인 CPU를 대체하며 병렬로 부동소수점 연산을 하여 픽셀 단위 그래픽 작업에 특화를 위해 설계되었고, 이쪽 인공지능 분야에서는 단순 용도 변경한 것에 불과하기 때문에 여러 문제를 갖고 있었다.

우선 연산 성능은 강력한 반면, 호환성이 제공되고 양산이 가능한 제조사가 엔비디아 한 곳 뿐이기에 수요 대비 공급이 제한적이라 가격이 높았다. 또한 기존의 범용 GPU는 VRAM을 그래픽카드에 두고 CPU 데이터를 복제한 뒤 연산을 처리하고, 결과값을 다시 CPU에 복사하는 방식의 복잡하고 비효율적인 방식을 취하고 있어서 특정 기업의 특정 요구에 맞춰서 설계되지 못하는 동시에 자원 낭비가 심하여 높은 전력소비와 레이턴시가 고질적인 문제였다. (환경단체측에서는 인공지능 수요의 전력소모량 증가로 인해 탄소발자국이 늘어났다는 주장도 하고 있다.) 대규모 슈퍼컴퓨터나 데이터센터는 일반인 기준으로 상상하기 힘들 정도로 대량의 전력을 필요로 하고 냉각을 위해 막대한 금액을 사용한다. 또한 자율주행 자동차, 생성형 인공지능 등 초 단위로 빠른 반응이 사용자에게 중요하게 작용하는 분야에 쓰이기에 낮은 전력소비와 레이턴시는 필수적인 요소로 불린다.

이 때문에 행렬곱셈, 비선형함수 계산 등의 AI 연산 외에 기타 업무는 최소한으로만 남겨서 이를 전용으로 수행할 칩의 필요성이 대두되었고 ASIC 방식 위주로 AI연산 워크로드에 맞춰 만들어진 단일 칩을 AI칩이라고 부르게 된다. 사용자들은 머신러닝 프레임워크를 통해 워크로드를 실행할 수 있고, 이에 따라 상용화된 일부 칩들은 소비전력 대비 AI 연산능력이 기존 칩들에 비해 매우 우월한 수준을 갖추는 경지에 이르게 되었다.[2][3] 따라서 2010년대 후반부터는, 슈퍼컴퓨터와 데이터센터는 물론이고 스마트폰, 태블릿 등 개별 전자 기기의 경우 기존 프로세서에 간단한 AI연산 용도로 NPU부분이 추가되는 추세이다.[4]

3. 구조

Layer-1(H/W) : CPU, GPGPU 등의 하드웨어를 제어하는 가상 명령어셋 지원.[5]
Layer-2(S/W) : 머신러닝 연산처리를 지원하는 라이브러리, 프레임워크들.[6]
Layer-3(Algorithm) : L-1.2를 통해 구축된 모델들.[7]
Layer-4(Application) : L-3 기반의 부가 서비스.[8]

4. 분류

사용 목적에 따라 학습용과 추론용으로 나뉘며, 사용 환경에 따라 데이터센터와 엣지 컴퓨팅, 개별 노드 분야로 나누어 볼 수 있다.

4.1. 사용 목적

학습용은 딥러닝 학습을 통해 규칙을 찾아, 언어 모델 등 파운데이션 모델 구축하는 용도이다. 현재 기술은 은닉층에 매개변수를 많이 넣을수록 유리한 구조[9]이기에, 아직까지는 병렬연산으로 가장 뛰어난 성능을 자랑하는 GPGPU가 가장 범용적으로 쓰인다. 다만 ASIC 방식으로 설계된 칩들이 장기적으로는 GPU를 대체할 만한 잠재성이 있다는 평가가 대다수이다.[10] 그러나 풍부한 소프트웨어 풀과 접근성으로 일명 “가져다 쓰는”게 가능해서 빠른 PoC가 가능한 GPGPU-CUDA 기반과 달리 소프트웨어 풀이 상대적으로 매우 빈약하다는 점이 지적되어, 자체 칩을 제작할 여력이 되는 일부 빅테크 기업들을 제외하곤 범용 GPU를 활용하는 방식이 여전히 대세이다.

추론용은 학습을 통해 구축된 모델을 기반으로 예측 수행을 하는 용도이다. 가중치와 편향은 상술한 학습 과정에서 찾아두었으니, 예측값을 도출하는 것이다. 병렬만이 강점을 갖는 분야는 아니기에, 여기에서는 각각의 용도에 따라 GPU 외에도 CPU도 자주 쓰이며, 그 외에 FPGA, ASIC [11] 등도 쓰이는 경쟁시장 상태이다.

4.2. 사용 환경

데이터센터는 범용성이 뛰어난[12] GPU의 점유율이 압도적이며 이외에 최상위 클라우드 서비스 사업자 3명은 각자 독자적인 AI 서비스를 위해 자체 AI 칩 솔루션을 개발해서 적용하고 있다. 2020년대에 들어서는 아마존과 마이크로소프트 등을 필두로 인공지능 전용 데이터센터를 구축하는 사례가 급격하게 늘어나고 있다.[13]

엣지 컴퓨팅은 데이터센터 과부하로 인한 부작용들을 막기 위한 중간 컴퓨팅이다. 개별 노드들의 데이터를 각지에 흩어져 있는 클라우드렛으로 우선 전송하고, 이후 데이터센터로 이동시킨다. 효율적인 통신을 위해 짧은 레이턴시가 매우 중요하며 GPU, ASIC, FPGA가 골고루 쓰이고 CPU는 잘 쓰이지 않는다.

스마트폰, 태블릿 등 개별 노드들에도 Apple의 Neural Engine을 시작으로 ASIC 기반의 NPU를 탑재하는 추세이다. 현재까지는 학습이 아니라 추론 용도로 개별 노드들에게 내재된 상태이다. 향후에는 개별 노드 단위로도 간단한 모델 구축이 가능한 온디바이스 인공지능 형태로 발전시켜, 내재된 데이터를 통해 개별 기기 사용자들 맞춤형으로 발전될 예정이다. 2024년 삼성전자가 구글과 협력하여, 업계 최초로 온디바이스 기능이 탑재된 스마트폰인 갤럭시 S24를 출시했으며, 중국 업체들은 물론 애플도 Apple Intelligence를 공개하며 전자기기 내 온디바이스 인공지능의 탑재는 범용성을 가질 것으로 보인다.

PC용 그래픽카드에서는 엔비디아의 지포스는 텐서 코어, AMD의 라데온은 매트릭스 연산기, 인텔 Arc는 XMX 엔진이라는 칩셋이 탑재되어 NPU와 비슷한 개념으로 작동한다. 전부 머신 러닝을 통한 게임 해상도, 프레임 개선이 주 용도이다. 이 중에서 라데온의 매트릭스 연산기는 RX 9000번대에 되어서야 제대로 탑재되었고, 오랜 세월 동안 CUDA에 투자해서 개발환경이 압도적인 지포스의 텐서 코어쪽이 현재로써는 게임 외 다른 용도로도 무난히 쓸 수 있어 NPU로써의 성능이 가장 높다.

5. 관련 기업 및 대표 제품

2022년을 기준으로 해당 분야에서는 95% 가까이 GPU와 FPGA 등 범용칩이 시장을 점유하고 있으며 특히 엔비디아가 80% 내외의 점유율로 1위 사업자 자리를 공고히 지키고 있다. 현재 제대로 외부 고객에게 양산되고 있는 칩은 엔비디아의 제품이 유일하고, 이로 인해서 수요 대비 공급 부족 현상이 심화되자 고객사들은 점차 ASIC 방식을 통해 칩 자립화에 도전하고 있는 상황이다.[14] 이로 인해 커스텀 칩의 점유율이 점점 상승하면서 일부 시장조사 업체에서는 2027년까지 GPU 점유율이 70%까지 하락할 것이라고 관측하기도 한다.[15]

파일:37A0616B-30B6-40CF-ACAC-4ABBB6793D64.jpg

2024년 인공지능 분야 ASIC 예측 점유율

2023년 9월 모건 스탠리 리포트에 따르면 GPGPU를 제외한 ASIC 방식의 커스텀 칩셋 시장 규모는 2024년 62억 달러까지 성장할 것으로 전망했다. 구글은 이미 딥러닝 연산 분야 한정으로는 칩 자립화에 성공하여 엔비디아의 A100/H100을 대체하고 있으며 테슬라, 아마존닷컴, 마이크로소프트 등 나머지 주요 업체들은 2023년에 칩셋을 출시했거나 2024년 내로 상용화 할 예정이다. 샘 올트먼도 인공지능 칩 시장 도전 의사를 밝혔다.

다만 적어도 2024년 연말까지는 엔비디아가 압도적인 강세를 띌 것이 확실시되는 상황이다. 엔비디아의 최대 고객 중 하나인 Microsoft는 연말까지 기존 60만 개의 GPU에서 180만 개까지 늘릴 계획을 밝혔으며, 테슬라도 테슬라 오토파일럿 용도로 H100 치환 기준 GPU를 2023년 15,000대 수준에서 2024년 연말까지 85,000대 수준으로 늘릴 계획을 밝혔다. 두 업체 모두 자체 ASIC 생산에 돌입한 상황이지만, 현재로서는 일부 대체에 그칠 뿐더러 외부 자본 지출 비중을 급격하게 늘려나가고 있다.

5.1. 해외

엔비디아

A100 Tensor Core GPU : H100 출시 전까지 가장 강력한 성능을 냈다.
H100 Tensor Core GPU : 2022년 10월, TSMC 4nm 공정으로 출시. 2023년 기준으로 전세계에서 가장 강력한 퍼포먼스의 범용 가속기이다. 대표적으로 테슬라 오토파일럿이나 ChatGPT의 기반 모델인 GPT-4 학습에 사용되었다.
H200 Tensor Core GPU : 2023년 11월 13일에 공개했다. HBM3E 탑재 예정이며 2024년 2분기 내로 출시 할 예정이다.
B200 : 마찬가지로 HBM3E 탑재 예정.

구글

TPU v4 : TSMC 7nm 공정으로 출시. 알파고에 사용되어 유명해졌으며, 바드 구축을 위한 모델인 LaMDA와 PaLM 학습에 사용되었다. HBM 방식의 메모리를 탑재해서 최상의 대역폭을 자랑한다. 컨슈머용 Edge 제품군도 있으며 이는 Coral 사의 Edge TPU 로 발매된다. USB 연결형부터 PCIe 형 까지 다양하다.

Apple

Neural Engine : A11 Bionic 이후의 Apple Silicon에 탑재된다. CPU와 GPU의 메모리를 합친 SoC이기 때문에 전력 효율이 좋고 병목 현상이 적은 편이다.

테슬라

D1 : TSMC 7nm 공정으로 생산하고 있다. 2024년 안에 출시 예정이며 자율주행 자동차 개발을 위한 자사 슈퍼컴퓨터 플랫폼인 Dojo가 3,000개의 D1칩으로 구성되어 모델 학습에 쓰일 예정이다.

메타

MTIA v1 : 2023년 5월에 공개한 자사 최초 가속기이다. 2020년부터 개발했고, 자사 맞춤화 알고리즘과 생성형 인공지능 등의 학습과 추론 분야 전반에 걸쳐 사용할 예정이라고 한다. TSMC 7nm 공정으로 출시 예정이며, PyTorch로 소프트웨어를 통해 RISC-V 아키텍처를 사용하고, SRAM을 캐시처럼 활용하는 방식으로 설계했다.
MTIA v2 : 2024년 4월에 공개한 자사 2세대 가속기이다. PCIe 5.0 규격으로 개발됐다.

마이크로소프트

MAIA 100 : 2023년 11월 16일에 공개한 인공지능 업무용 칩셋. Bing과 Microsoft 365, 파트너사인 OpenAI에서 테스트를 진행 중이다. 2024년 출시 예정.
ATHENA : TSMC 5nm 공정으로 2024년 출시 예정. 공급이 제한적인데다 가격이 비싼 엔비디아 칩셋을 일부 대체하여 자사 LLM 구축에 사용할 예정이다.

아마존

Inferentia-1
Inferentia-2
Tranium-1
Tranium-2

인텔-하바나랩 [16]

Gaudi-1
Gaudi-2 : 2022년 5월 출시.
Gaudi-3 : 2024년 출시. HBM3가 탑재될 예정이다.

MI300 : 세계 최초의 데이터센터용 APU라는 마케팅을 앞세워 CES 2023에서 공개되었다. 엔비디아의 H100을 직접 언급하며 1.6배의 대역폭, 2.4배의 집적도가 가능하다고 홍보했다. 2023년 12월 6일 출시되었고, 현재 업계에서는 가속기가 없어서 못사는 상황이기에 성능만 발표에서 언급한대로 나와준다면 없어서 못파는 칩셋이 될 전망이다.
MI350 : 2024년 HBM3e를 탑재하여 출시 예정.

그래프코어[17]

IPU-BOW2000/IPU-M2000

셀레브라스 시스템즈

WSE-2

tenstorrent

Groq

sambanova

mythic

5.2. 한국

퓨리오사AI

WARBOY : 14nm로 생산된 컴퓨터 비전 특화 칩셋이다.
RNGD

리벨리온

ATOM : 2023년 5nm 생산
리벨

모빌린트

ARIES : 2022년 14nm 생산
REGULUS : 2024년 12nm 생산

6. 관련 문서

인공지능

비전 프로세싱 유닛

인공신경망 / 딥러닝

[1] 엔비디아의 CUDA를 비롯해서 OpenCL, ROCm 등.[2] 대표적인 예시로 구글의 TPUv4는 1W당 1.62TOPS라는 기술의 혁신 그 자체를 보여주고 있다. 또한 테슬라 FSD칩에 탑재된 NPU도 144W의 낮은 소비전력으로 72TOPS 수준의 연산 능력을 보여준다. 엔비디아 대비 연산 성능 자체는 밀리지만, 소비전력 대비 연산능력은 이미 추월한 것이다. 이들은 장기적으로 대량 양산하고 가격을 낮춰, 규모의 경제 효과로 완전한 칩 자립화를 꿈꾸고 있는 상황이다.[3] 다만 생각해보아야 할 측면도 있다. 칩당 최고성능을 낮추어서 소비전력을 올리는 것은 칩 제조사 입장에서 비교적 쉬운 일이다. 각종 모바일 AP나 인텔의 CPU에서 효율코어와 성능코어를 분리하는 것을 생각해보면 이를 쉽게 알 수 있다. 따라서 엔비디아 이외의 기업에서 더 좋은 전력대 성능비를 달성했다는 사실은 해당 회사가 엔비디아보다 더 좋은 기술력을 보유했다는 것을 입증하지 않으며 해당 아키텍쳐가 더 효율적이라는 것도 입증하지 않는다. 전력 대 성능비가 낮은 칩을 사용할 경우 데이터센터의 랙 개수와 면적도 증설해야 하고 대규모 연산에 대한 부하균형에 어려움이 생기는 등 여러 문제가 생긴다. 칩의 전력효율이 높다는 것이 기업에서 그 칩을 선호할 만한 확실한 이유가 되지는 않는다.[4] 정리하자면 태생부터 범용적이었던 GPU의 비효율성을 줄이고 딥러닝 용도로 최적화시킨 게 NPU.[5] CUDA, OpenCL 등.[6] PyTorch, Tensorflow, Tinygrad, HuggingFace 등.[7] 주로 트랜스포머 방식 사용.[8] ChatGPT, CodeWhisperer, GitHub Copilot 등.[9] 다만, 많이 넣는 것 외에 전처리 과정에서 유리하도록 질이 높은 데이터를 수집하거나 압축성이 좋은 모델을 만드는 것도 강력한 딥러닝 구축에 있어서 중요한 요소이다.[10] 대표적으로 구글의 TPU, 테슬라의 D1 등 GPU 주요 고객사들이 자체 ASIC 설계에 집중하머 장기적으로 대량 양산하여 GPU를 대체할 계획을 짜고 있다.[11] 애플의 뉴럴엔진, 테슬라의 FSD칩 등이 대표적 사례.[12] GPU 서버의 경우 AI추론이 아니어도 그래픽,영상 가속이나 대규모 연산 등에 사용이 가능하며 이외에 암호화폐 채굴 등에도 쓸 수 있어 일부 암호화폐 채굴 업체는 채굴 붐이 다 지자 가지고 있던 GPU자원을 활용해 AI학습 워크로드를 돌리는 사업으로 전환하기도 했다.[13] 기존 데이터센터 대비 입지의 자유성이 늘어났으며, 공간 효율성이 훨씬 뛰어나 토지 및 건축물 관련 비용은 줄어들었다. 반면 전력과 냉각 등 유지비가 천문학적으로 늘어났다는 특징이 존재한다.[14] 엔비디아는 설립 30년이 훌쩍 넘은 기업이었으나, 이러한 칩 부족 현상으로 인해 2023년 2분기부터 전년 대비 매출이 3배 가까이 늘어났다. 영업이익률도 3배 가까이 뛰었을 정도로 가격결정력이 넘사벽인 상황이었다.[15] 당연히 GPU 시장 자체가 줄어든다고 관측하는 것은 아니다. 인공지능 연산 분야에서 ASIC 기반 커스텀 칩 시장이 빠른 속도로 커질 것이라는 전망. 엔비디아는 TSMC, 삼성 파운드리에게 대량 발주를 던져주는 주요 고객이기 때문에 Apple Silicon 정도를 제외하면, 최신 공정에 가장 먼저 접근할 수 있는 위치에 있다. 즉, 같은 세대의 공정이라면 커스텀 업체가 엔비디아보다 먼저 최신 공정을 양산하면서 성능을 따라잡기는 아직까지 힘들다는 뜻이다.[16] 2019년 20억 달러에 인텔이 인수했다.[17] 세콰이어캐피탈에서 27억 달러라는 막대한 돈을 투자한 기업이다.