최근 수정 시각 : 2024-04-10 09:47:32

TPU


파일:나무위키+유도.png  
은(는) 여기로 연결됩니다.
열가소성 폴리우레탄(Thermoplastic Polyurethane)에 대한 내용은 폴리우레탄 문서
번 문단을
부분을
, 에 대한 내용은 문서
번 문단을
번 문단을
부분을
부분을
, 에 대한 내용은 문서
번 문단을
번 문단을
부분을
부분을
, 에 대한 내용은 문서
번 문단을
번 문단을
부분을
부분을
, 에 대한 내용은 문서
번 문단을
번 문단을
부분을
부분을
, 에 대한 내용은 문서
번 문단을
번 문단을
부분을
부분을
, 에 대한 내용은 문서
번 문단을
번 문단을
부분을
부분을
, 에 대한 내용은 문서
번 문단을
번 문단을
부분을
부분을
, 에 대한 내용은 문서
번 문단을
번 문단을
부분을
부분을
, 에 대한 내용은 문서
번 문단을
번 문단을
부분을
부분을
참고하십시오.

파일:cloud-tpu-v3-alpha-2x.png
파일:external/3.bp.blogspot.com/tpu-1.png
알파고 실물

1. 개요
1.1. 텐서의 의미
2. 전용 소프트웨어3. 상용화4. 성능5. 제품6. 관련 문서

1. 개요

Tensor Processing Unit

구글에서 2016년 5월에 발표한 데이터 분석 및 딥러닝NPU를 모아놓은 하드웨어이다. 벡터/행렬연산의 병렬처리에 특화되어 있으며 넘사벽급의 전성비를 자랑한다. 비결은 8비트 정수 연산을 활용하는 것이다.[1] # 이는 NVIDIA 등에서도 실현한적 있다. 차이점이라면, TPU는 모델의 실행뿐만 아니라 학습 과정에도 8비트 정수 연산을 활용할 것으로 추정된다는 것. NVIDIA의 경우에는 P100과 같은 칩셋으로 16비트 부동소숫점 연산을 사용해 모델을 훈련시키고, P4/P40과 같은 제품을 통해 8비트 정수 연산을 활용해 모델을 실행하는 것을 이상적으로 보았다.

(자세한 정보 공개가 없는 상황이라 정확하진 않지만) GPGPU에서 딥러닝에 필요한 것들만 남기고 나머질 다 빼버린 설계와 비슷하다는 추측도 있다. 성능 항목의 PCI-E 병목 문제를 생각하면 APU(정확히는 HSA)나 NVLINK에 가까운 구조를 포함하는 것일 수도 있다. 구글 엔지니어 블로그에 의하면 알파고도 GPU가 아닌 TPU상으로 구현되어 있다고 한다.

1.1. 텐서의 의미

파일:상세 내용 아이콘.svg   자세한 내용은 텐서 문서
번 문단을
부분을
참고하십시오.

2. 전용 소프트웨어

TPU를 위한 소프트웨어로는 구글에서 오픈소스로 공개한 TensorFlow 공식 웹사이트가 있다. 텐서플로를 통해 TPU 워크로드를 실행해 볼 수 있다. 다만 오픈 소스로 공개된 버전은 TPU가 아닌 GPU를 위한것으로 주의가 필요하다.

3. 상용화

출시 시점에서 가장 빠르게 TPU를 이용할수 있는 방법은 Google Cloud Platform을 통해 Cloud TPU 임대 베타서비스를 이용할 수 있다. 대당 6.5$/h

현재 소비자가 구할수 있는 TPU는 edge TPU 기반의 제품인 코랄 보드[2] 일체형 보드에서 부터 M.2 PCI-E확장모듈까지 다양한 폼펙터의 TPU구성을 갖춘 제품이다 다만 구글이 데이터센터용으로 쓰는 TPU가 아닌 저전력 버전 기반이라 성능은 다르다. 또한 텐서플로 라이트를 지원한다는 게 특징.

NVIDIAGeForce 20부터 TPU와 비슷한 기능을 하는 Tensor Core를 일반 제품군에도 내장하기 시작했다. 용도는 다름아닌 레이트레이싱과 DLSS 안티에일리어싱 보조용.

AMD도 Instinct MI100부터 비슷한 기능의 Matrix Core을 내장하기 시작했다. 다만 이쪽은 일반 제품군에는 내장되지 않는 중. RDNA 3의 RX 7000번대부터는 내장될 수도 있다는 관측이 있었고, 실제로 비슷한 역할인 AI 매트릭스 액셀러레이터가 내장되었다..

2023년 모건 스탠리가 발간한 리포트 등 각종 통계에 의하면 NVIDIA의 최신 칩셋인 A100 주요 고객 리스트에 구글은 없다.# 이를 통해 딥러닝 관련 워크로드 수행 분야에서는 TPU가 이미 엔비디아의 역할을 대부분 대체했다고 추정해볼 수 있다. 다만 구글 클라우드 플랫폼의 데이터센터에는 엔비디아의 칩셋이 상당수 쓰이고 있으니 분야 혼동에 주의할 필요가 있다.

4. 성능

구글에서 발표한 뉴럴 기계번역 논문에 의하면 특정 조건하에서 TPU의 속도는 GPU(Tesla K80, Kepler 코어 2개가 장착되어 있다)[3]의 10배 이상 빠르다고 한다. # 물론 해당 속도는 기계번역 과정에서의 디코딩 단계에서 측정한 거라 굉장히 제한된 조건하에서 측정한 것이다.

기계 번역의 디코딩 단계는 학습단계와 달리 beam search라고 부르는 '가능한 탐색 루트에서 최적의 루트를 찾아내는 탐색과정'이 필요하다. GPU는 CPU와 달리 탐색과 같은 범용처리에 굉장히 약하므로 이러한 탐색 연산은 GPU에서만 돌릴 수는 없고 CPU와 데이터를 주고받으면서 처리해야 하는데 문제는 PCI-E 버스에서 생기는 레이턴시가 너무 길어 GPU의 장점인 빠른 병렬 처리속도를 상쇄한다는 것이다. 요리사가 아무리 빨리 요리를 만들어내도 배달에서 시간이 오래 걸리면 꽝이라는 걸 생각해보자. TPU도 마찬가지로 CPU에 탐색을 의존해야 하지만 구글에서는 레이턴시 문제를 효과적으로 해결한 것으로 보인다. (혹자는 비록 TPU의 메모리 시스템이 공개되지 않았지만 CPU와 램을 공유하는 게 아닌가 생각해본다.)

한 줄로 요약하면 CPU와 데이터를 주고받는 특정 조건하에서는 TPU가 압도적으로 빠르다 가 되겠다. 물론 절대적인 1:1 속도 비교가 아니더라도 압도적인 전성비를 자랑하는 TPU는 동일 체적의 공간에서 랙서버 운용 시 GPU 대비 훨씬 많은 연산력을 제공한다. 흥미로운 점은 해당 논문에서 비교로 사용된 88코어... 듀얼 CPU의 속도도 GPU로 디코딩하는 것보다 빠르다는 점이다. 아무리 CPU라 할지라도 88코어면 1 TFLOPS를 상회하는 연산력을 가지고 있고 GPU는 워낙에 PCI-E 레이턴시에 쥐약이라 NVIDIA가 괜히 PCI-E가 아닌 NV-LINK를 미는게 아니다.

5. 제품

v1 v2 v3 Edge v1 v4 v5e v5p
공개 2016년 2017년 2018년 2018년 2021년 2023년 2023년
공정 28nm 16nm 16nm 7nm[4] 미공개 미공개
크기 331mm2 <625mm2 <700mm2 <400mm2 미공개 미공개
클럭 700MHz 700MHz 940MHz 1050MHz 미공개 미공개
메모리 8GiB DDR3 16GiB HBM 32GiB HBM 32GiB HBM 16 GiB HBM 95GiB HBM
메모리 대역폭 34GB/s 600GB/s 900GB/s 1,200GB/s 819 GB/s 2765 GB/s
소비전력 75W 280W 220W 2W 170W 미공개 미공개
초당연산 [5] 23TOPS 45TOPS 123TOPS 4TOPS 275TOPS 197TOPS 459TOPS
TOPS/W 0.31 0.16 0.56 2 1.62 미공개 미공개
  • TPUv1
    Google I/O 2016에서 소개되었다. Norm Jouppi에 따르면 뉴럴 네트워크 연산에 대해 TPU는 최신 CPU및 GPU보다 15~30배 빠르며, 전성비는 30~80배 향상되었다고 한다.
  • TPUv2
    2017년 12월 초, Jeff Dean 과 Chris Ying에 의해 발표되었다. 구글의 머신러닝 시스템 워크샵에서 설명된 바에 따르면, TPU 2.0은 600 GB/S의 메모리 대역폭과 최대성능 45 TFLOPS의 칩 4개를 연결해 최대 180 TFLOPS의 성능을 발휘할 수 있다.
  • TPUv3
    2018년 5월 초, 순다르 피차이는 Google I/O 개발자 컨퍼런스 기조 연설에서 TPU의 세 번째 버전을 공개하였다. 이전제품보다 8배 빨라졌으며, 수랭식으로 냉각된다. TPU 3.0의 포드는 100 PFLOPS 이상의 성능을 낼 수 있다고 주장한다.
  • TPUv4
    2021 Google I/O에 공개된 TPU. 한 포드에 4096개의 V4 칩이 있으며 각 포드는 10개의 연결이 있다. PaLM 언어모델에서 5,400억 매개변수를 학습하는 데에 걸린 1,200시간 동안 6,144개의 v4 칩이 쓰였다고 알려져 있다.
  • EDGEv1
    소형, 저전력 플랫폼용 ML가속기. 텐서플로 라이트와 같이 사용할수 있으며 데이터센터 용이 아닌 일반 상용제품으로 현재 소비자가 구할수 있는 유일한 구글제 TPU제품이다.[6] 현존하는 인공지능 칩중에서 가장 뛰어난 소비전력 대비 연산능력을 보여주는 가성비 칩이다.
  • TPUv5
    2023년 스펙이 공개되었다. 효율성이 높은 v5e와 더 높은 성능과 확장성을 가진 v5p로 나뉜다.

6. 관련 문서


[1] 당연한 이야기지만, 같은 비트라도 정수 연산이 부동 소수점 연산보다 더 빠르다. 하드웨어의 구현도 정수 연산이 더 쉬우니 가성비가 있다.[2] 구글과 관계된 회사에서 제품화 했기 때문에 보통 구글 코랄 보드라고 부른다[3] TESLA K80은 GTX780의 사촌뻘 되는 칩셋을 사용한 카드이며 클럭이 몹시 낮아져있기 때문에 부동소수점 성능 자체는 AMD FURY X, GTX1070과 비슷한 수준이다.[4] TSMC[5] 1세대는 8bit 정수 연산 기준, 2세대부터는 16bit 부동소수점 연산 기준[6] 이 때문에 일부 서드파티 업체들은 Coral TPU를 M.2로 해서 병렬로 연결하는 식으로 상용 TPU제품을 만들어다 팔기도 했다.