| <colcolor=#fff> | |
| <colbgcolor=#ffd10a> 법인명 | Tenstorrent Inc. |
| 설립 | 2016년 |
온타리오주 토론토 | |
| 산업 | 반도체 |
| 경영진 | CEO 짐 켈러 (2023년 1월~ ) |
| 상장 거래소 | 비상장기업 |
| 기업가치 | 26억 달러 (시리즈 D / 2024년 12월)# |
| 총 투자유치 | 11.8억 달러 이상[1] |
| 고용 인원 | 1000-1200명 |
| 주소 | |
| 링크 | 공식 홈페이지 | |
1. 개요
RISC-V 기반 인공지능 칩을 개발하는 팹리스 업체이다. AI 가속기와 고성능 RISC-V CPU IP를 개발하며, 오픈 아키텍처를 기반으로 NVIDIA의 대안을 목표로 하고 있다.2. 역사
2.1. 2023년
- 1월 19일, 짐 켈러가 CEO로 취임하였다.#
- 5월 31일, LG전자와 협력을 발표했다. 이 협력을 통해 LG전자는 tenstorrent로부터 차량용과 프리미엄 TV에 쓰이는 AI 및 RISC-V CPU 기술을 제공 받는다. tenstorrent는 LG전자로부터 데이터 센터용 비디오 코덱 기술을 받는다.#tenstorrent 공식
- 7월 3일, 현대자동차와 기아로부터 각각 3,000만 달러와 2,000만 달러를 투자받았다.
- Grayskull e75, e150 개발 보드 출시.
2.2. 2024년
- 3월 4일, Grayskull 개발 보드 일반 판매 시작.#
- 7월, Wormhole n150, n300 개발 보드 및 워크스테이션(LoudBox) 출시.#
- 8월, Hot Chips 2024에서 Blackhole 아키텍처 공개.#
- 12월 2일, 시리즈 D 펀딩으로 6억 9,300만 달러 투자 유치. 기업가치 26억 달러 달성. 투자자로 Bezos Expeditions(제프 베이조스), Samsung Securities, AFW Partners, LG전자, Baillie Gifford 등 참여.#
2.3. 2025년
- Blackhole 기반 제품(p100, p150, QuietBox) 출시.#
- RISC-V CPU IP인 Ascalon 라이선스 사업 본격화.#
- Fidelity 주도로 8억 달러 투자 유치 협상 중, 기업가치 32억 달러 예상.#
3. 역대 임원
4. 아키텍처
4.1. CPU 아키텍처
4.1.1. Ascalon (아스칼론)
Ascalon은 Tenstorrent가 ARM 코어를 대체할 목적으로 개발한 고성능 RISC-V CPU IP이다. 이 제품군은 RVA23과 호환되는 64비트 명령어 집합(ISA)과 Out-of-Order Superscalar 마이크로아키텍처를 기반으로 하며, 모델에 따라 2-wide부터 8-wide까지의 디코더 구성을 지원한다.Ascalon-X 모델을 기준으로 보면, 6개의 정수 ALU(이 중 2개는 분기 처리를 겸함), 2개의 FPU, 2개의 256비트 벡터 유닛, 그리고 3개의 Load/Store 유닛으로 실행 유닛이 구성되어 있어 고성능 연산에 특화돼 있다. 성능 면에서는 Samsung 4nm 공정을 기준으로 2.5GHz 이상의 목표 클럭을 지향하며, SPECint 2006에서는 GHz당 22점, SPECint 2017은 2.3점/GHz 이상, SPECfp 2017은 3.6점/GHz 이상의 높은 수치를 달성한다.
Ascalon 라인업은 다양한 용도와 성능 요구에 대응하도록 최고 성능과 8-wide 디코더를 탑재한 Ascalon-X, 고성능의 Ascalon-H, 표준형의 Ascalon-S, 그리고 2-wide 디코더를 특징으로 하는 초저전력·소형 Ascalon-U로 구성되어 있다.
4.1.1.1. 개발 보드: Atlantis
- 8코어 Ascalon-X CPU
- TDP: 50W
- OEM, 자동차 Tier 1, ISV용 소프트웨어 포팅용
4.2. AI 가속기 아키텍처
4.2.1. Tensix (텐식스)
Tensix는 Tenstorrent의 모든 AI 가속기에 탑재되는 핵심 연산 코어로, 5개의 Baby RISC-V 코어(2개의 데이터 무버, 3개의 연산 코어)와 함께 32x32 타일 기반 행렬 연산을 위한 매트릭스 엔진(FPU), 범용 SIMD 연산을 담당하는 벡터 엔진(SFPU), 2개의 NoC 라우터, 그리고 코어당 1~1.5MB 수준의 SRAM으로 구성된다. Tensix 코어는 FP8, FP16, BF16, TF32, FP32(출력), INT8, INT32(출력), BLOCKFP2, BLOCKFP4, BLOCKFP8, VTF19/VFP32와 같은 다양한 데이터 포맷을 지원해 폭넓은 연산 유연성과 범용성을 자랑한다.사용된 제품에는 1세대 Grayskull(코어: Tensix, 120개, 12nm), 2세대 Wormhole(코어: Tensix+, 80개, 12nm), 3세대 Blackhole(코어: Tensix++, 140개, 6nm) 등이 있다.
4.2.2. Tensix Neo (텐식스 네오)
Tensix Neo는 4nm 공정으로 제작된 차세대 저전력 AI 칩렛용 코어로, 기존 Tensix 아키텍처를 기반으로 더욱 발전한 설계가 특징이다. 특히, 기존에는 각 Tensix 코어마다 독립적으로 SRAM이 존재했으나, Tensix Neo에서는 4개의 Tensix 코어가 1개의 SRAM 블록을 공유하는 형태로 진화하여 공간 효율이 기존 대비 약 30% 개선되었다. 또한, Ascalon CPU와의 긴밀한 통합을 통해 연산 효율성을 더욱 높였으며, 지원하는 데이터 포맷에서도 BFP4, BFP8, LF8, INT8, INT32, FP32, TF32 등 다양한 연산 포맷을 처리할 수 있다.Quasar에는 Tensix Neo 코어 클러스터 32개(4nm 공정, 칩렛 형태)가 탑재될 예정이다. 비차단 D2D 인터페이스를 제공하며, 테이프아웃은 2025년, 제품 출시는 2026년으로 계획되어 있다.
5. 제품
5.1. AI 가속기
5.1.1. Grayskull (그레이스컬) - 1세대
Grayskull은 2021년에 테이프아웃되어 2023년에 출시된 Tenstorrent의 최초 상용 AI 가속기이다.공식 페이지 12nm 공정으로 제작되었으며, PCIe Gen 4 x16 인터페이스와 8GB LPDDR4 메모리를 탑재했다. FP8 기준 최대 332 TFLOPS, BLOCKFP8 기준 83 TFLOPS의 연산 성능을 제공한다.모델별로 보면, e75는 96개의 텐식스 코어와 96MB SRAM, 1.0GHz 클럭, 102.4GB/s의 메모리 대역폭, 75W TDP, 그리고 $599의 가격으로 제공된다. e150은 120개의 텐식스 코어와 120MB SRAM, 1.2GHz 클럭, 118.4GB/s 대역폭, 200W TDP, $799의 가격을 지닌다.
Grayskull 사용을 위해서는 64비트 x86 기반의 호스트와 Ubuntu 20.04 LTS 운영체제, 64GB 이상의 메모리, 100GB 이상의 저장공간(2TB 이상 권장)이 필요하다. 전원 연결은 e75의 경우 PCIe 6핀, e150의 경우 PCIe 6핀과 6+2핀을 요구한다.
5.1.2. Wormhole (웜홀) - 2세대
Wormhole은 2024년 출시된 Tenstorrent의 2세대 AI 가속기로, 이더넷(Ethernet) 기반의 스케일아웃을 지원한다.공식 페이지 12nm 공정으로 제작되었으며, PCIe Gen 4 x16과 16×100Gbps 이더넷 인터페이스를 갖췄다. 지원 데이터 포맷은 FP8, FP16, BF16, FP32, BLOCKFP2/4/8, INT8, TF32, VTF19 등 다양해 폭넓은 AI 워크로드를 처리할 수 있다.모델별로 n150 계열(n150s/n150d)은 1개의 칩과 72개의 텐식스 코어, 108MB SRAM, 12GB GDDR6 메모리(대역폭 288GB/s), FP8 기준 262TFLOPS의 성능, 160W TDP, 가격은 $999다. n300 계열(n300s/n300d)은 2개의 칩과 128개의 텐식스 코어, 192MB SRAM, 24GB GDDR6 메모리(대역폭 576GB/s), FP8 기준 466TFLOPS의 성능, 300W TDP, 가격은 $1,399다.
쿨링 방식은 서버용(n150s/n300s)에서는 패시브 히트싱크, 데스크탑용(n150d/n300d)에서는 액티브 쿨링을 적용한다.
5.1.3. Blackhole (블랙홀) - 3세대
Blackhole은 2025년에 출시된 Tenstorrent의 3세대 AI 가속기로, 독립적으로 구동되는 AI 컴퓨터 아키텍처를 갖추고 있다. 자세한 내용은 공식 페이지에서 확인할 수 있다.이 제품은 6nm 공정으로 제작되었으며, 140개의 Tensix++ AI 코어와 752개의 Baby RISC-V 코어, 그리고 16개의 Big RISC-V 코어(SiFive Intelligence x280, Linux 구동 가능)를 탑재했다. 210MB의 SRAM과 32GB의 GDDR6 메모리(대역폭 512GB/s)를 제공하며, 연산 성능은 FP8 기준 745 TFLOPS, FP16 기준 372 TFLOPS에 달한다. 확장성도 뛰어나 PCIe Gen 5 x16 인터페이스와 10개의 400Gbps 이더넷 포트(총 1TB/s)를 지원한다. TDP는 300W 수준이다.
모델은 p100과 p150 두 가지로 출시된다. p100 모델은 단일 프로세서로 이더넷 포트를 제공하지 않으며 액티브 쿨링이 적용되고, 가격은 999달러이다. p150 모델은 단일 프로세서에 이더넷 포트가 추가로 포함되어 있으며, 패시브/액티브/수냉 등 다양한 쿨링 방식을 지원하고 가격은 1,399달러이다.
2026년 1월 p150모델을 140코어에서 120코어로 다운그레이드 하면서 이미 팔린 p150모델도 호환성 유지를 위해 120코어만 활성화하는 펌웨어 업데이트를 공개했다.
이유는 명확히 알 수 없지만 2025년부터 GPU성능이 너무 높아 RAM이 처리속도를 따라가지 못하는 병목화 현상으로 인해 벌어지는 일로 보여지고 있다.
5.2. 워크스테이션
5.2.1. TT-LoudBox (라우드박스)
TT-LoudBox는 공랭식 AI 개발 워크스테이션이다. 4개의 Wormhole n300s 가속기(총 8개 Wormhole 칩), 512개의 텐식스 코어, 메시 토폴로지로 풀링된 96GB AI 메모리, 2개의 Intel Xeon 4309Y(8코어, 최대 3.6GHz) CPU, 512GB 시스템 메모리, 4TB NVMe 저장장치, 2×10기가비트 이더넷, 2×4 메시 토폴로지, 타워/랙마운트형 폼팩터를 갖췄다. 가격은 12,000달러다. Blackhole LoudBox는 2025년 2분기 출시가 예정되어 있다.5.2.2. TT-QuietBox (콰이어트박스)
TT-QuietBox는 수냉식 저소음 AI 개발 워크스테이션이다. 수냉 저소음 쿨링, 약 36kg 무게, 512GB 시스템 RAM, 4TB NVMe 저장장치, 2×10기가비트 이더넷, 타워/랙마운트 폼팩터가 공통 사양이다. Wormhole(TW-04001) 모델은 4×Wormhole n300, 512개 텐식스 코어, 768MB SRAM, 96GB AI 메모리를 제공한다. Blackhole(TW-04002) 모델은 4×Blackhole p150c, 560개 텐식스 코어, 64개 Big RISC-V, 840MB SRAM, 128GB GDDR6 AI 메모리를 장착하며, 가격은 11,999달러다.Blackhole QuietBox는 최대 약 800억 파라미터 모델을 실행할 수 있고, QuietBox 시리즈 모두 이더넷 기반 메시 토폴로지를 지원한다.
5.3. 서버 시스템
5.3.1. Galaxy (갤럭시)
Galaxy는 데이터센터를 위한 6U 랙마운트 폼팩터의 고밀도 AI 서버 시스템으로, 내장 헤드 노드와 함께 총 32개의 AI 칩을 탑재한다.공식 페이지 Wormhole Galaxy 모델은 32개의 Wormhole 칩과 768GB의 메모리를 갖추고 FP8 기준 약 15 PFLOPS의 연산 성능을 제공한다. Blackhole Galaxy 모델은 32개의 Blackhole 칩이 4x8 메시 토폴로지로 연결되어 있으며, FP8 기준 23.8 PFLOPS, FP16 기준 11.9 PFLOPS, 1TB 메모리, 16TB/s의 대역폭을 지원한다. 특히 Blackhole Galaxy는 NVIDIA의 HGX/DGX H100/H200 시스템(약 15.8 PFLOPS FP8)과 경쟁하며, 2026년 출시가 예정되어 있다.6. 소프트웨어
Tenstorrent는 모든 소프트웨어 스택을 오픈소스로 공개하고 있다.GitHub6.1. TT-Forge
MLIR(Multi-Level Intermediate Representation) 기반의 컴파일러로, 고수준 ML 프레임워크와 Tenstorrent 하드웨어를 연결한다.GitHub- 지원 프레임워크: PyTorch, JAX, TensorFlow, ONNX, PaddlePaddle
- 통합 기술: OpenXLA, LLVM MLIR, torch-mlir, TVM
- 상태: 퍼블릭 베타
- 주요 구성:
6.2. TT-NN
Tenstorrent 하드웨어에서 ML 워크로드를 실행하기 위한 Python 기반 고수준 API이다.GitHub- 하드웨어 복잡성을 추상화하여 즉시 AI 모델 실행 가능
- tt-metal 저장소에 포함
6.3. TT-Metalium
하드웨어에 직접 접근하여 커스텀 C++ 커널을 개발할 수 있는 저수준 SDK이다.GitHub- 베어메탈 프로그래밍 환경
- 디버그 및 성능 프로파일링 도구 포함
- TT-Forge가 하드웨어 실행 시 TT-Metalium으로 lowering
7. 로드맵
| <rowcolor=#fff> 제품 | 테이프아웃 | 출시 | 공정 | 특징 |
| Grayskull | 2021년 | 2023년 | 12nm | 1세대 AI 가속기 |
| Wormhole | - | 2024년 | 12nm | 2세대, Ethernet 스케일아웃 |
| Blackhole | - | 2025년 | 6nm | 3세대, 독립형 AI 컴퓨터 |
| Quasar | 2025년 | 2026년 | 4nm | Tensix Neo 기반 칩렛 |
| Blackhole Galaxy | - | 2026년 | 6nm | 32칩 서버 시스템 |