NVIDIA Nemotron

언어 모델
{{{#!wiki style="margin:-0px -10px -5px" {{{#!folding [ 펼치기 · 접기 ] {{{#!wiki style="margin:-5px -1px -11px; word-break:keep-all"	OpenAI	GPT (1 · 2 · 3 · 4.x · 5.x · 6^{개발 중}) GPT-OSS (20B · 120B) OpenAI (o1 · o3 · o4)
구글	Gemini (1 · 1.5 · 2 · 2.5 · 3 · 3.1 · 3.5) Gemma · LaMDA · PaLM 2
Anthropic	Claude (Fable · Opus · Sonnet · Haiku)
xAI	Grok
메타	LLaMA · Muse Spark
기타	HyperCLOVA(네이버) · 카나나(카카오) · 삼성 가우스(삼성전자) · 엑사원(LG AI연구원) · 믿:음(KT) · A.X(SK텔레콤) · Solar(업스테이지) NVIDIA Nemotron(NVIDIA) · Phi(Microsoft) · Apple Foundation Models · OpenELM(Apple) DeepSeek · Qwen(알리바바) · 어니봇(바이두) · Kimi(Moonshot AI) · MiniMax · Z.ai(GLM) 나마즈(Sakana AI)	}}}}}}}}}

<colcolor=#FFF> 엔비디아 네모트론 NVIDIA Nemotron

개발	NVIDIA
종류	LLM
주요 모델	Nemotron-3 8B Nemotron-4 15B, 340B Llama-3.1-Nemotron-70B-Instruct 등
파라미터	8B, 15B, 70B, 340B 등
라이선스	NVIDIA Open Model License 등 (오픈 가중치 모델로 무료 상업적 이용 가능)
링크	엔비디아 허깅페이스 NVIDIA NIM

1. 개요2. 역사3. 모델

3.1. Nemotron-43.2. Mistral-Nemo3.3. Llama-Nemotron3.4. Nemotron 33.5. 특수 모델

4. 기술 특징5. 라이선스6. 여담

1. 개요

NVIDIA가 오픈소스[1]로 배포하는 대형 언어 모델 계열. 2024년 Nemotron-4 15B로 시작해 Nemotron-4 340B, Llama-Nemotron, Nemotron 3 시리즈까지 여러 세대가 이어지고 있다.

자사 학습 프레임워크 Megatron-LM과 NeMo로 학습되고, 주로 NVIDIA NIM이라는 추론 마이크로서비스 형태로 배포된다. 같은 활성 파라미터대의 경쟁 모델 대비 처리량을 전면에 내세우는 설계가 많다는 점도 특징이다.

2. 역사

2024년 2월 arXiv에 Nemotron-4 15B 논문이 공개되면서 이 이름이 처음 대중에 알려졌다. 8조 토큰으로 학습된 이 모델은 같은 크기대에서 다국어 성능이 앞선다는 점을 내세웠다.#

같은 해 6월에 등장한 Nemotron-4 340B는 공개 시점 기준 가장 큰 공개 가중치 모델 중 하나였고, 다른 모델 학습에 쓸 합성 데이터 생성을 정면으로 내세운 점이 화제가 되었다. 실제로 이 모델의 정렬 학습에 쓰인 데이터 가운데 98%가 스스로 만들어 낸 합성 데이터였다.# 7월에는 Mistral AI와 공동으로 Mistral-Nemo 12B를 내놓으면서 Apache 2.0 라이선스로 풀린 오픈 모델에도 이름을 올렸다.#

2025년 1월에는 Meta의 Llama 3.1과 3.3을 기반으로 NVIDIA가 추가 학습을 얹은 Llama-Nemotron Nano, Super, Ultra 세 가지 크기가 발표되었다. 이 라인업은 시스템 프롬프트로 추론 모드를 켜고 끄는 "detailed thinking on/off" 토글을 도입해, 하나의 가중치로 빠른 응답과 깊이 있는 사고를 모두 지원하도록 설계되었다.#

2025년 12월 15일에는 구조를 바꿔, Mamba-2 계열 레이어와 Transformer 레이어를 섞은 하이브리드 MoE 아키텍처를 채택한 새 세대 Nemotron 3가 공개되었다. 이듬해 3월 11일 중형 모델 Nemotron 3 Super가 공개되었고, 최상위 모델인 Nemotron 3 Ultra가 2026년 상반기 안에 공개될 예정이다.#

3. 모델

3.1. Nemotron-4

Nemotron-4 15B - 2024년 2월에 논문으로 공개된 중형 Dense 모델. 영어 외 언어 성능을 같은 크기대에서 앞세웠다.
Nemotron-4 340B - 2024년 6월 공개. 합성 데이터 생성이 설계 목적의 중심에 놓였고, FP8 양자화 기준으로 DGX H100 한 대(8x H100)에 올라가도록 크기가 맞춰졌다.#

3.2. Mistral-Nemo

Mistral-Nemo 12B - 2024년 7월, Mistral AI와 NVIDIA가 공동 개발한 12B 모델. 컨텍스트 128K를 지원한다. NVIDIA 독자 라이선스 대신 Apache 2.0으로 풀렸다는 점에서 다른 Nemotron 모델과 결이 다르다.

3.3. Llama-Nemotron

Llama 3.1과 3.3을 베이스로 NVIDIA가 강화학습 기반의 추론 학습을 추가로 얹은 파생 라인업이다. Nano(8B), Super(49B), Ultra(253B) 세 가지 크기로 공개되었고 전부 128K 컨텍스트를 지원한다. Ultra는 공개 가중치 추론 모델 중 DeepSeek-R1을 벤치마크에서 앞지르면서도 H100 8장 한 대에 올라간다는 점이 두드러졌다.#

3.4. Nemotron 3

기존 Transformer 전 층에 의존하던 구조에서 벗어나, Mamba-2 계열과 Transformer를 섞은 하이브리드 MoE 아키텍처로 재설계된 세대다. 컨텍스트 길이가 1M 토큰까지 늘어났고, 토큰 임베딩을 저차원 공간에서 라우팅하는 LatentMoE, 여러 토큰을 한꺼번에 예측하는 Multi-Token Prediction, NVFP4 포맷 기반 사전학습 등 NVIDIA 독자 기법이 대거 적용되었다.

Nemotron 3 Nano - 2025년 12월 15일 공개. 총 30B 중 활성 3B로 움직이는 소형 MoE. 같은 활성 파라미터대의 Qwen3-30B-A3B 대비 처리량 3배 이상을 내세웠다.
Nemotron 3 Super - 2026년 3월 11일 공개. 총 120B 중 활성 12B의 중형 MoE로, NVIDIA가 NVFP4로 사전학습을 수행한 첫 모델이다.
Nemotron 3 Ultra - 2026년 6월 4일 공개. 총 약 550B, 활성 약 55B 규모다.

3.5. 특수 모델

Cosmos Nemotron - 로보틱스나 자율주행 같은 물리 AI용으로 공개된 비전 언어 모델 계열. Nano, Super, Ultra 크기로 나뉜다.
Nemotron Nano VL - NVIDIA NIM 배포용 멀티모달 VLM.
Nemotron OCR v2 - 영어, 한국어, 중국어, 일본어, 러시아어 등 6개 언어를 지원하는 OCR 특화 모델.

4. 기술 특징

NVIDIA는 자사 하드웨어와 소프트웨어 스택에 맞춰 Nemotron을 설계해 왔다. 학습에는 자체 프레임워크인 Megatron-LM과 NeMo가 쓰이고, 배포는 NIM과 TensorRT-LLM이 담당한다. Nemotron 3 세대부터는 Mamba-2와 Transformer를 섞은 하이브리드 구조로 긴 컨텍스트에서도 어텐션의 이차 비용을 피하고, Multi-Token Prediction과 LatentMoE로 추론 속도를 더 끌어올렸다.

2026년 공개된 Nemotron 3 Super는 NVIDIA가 새로 정의한 4비트 부동소수점 형식 NVFP4로 사전학습을 수행한 첫 사례로 꼽힌다. 다만 이 포맷은 Blackwell 세대 GPU에서 기본적으로 지원되기 때문에, 같은 모델을 다른 제조사의 가속기로 옮겨 돌리기가 어렵다는 지적도 뒤따른다.

5. 라이선스

대부분의 Nemotron 모델은 NVIDIA Open Model License로 배포된다. 가중치가 공개되어 있고 상업적 이용도 허용되지만, 해당 라이선스하에서 NVIDIA와 경쟁하는 AI 소프트웨어, 프레임워크, 하드웨어 도구를 개발하는 용도로는 쓸 수 없다는 제한이 걸려 있다.# NVIDIA 측은 자사 모델을 "진정한 오픈 소스"라고 표현하지만, OSI의 오픈 소스 정의에는 부합하지 않는다는 지적이 꾸준히 제기된다.

예외적으로 Mistral AI와 공동 개발한 Mistral-Nemo 12B는 Apache 2.0으로 풀렸고, Llama-Nemotron 시리즈는 기반이 된 Llama의 라이선스 조건을 그대로 따른다.

6. 여담

2026년 4월 21일 서울 마포에서 열린 NVIDIA Nemotron Developer Days에서 NAVER Cloud와 협력해 만든 합성 데이터셋 Nemotron-Personas-Korea가 공개되었다. 약 6~700만 건 규모의 합성 페르소나 데이터로, 통계청 KOSIS와 대법원, 국민건강보험공단 같은 한국 공공 데이터에서 출발하되 실제 개인정보는 포함하지 않도록 설계되었다. 라이선스는 CC BY 4.0이며 한국 개인정보보호법을 준수한다.#
NVIDIA가 굳이 LLM을 직접 공개해 뿌리는 배경에는, 모델이 잘 쓰일수록 GPU 수요가 함께 커지는 구조적 이유가 있다. 모델 개발을 총괄하는 Applied Deep Learning Research 부사장 Bryan Catanzaro는 Nemotron 개발 과정에서 얻은 통찰이 차세대 GPU 아키텍처인 Grace Blackwell, Vera Rubin, Feynman 설계에 반영된다고 밝힌 바 있다.#
Nemotron-4 다음에 Nemotron 3이 나오는 등 네이밍 체계가 좀 특이한데 사실 두 번호는 서로 다른 체계에서 나온 이름이다. Nemotron-4(하이픈 포함)는 단일 모델에 붙는 버전 표기이고, Nemotron 3(하이픈 없음)는 Nano/Super/Ultra 세 모델을 묶어 부르는 패밀리 세대 번호다. 패밀리 기준으로는 중간에 Nemotron 2 Nano 세대가 있었고, 번호는 꾸준히 올라온 흐름이다. 여기에 Llama-Nemotron이나 Mistral-Nemo처럼 파트너십 기반의 별개 축까지 섞여 있어, 타사 모델처럼 Nemotron 계열 전체를 번호 하나로 줄세우기는 난해한 부분이 있다.

[1] 후술하겠지만 Mistral-Nemo 12B를 제외하면 엄밀한 의미의 오픈소스는 아니다