||<table bordercolor=black><table width=100%><bgcolor=white> x86 CPU 마이크로아키텍처 ||
}}}}}}}}} ||
{{{#!wiki style="margin:0 -10px -5px; min-height:calc(1.5em + 5px); color: #fff;" {{{#!folding [ 펼치기 · 접기 ] {{{#!wiki style="margin:-5px -1px -11px; color: #000;"dark-style="color: #fff;" | <rowcolor=white> 등장 시기 | 패밀리 넘버 (10진법/16진법) | 설계 기반 | 이름 | 공정 노드 |
고성능 지향 마이크로아키텍처 목록 | |||||
1996년 3월 | - | K5 | K5 | AMD 0.5 ~ 0.35 μm | |
1997년 4월 | 05 / 05h | K6 | K6 | AMD 0.35 ~ 0.18 μm | |
1999년 6월 | 06 / 06h | K7 | K7-Athlon | AMD 0.25 ~ 0.13 μm | |
2003년 4월 | 15 / 0Fh | K8-Hammer | AMD 0.13 μm ~ 65 nm | ||
2007년 9월 | 16 / 10h | K10 | AMD 65 ~ 45 nm | ||
2008년 6월 | 17 / 11h | K8 + K10 Hybrid | AMD 65 nm | ||
2011년 6월 | 18 / 12h | K10 Llano | Common Platform Alliance SOI 32 nm | ||
2011년 10월 | 21 / 15h | Bulldozer | Bulldozer | Common Platform Alliance SOI 32 nm | |
2012년 8월 | 21 / 15h | Piledriver | Common Platform Alliance SOI 32 nm | ||
2014년 1월 | 21 / 15h | Steamroller | Common Platform Alliance 28 nm | ||
2015년 6월 | 21 / 15h | Excavator | Common Platform Alliance 28 nm | ||
2017년 3월 | 23 / 17h | Zen | Zen | GlobalFoundries 14 nm | |
2018년 4월 | 23 / 17h | Zen+ | GlobalFoundries 12 nm | ||
2018년 6월 | 24 / 18h | Hygon Dhyana | GlobalFoundries 14 nm | ||
2019년 7월 | 23 / 17h | Zen 2 | TSMC 7 nm | ||
2020년 11월 | 25 / 19h | Zen 3 | TSMC 7 nm | ||
2022년 2월 | 25 / 19h | Zen 3+ | TSMC 6 nm | ||
2022년 9월 | 25 / 19h | Zen 4 | TSMC 5 ~ 4 nm | ||
2024년 7월 | 26 / 1Ah | Zen 5 | TSMC 4 ~ 3 nm | ||
미정 | 불명 | Zen 6 | 미정 | ||
고효율 지향 마이크로아키텍처 목록 | |||||
2011년 1월 | 20 / 14h | Bobcat | Bobcat | TSMC 40 nm | |
2013년 5월 | 22 / 16h | Jaguar | Jaguar | TSMC 28 nm | |
2014년 6월 | 22 / 16h | Puma | Common Platform Alliance 28 nm |
1. 개요2. 공개된 정보
2.1. 개발2.2. 성능2.3. 주요 변경점2.4. 프론트엔드2.5. 백엔드2.6. 캐시 메모리 및 계층 구조2.7. 코어당 2-way SMT (양방향 동시 멀티스레딩)2.8. 인피니티 패브릭 인터커넥트2.9. SenseMI2.10. 명령어 셋2.11. 제조 및 생산2.12. 기대와 우려
3. 코드네임3.1. Whitehaven3.2. Summit Ridge3.3. Raven Ridge3.4. Dali3.5. Pollock3.6. Great Horned Owl3.7. Banded Kestrel3.8. Naples3.9. Snowy Owl
4. 공개 전 소문5. 기타1. 개요
2017년 3월에 출시된 AMD 엑스카베이터의 후속 마이크로아키텍처이자, ZEN 마이크로아키텍처 시리즈 중 1번째 마이크로아키텍처. 사용된 프로세서 코드네임은 Summit Ridge, Raven Ridge, Whitehaven, Naples, Great Horned Owl, Banded Kestrel, Snowy Owl, Dali로, GlobalFoundries 14LPP로 제조되었다. 출시와 함께 AM4 소켓용의 X370, B350, A320 칩셋 또한 출시 되었고, 스레드리퍼 제품군에 쓰이는 TR4 소켓용의 X399 칩셋도 출시되었다.2. 공개된 정보
위의 이미지는 2016년 8월 23일 Hot Chips 28 두 번째 날에 발표된 ZEN 마이크로아키텍처에 관한 슬라이드로, 자세한 내용은 Hot Chips 공식 홈페이지에서 열람할 수 있다.
2.1. 개발
과거 AMD의 전성기를 이끈 K7과 K8 마이크로아키텍처의 설계에 참여하였던 짐 켈러의 주도로 설계되었다.참고로 짐 켈러는 2012년 8월에 영입되어 계약 기간이 끝난 후 2015년 9월에 AMD에서 퇴사했었다. 짐 켈러의 이런 행동에 대해서 논란이 약간 있었는데, 짐 켈러의 경력 자체가 기반을 구축하거나 전반적인 문제를 해결해주고 바로 다른 데로 떠나는 스타일이라는 주장이 있다. 그리고 미국쪽에서는 이런 고용계약이 매우 보편화가 되어서 문제가 전혀 되지 않는다. AMD CPU의 역사상 전성기였던 K7, K8 개발에 참여했던 시절에도 정작 K8이 사용된 애슬론 64 시리즈가 출시될 때에는 AMD에 없었다. 짐 켈러는 애슬론 64 시리즈 출시 시기에 저전력 모바일 프로세서를 개발하는 업체로 이직했는데, 이 회사는 Apple에 인수되어 A4/A5 칩 설계를 맡으며 Apple Silicon의 초석을 닦았다.[1]
여튼, 짐 켈러가 AMD로 복귀하여 설계를 주도한 것이 바로 이 ZEN 마이크로아키텍처이다.
불도저부터 엑스카베이터 마이크로아키텍처까지 사용되었던 모듈(클러스터) 기반 멀티스레드(CMT) 방식을 완전히 버렸다. 원점에서 전체 아키텍처를 다시 설계했으며, 과거 K7부터 K10 마이크로아키텍처까지의 전통적인 설계 사상과 전통적인 구조로 회귀하는 방향으로 설계했다. 각 부분의 구성 요소들은 기존에 최대한 검증된 방식을 사용하여 리스크를 억제하려고 했는데, 대표적인 부분으로 경쟁사 인텔이 성공적으로 도입하여 적용 중인 코어당 2-way SMT와 마이크로옵 캐시, 저전력용인 자사의 밥캣 마이크로아키텍처 등에 이미 도입하였던 신경망 기반 분기 예측 기능을 들 수 있다. 또한 설계 당시부터 성능/전력소모/크기의 3요소간의 균형을 맞추면서 각 요소를 극대화 하는 방향으로 설계 방향을 잡았다.
2.2. 성능
AMD에서 공식 발표한 바에 따르면 엑스카베이터 대비 IPC(엄밀히 따지면, IPC가 아니라 클럭당 성능)를[2] 40% 향상을 목표로 했으며 결과적으로 52%의 향상을 이루어 냈다.
초기에 기존 CPU 대비 40% 향상이 목표라고 알려졌을 때에는 기존 파일드라이버 마이크로아키텍처에 단순히 1.4배를 곱하여 대략 경쟁사의 3세대 아이비브릿지 수준의 성능일 것으로 전망하였으나, 이후 파일드라이버 기준이 아닌 엑스카베이터 기준 40% 향상인 것으로 밝혀지면서 브로드웰 급으로 기대치가 상승하였다. 실사용에서는 아닐지 몰라도, 의외로 일부 벤치에서는 아이비브릿지와 비슷한 벤지마킹 점수를 기록했기 때문에 브로드웰급으로 예상치가 올라가게 되었다. 이후 엠바고가 풀리고 공식 발표에서는 목표인 40%를 뛰어넘어 52%의 클럭당 성능 향상으로 초과 달성했다고 발표되었다.
2017년 3월에 클럭당 성능 향상폭에 대해서 보다 구체적인 사항이 발표 되었는데 전체적으로는 엑스카베이터 대비 52% 올라간 것이 공식적으로 발표 되었다. 보다 세부적인 향상률은 다음과 같다.
- SPECInt_base2006기준 정수연산 향상률: 파일드라이버 대비 52%, 엑스카베이터 대비 64%[3] 상승.
- Cinebench R15 단일스레드 실행 기준 벡터연산[4] 향상률: 파일드라이버 대비 76%, 엑스카베이터 대비 64% 상승.
재미있는 건 인텔이 발표한 제온 스케일러블 시리즈의 최대 코어는 28코어이고, AMD가 발표한 EPYC 시리즈의 최대 코어는 32코어인데, 둘을 같은 면적이라고 가정하면 코어당 14% 정도의 차이가 나온다. 그리고 스카이레이크에서 10-15% 가량을 줄이면 브로드웰이다. 물론 클럭당 성능이라는 게 완벽하게 고정불변한 절대값은 아니므로, 사용하는 프로그램이나 환경에 따라 클럭당 성능 격차가 더 벌어지거나 좁혀질 수 있음을 명심하자.
데스크톱 라인업인 서밋 릿지인 경우, 불도저에서 이어져 온 4모듈-8코어-8스레드 구성에서 8코어-16스레드 구성으로 바뀌면서 스레드 기준 2배가 증가하게 된다. 이런 구성이면 양쪽 클럭이 동일하다고 가정할 경우 스카이레이크 기반 4코어-8스레드 코어 i7 시리즈에 대해서 싱글스레드 성능은 불과 10% 정도 떨어지지만 멀티스레드 성능은 2배에 달하는 코어 숫자를 이용해 1.7~1.8배 정도 우위를 점하면서 제품경쟁력을 높일 수 있다.
AMD의 공식 발표에 의하면 Blender에서 Intel Core i7-6900K와 AMD RYZEN 7 1800X (추정)의 같은 코어 개수, 같은 스레드 개수, 같은 3 GHz 클럭 환경에서 근소하게 앞서는 클럭당 성능을 보여주고 있어, 추후 QS이후의 리테일 제품의 클럭이 성능을 결정 지을 것으로 보인다. 하지만 해당 테스트에 관해서 인텔 엔지니어인 François Piednoël은 'FMA3 명령어로 실행하는 것으로 보이며, L1, L2, L3 캐시의 사이즈가 다르므로 클럭당 성능 비교는 무의미하다'는 글을 올렸다. 하지만 브로드웰은 FMA3 명령어를 256-bit 데이터 폭으로 동시에 두 개, 2배의 스루풋으로 처리할 수 있는데 비해 ZEN은 FMA 명령어를 128-bit 데이터 폭으로 동시에 처리할 수 있어서 단순 스루풋 기준으로는 브로드웰이 두 배로 빨라야 정상이다. 게다가 브로드웰의 캐시 데이터폭은 ZEN의 2배로, 정확히 FMA3 명령어의 입출력값을 뒷받침해 줄 수 있도록 확장되어 있다. 즉 Blender의 코드가 FMA3명령어 의존적이라는 주장이 맞다면 오히려 ZEN의 FMA 연산에서의 아키텍처 효율이 단순 스펙에서 드러나는 것보다 훨씬 더 좋다는 이야기가 된다. 캐시 크기가 달라서 클럭당 성능 측정으로서는 의미 없다는 주장 자체가 큰 의미가 없는데, 애초에 성능 위주의 프로그램들은 캐시 미스로 인한 패널티를 피하기 위해 각 단계별 캐시 크기에 맞도록 코드나 데이터 사이즈를 조정해서 로드하는 경우가 많으며 캐시대역폭 역시 브로드웰이 2배이다.
결국 ZEN이 실제로 공개되고 난 이후 ZEN의 여러 벤치마크 성능이 클럭대 클럭으로도 브로드웰과 동급이라는 것이 밝혀진 후로는 저러한 장황한 설명이 무의미해지고 말았지만...
2.3. 주요 변경점
- 코어 레벨 (엑스카베이터 대비)
- 프론트 엔드/백 엔드 공통
- 동시 멀티스레딩(Simulatneous Multi-Threading, SMT) 도입
- 프론트 엔드
- 분기 예측 개선
- 명령어 TLB (Instruction TLB, ITLB)
- 명령어 캐시
- 2K 명령어 크기 옵 캐시(Op Cache) 도입
- 백 엔드
- 마이크로옵 전송(dispatch) 폭이 사이클당 4 → 6으로 증가
- 마이크로옵 퇴출(retire) 폭이 사이클당 4 → 8로 증가
- 재정렬 버퍼가 128 엔트리 → 192 엔트리로 확장
- 정수 스케줄러가 총 48 엔트리 → 84 엔트리로 확장
- 부동소수점 스케줄러가 60 엔트리 → 96 엔트리로 확장
- 정수 레지스터 파일이 96 엔트리 → 168 엔트리로 확장
- 부동소수점 레지스터 파일은 176 엔트리 → 160 엔트리로 소폭 감소
- 정수 실행 포트의 수가 4 → 6으로 증가
- 부동소수점 실행 포트의 수가 3 → 4로 증가
- move elimination 도입
- 메모리 서브 시스템
- 로드 스토어 유닛(LSU)
- 로드 큐가 44 엔트리 → 72 엔트리로 확장
- 스토어 큐가 32 엔트리 → 44 엔트리로 확장
- 데이터 TLB (Data TLB, DTLB)
- 데이터 캐시 메모리
- 구성은 32KB, 8-way로 유지
- 캐시 쓰기 정책이 write-through → write-back으로 변경
- 프리페처 개선
- 분기 예측과 인출 단계가 분리되어 명령어 인출에 앞서 동작
- 퍼셉트론(Perceptron) 신경망 기반 분기 예측기 (Neural Net Prediction)
- BTB 엔트리당 2개의 분기 저장
- 3단계 분기 타겟 버퍼(BTB)
- L0: 0 bubble, 8 엔트리 (4 forward + 4 backward)
- L1: 1 bubble, 256 엔트리 (← 512 엔트리, 감소)
- L2: 4 bubble, 4096 엔트리 (← 5120 엔트리, 감소)
- 리턴 주소 스택(RAS)의 크기가 24 엔트리 → 32 엔트리로 증가
(2 스레드 모드에서는 15 엔트리)
- indirect target array의 크기는 512 엔트리로 동일
- 분기 예측 파이프라인에 통합, 3단계 구조 (L0/L1/L2)
- L0: 8 엔트리, fully associative, 모든 페이지 크기 지원
- L1: 64 엔트리, fully associative, 모든 페이지 크기 지원 (← 48 for 4K + 24 for 2M/1G)
- L2: 512 엔트리, 8-way set associative, 4K 및 2M 페이지 지원 (← 512, 4-way for 4K only)
(1G 페이지는 2M 단위로 분할되어 취급됨)
- 용량은 64 KB로 유지
- associativity가 2-way → 4-way로 증가
(non scheduling queue 포함. 스케줄러 자체의 크기는 36 엔트리)
- ALU의 수가 2개 → 4개로 증가 (2배)
- 주소 생성 유닛(ALU)의 수는 2개로 동일
- 곱셈 연산의 레이턴시가 3 사이클로 개선 (기존 4-6 사이클)
- Radix-4 정수 나눗셈 유닛 추가 (레이턴시 및 처리량 개선)
- L1: 64 엔트리, fully associative (all page sizes) (동일)
- L2: 1024 엔트리, 8-way → 1536 엔트리, 12-way로 확장 (4K/2M); 1G 페이지 지원 삭제.
2.4. 프론트엔드
2.4.1. 신경망 예측 (Neural Net Prediction)
ZEN의 분기 예측 기법에는 이전의 Bobcat 아키텍처에도 적용된 적이 있던 신경망 기반의 분기 예측기(Branch Predictor)가 적용되었다.[5] 분기된 예측 주소를 유지하는 BTB(Branch Target Buffer), 간접 분기에 관련된 512엔트리의 ITA(Indirect Target Array), 32엔트리의 반환 스택(Return Stack), 해시 퍼셉트론 테이블(Hash Perceptron Table)의 조합으로 구현되었으며, 신경망 기법 중 가장 기본적인 퍼셉트론 기법이 적용되어 신경망의 특징 답게 코드 상의 분기 패턴을 반복 학습하면서 분기 예측 적중률이 높아진다고 한다.특징적인 부분으로는 타 분기 예측 기법 역시 분기 예측 적중률은 신경망과 대동소이하나 목표로 하는 적중률이 어느 정도 이상 높아지면 분기 예측 회로 구현에 필요한 로직이 신경망에 비해 복잡해지면서 상대적으로 회로 구현에 필요한 투입 비용과 전력 소모가 커지고 실장 면적 역시 늘어나게 된다. 즉, 신경망 분기 예측기는 저전력 분기 예측기를 만들 때 적합하다.
AMD에서 발표한 SenseMI의 5가지 기능 중 3가지가 전력 및 클럭제어, 2가지가 코드 및 데이터 예측기법에 관련된 내용이다. 2018년 인텔 CPU 보안 버그 유출 사태에서 드러난 인텔 P6 마이크로아키텍처 계보의 모든 아키텍처(코어, 네할렘, 샌디브릿지, 하스웰, 스카이레이크)에서 캐시메모리 분기 예측 멜트다운 버그로 인해 반대급부로 주목받고 있다. 하술할 내용과 같이 젠은 인텔 코어나 Apple Silicon(A 시리즈)과는 달리 짧은 분기 예측을 반복 수행하여 효율성을 올린다. 이건 원래 하이엔드, 모바일, 서버를 동시에 노려야 하는 돈 없는 AMD의 사정이 반영된 선택이었지만, 이게 오히려 한참 앞서간 분기 예측 내용을 빼내는 멜트다운의 악용을 막는 방향으로 얻어 걸린 것이다. 그러나 신경망 분기예측과 커널/유저 단순 권한분리로 한계가 있기 때문에 아예 메인보드 칩셋과, 내부 보안칩셋부에서 메모리 암호화도 동시에 시행한다.# 또한 이 구조는 멜트다운은 막지만 스펙터는 완전하게 막지는 못하며, AMD에서도 관련 패치를 개발하고 있다.
AMD에서는 해당 기능을 ZEN 아키텍처의 클럭당 성능을 향상시키는 중요한 기능 중 하나로 소개하고 있으며, 클럭당 성능이 크게 향상된 ZEN 2 아키텍처에서도 매우 중요한 기능 중 하나로 소개하고 있다. 물론, ZEN에서 특별히 중요하게 취급된 것은 아니고, 역대 마이크로아키텍처들이 소개될 때마다 분기 예측 성능은 클럭당 성능에 있어서 중요한 존재로 강조되어 왔었다. 매번 그래왔기 때문에 이러한 정보를 매번 접한 IT 애호가들한테는 당연한 것처럼 여겨서 잊고 있었을 뿐이다.
2.4.2. 스마트 프리페치 (Smart Prefetch)
스마트 프리페치는 AMD에서 구현한 데이터 프리페치 기법을 지칭하는 단어로, 쉽게 말해 실행 코드가 필요한 크리티컬 데이터를 실행 코드에서 요청하기 이전에 미리 데이터 캐시에 적재하는 기법을 칭한다.데이터 프리페치는 비순차적 실행 기능이 도입되기 전부터 있었던 CPU의 전통적인 기능으로, 제대로 동작했을 경우 L1 데이터 캐시의 레이턴시 4클럭 이후 크리티컬 데이터의 이용이 가능하지만, 프리페치에 실패했을 경우 DRAM에 있는 크리티컬 데이터를 불러오기 위해 L1 레이턴시 + L2 레이턴시 + L3 레이턴시 + DRAM 액세스 레이턴시까지 합쳐 수십 클럭을 소모하며 크리티컬 데이터 불러올 때까지 CPU는 아무런 동작도 안 하는 상황이 된다. 따라서, 데이터 프리페치 기능은 현대 CPU 설계에도 여전히 매우 중요한 부분을 차지한다.
AMD는 스마트 프리페치의 기능을 크게 두 가지로 설명하는데, 첫 번째는 코드 선행 분석을 통한 미래 데이터 액세스 위치를 예측한다고 하고, 두 번째는 학습 알고리즘을 사용하여 데이터 액세스 패턴을 파악한다고 한다. 해당 학습 알고리즘에도 분기 예측과 같은 신경망 기법이 적용되었는지는 확인되지 않은 상황.
2.4.3. 명령어 디코드
ZEN의 명령어를 해독해 줄 디코더는 그림과 같이 클럭당 최대 4개의 x86 명령어를 디코딩할 수 있으며, 이는 이전 불도저 아키텍처의 초기 버전 및 인텔 하스웰/브로드웰 아키텍처의 클럭당 4 명령어 디코딩(4-wide, 4-way)과 동급이다.
디코딩 유닛의 큰 특징 중 하나는 x86 명령어를 이른 시기에 세부 uOP로 쪼개는 기존 아키텍처와는 달리 대부분의 x86 명령어를 고정길이의 고밀도 마이크로 연산 명령어로 변환한다는 점이며, 이러한 특징은 전력 소모 억제를 우선하는 아키텍처에서 많이 찾아볼 수 있다.
ZEN에서 마이크로 연산 명령어(μOP)의 흐름은 정수 유닛과 벡터/실수 유닛으로의 μOP 전달 포트가 통합되어 있는 인텔과는 다르게 μOP 디스패치 단에서 일찌감치 정수 μOP와 실수 μOP가 각각의 파이프라인으로 분리되어 처리된다. 이러한 분리형 파이프라인은 K7로부터 내려온 AMD의 전통적인 설계 방식으로, 정수부/실수부 각각의 명령어 스케줄러의 오버헤드를 줄일 수 있다는 장점이 있는 반면 정수부의 파이프라인에 할당된 명령어와 실수부에 할당된 명령어간의 연관성이 발생할 경우 (특히, SIMD를 지원하는 실수 벡터 연산) 그 값들을 수평 전달하기 위해서 1클럭 사이클 정도의 레이턴시를 감수해야 한다.
2.4.4. 디스패치
마이크로 연산 명령어(μOP)의 디스패치(보내기) 능력은 정수 μOP의 경우 6 μOP/clock, 실수 μOP의 경우 4 μOP/clock이다. 프론트엔드 - 백엔드 간 μOP 전송 능력만 놓고 보면 동시기 경쟁사의 아키텍처의 4 μOP/clock보다 우수한 수준. 거기에 ZEN의 μOP는 상기한 바와 같이 명령어의 밀도가 높기 때문에 실질적인 스루풋은 그보다도 더 높을 가능성이 있다. 더군다나 ZEN은 정수 μOP와 실수 μOP를 동시에 각 스케줄러로 디스패치 할 수 있으므로[6] 동시 디스패치 능력은 스카이레이크를 넘어선다. 다만 보통은 정수 명령과 실수 명령이 동시에 섞여서 들어오는 경우는 적기 때문에 현실적인 디스패치 속도는 정수부는 클럭당 6 μOPs, 실수부는 클럭당 2+4 μOPs정도이다. 벡터 명령어 위주의 실수 연산이라고 해도 메모리 입출력은 필요하기에 정수부의 로드/스토어 유닛은 실수 벡터 연산 과정에서도 비교적 바쁘게 움직인다. 다만, 코어당 2-way SMT에 의해 2개의 스레드에서 정수 명령어와 실수 명령어가 동시에 디스패치 유닛으로 들어오는 상황이라면 정수부와 실수부로의 디스패치가 동시에 수행되면서 이론상의 디스패치 속도에 근접하게 될 가능성은 있다. 실제로 ZEN의 SMT 효율은 인텔보다도 더 좋다는 의견이 대세이기도 하고.2.5. 백엔드
2.5.1. 리타이어
완료된 마이크로 연산 명령어(μOP)는 퇴출(Retire)부에서의 클럭당 최대 8 μOPs의 속도로 퇴출된다. 이는 동시기 인텔 아키텍처의 클럭당 최대 4 μOPs의 2배 수준이다. 클럭당 6 μOPs 정도인 동시 디스패치 수에 비해 동시 퇴출수가 더 많은 이유는 처리가 완료된 μOP들을 최대한 빨리 퇴출시켜야 디스패치단에서 들어오는 새로운 μOP를 위한 빈 자리를 만들면서 병목현상을 막을 수 있기 때문이다. 인텔의 경우 이와 같이 퇴출 대역폭이 넓은 구조를 2021년 출시된 엘더 레이크 프로세서에 탑재된 골든 코브 및 그레이스몬트에서 도입하게 된다. (서니 코브 및 트레몬트까지 인텔 아키텍처의 최대 퇴출 대역폭은 사이클당 4 μOPs이다.)인텔에서는 리오더 버퍼(Reorder Buffer)의 리타이어먼트(Retirement) 기능에 대응된다.
2.5.2. 정수부
정수 및 메모리 입출력 마이크로 연산 명령어(μOP)가 디스패치 유닛으로부터 클럭당 최대 6개까지 디스패치(파견)되면 레지스터 리네이밍[7] 단계를 거쳐 각 4개의 정수연산유닛과 2개의 로드-스토어 유닛에 각각 1개씩 할당된 μOP 스케줄링-큐 에 μOP가 할당된다. 각 정수 μOP 스케줄링-큐 는 μOP를 14개 엔트리에 각각 적재할 수 있으며 스케줄러는 각 큐의 엔트리에 적재된 μOP를 검사하여 비순차적 실행이 가능한 순서로 정렬하여 각 정수유닛으로 보내게 된다. 즉 개별 μOP를 어떤 정수/로드스토어 유닛에서 실행할 것인지 여부는 레지스터 리네이밍 단계에서 우선 결정되어 각 큐에 들어가고, 그 이후 스케줄러가 각 큐 내의 μOP의 실행 순서만 조정한다는 단계적 방식을 통해 비순차 μOP 동시실행을 구현하게 된다.정수 실행부의 경우 불도저의 코어당 2개 대비[8] 4개로 늘어난 정수 유닛(ALU)과 2개의 로드&스토어 유닛(AGU)으로 구성되어 4+2 구조이다. 즉, 정수 실행유닛 4개는 연산능력에 있어 역시 정수유닛이 4개 있는 하스웰 이후의 인텔 정수 실행부의 규모와 유사하다.4개의 정수 유닛은 연산기능이 거의 동일하여 대부분의 정수 명령어들을 처리할 수 있으나 예외적으로 MUL(곱셈) 연산기능 1개, DIV(나눗셈) 연산기능 1개, BR(분기명령어) 기능 2개, CRC32 연산기능 1개가 각 유닛에 분산 배치된다. 즉, 대부분의 정수명령은 1클럭당 4개씩 처리가 가능하지만 위에서 열거한 명령어들은 한 번에 1개씩 밖에 처리할 수 없으며 명령 실행 결과가 나오기 까지 수 클럭이 소모되는데 대부분의 간단한 정수 연산은 처리에 1클럭이 필요하지만 곱셈이나 나눗셈 등은 로직상의 처리가 매우 복잡하여 유닛의 설계 역시 복잡해진다. 때문에 대부분의 현대적인 슈퍼스칼라 정수 실행부 설계에서는 복잡한 명령어에 대한 실행 유닛은 1개 정도로 억제하는 경우가 많으며, 이는 다른 마이크로아키텍처에서도 일반적으로 볼 수 있는 현상이다.
2.5.3. 실수부
ZEN의 실수부는 2개의 128비트 FADD 유닛과 2개의 128비트 FMUL/FMAC 유닛으로 구성되어 초기 불도저와 유사한 2+2의 구조로 회귀하였으며, 불도저 아키텍처에서는 초기 불도저 이후 스팀롤러에서 부터는 2+1 구조로 축소되었다. 초기 불도저 아키텍처는 2개의 128-bit FMUL/FMAC 유닛과 2개의 128-bit 정수 벡터 연산 유닛(Vector ALU)으로 구성된 구조라서 뒤의 2개 유닛은 실수연산 능력이 없었던 반면, ZEN에서는 4개 유닛 모두 실수 및 실수 벡터 연산이 가능하도록 기능이 확장되었다.공식 발표된 블록 다이어그램 상의 표기 상으로는 실수 유닛의 파이프라인 구조가 2+2의 대칭 구조를 가지고 있는 것으로 되어 있지만, 실제 유닛들이 담당하는 기능은 대칭적이지 않다. 예를 들어 정수 벡터 덧셈의 경우 FPU0, FPU1, FPU3 세 유닛이 동시에 처리 가능하고 실수 벡터 덧셈은 FPU2, FPU3이 동시 처리 가능, 실수 벡터 곱셈은 FPU0과 FPU1이 실행하게 되어있는 등 사실상 비대칭이며 이는 차라리 기존 K7/K8/K10에서의 실수 유닛의 구조였던 FADD/FMUL/FMISC의 비대칭 구조의 확장에 가깝다.
ZEN의 실수부가 이렇게 비대칭적 구조를 가지고 있어도 연산에 필요한 레이턴시나 실제 코드에서의 명령어 혼입을 고려하면 최대 동시에 128-bit 데이터 폭으로 명령어 4개를 수행하는 것이 가능하며 이는 하스웰 이후의 인텔 아키텍처 실수부의 2+1 구조의 256-bit 실수 벡터 유닛의 연산 능력과 비교해도 연산 대상과 그 시나리오에 따라 앞서거니 뒷서거니 할 수 있는 수준으로 예상된다. 예를 들어, 코드 내 명령어들이 SSE 명령어에 치중되었을 경우, ZEN은 최다 4개 명령어를 실행 가능한데 비해, 인텔은 최다 3개만 실행 가능하며 실질적인 아웃풋은 오히려 ZEN이 유리하게 된다. 반면, 코드가 AVX2 명령어에 치중되었다면 ZEN은 AVX2 명령어를 SSE로 쪼개어 2번에 걸쳐 실행해야 하므로 최대 2개 명령을 실행할 수 있는데 비해 인텔 아키텍처는 최다 3개씩 실행할 수 있다.
6개로 분할된 정수부의 명령어 스케줄링 큐와는 달리 실수부의 명령어 스케줄링 큐는 단일 구조의 스케줄러로 이루어져 있으며 해당 스케줄링 단계에서 4개의 실수 유닛이 선택되어 실행 μOP 포트를 통해 공급되는 구조이다. 스케줄링 큐 내의 총 엔트리 수는 36개이다.
독특하게도 실수부의 명령어 큐는 스케줄링 큐와 논-스케줄링 큐의 2단계로 분리되어 있는데 굳이 단계만 차지하는 듯 보이는 논-스케줄링 큐는 μOP의 전달을 일률적으로 지연시켜서 정수부의 로드/스토어 유닛에서 로드되는 메모리 값들이 실수부 레지스터로 전달되는 타이밍을 맞추기 위해서라고 한다.
2.5.4. 로드/스토어 유닛
정수부에 포함된 메모리 액세스를 위한 메모리 어드레스를 계산하는 2개의 AGU(Adress Generation Unit)와 그에 연계된 2개의 로드/스토어 유닛을 통해 메모리 로드/스토어 명령을 처리하며 클럭당 2개의 로드 명령어를 동시에 실행, 혹은 스토어 명령어를 동시에 실행할 수 있다. 해당 유닛은 정수부에 소속되지만, 실수 유닛에 필요한 메모리 내용을 읽기/쓰기 하는 역할도 하므로 2개의 유닛이 클럭당 2개의 128-bit 값을 메모리로부터 읽을 수 있으며 쓸 때에는 1개의 유닛이 1개의 128-bit값을 쓸 수 있다.로드/스토어 유닛의 데이터폭 크기가 굳이 128-bit인 이유는 실수 벡터 연산을 지원하는 4개의 실수 유닛의 처리 폭 자체가 SSE 계열 명령어가 사용하는 XMM 레지스터의 데이터폭 128-bit로 제약되기 때문이다.
해당 부분을 하스웰 이후의 인텔 마이크로아키텍처와 비교하면 인텔의 경우 ZEN과 유사하게 2개의 로드+스토어 유닛을 가지고 있으나 그에 더하여 상황에 따라 제한적으로 사용할 수 있는 스토어 유닛 2개가 더 추가되어 ZEN의 2개 구조와 다른 2+1+1개 구조를 가진다. 즉 메모리 로드/스토어 명령어 처리에 있어서는 ZEN 대비 상당한 우위가 예상된다.
그에 더해 하스웰 이후부터의 인텔의 실수 벡터 연산 유닛은 AVX/AVX2 명령어 레지스터폭에 맞게 유닛당 256-bit까지 증가하기 때문에 2개의 로드&스토어 유닛이 각각 256-bit의 메모리 데이터를 로드하여 클럭당 총 512bit를 레지스터로 로드할 수 있다. 이는 ZEN 대비 2배의 입출력 대역폭이다. 다만 메모리 입출력 대역폭이 2배라고 해서 전체 연산속도가 2배는 아닌 것이 기본 레지스터폭이 256-bit인 AVX 계열 명령어 처리에서 조차도 메모리-메모리간 연산에 비해 레지스터-레지스터간 연산이 비율이 높아질 경우 실제 메모리 입출력 빈도는 그만큼 낮아지게 된다.
2.6. 캐시 메모리 및 계층 구조
불도저 대비 전반적인 캐시 레이턴시와 대역폭이 개선되었다. L1/L2 캐시 메모리의 레이턴시가 개선되어 FPU 명령에 필요한 데이터 로드 레이턴시는 9사이클에서 7사이클로 2사이클 개선, L1/L2 캐시 메모리의 대역폭은 거의 클럭당 32 바이트로 거의 2배로 증가하고, L3 캐시 메모리의 대역폭 역시 클럭당 32 바이트인데, 이는 거의 5배로 개선된 수치이다.캐시 메모리 용량과 캐시 배치 정책을 보면 L1-명령어 캐시가 64 KB에 4-way set associative 구조이고, L1-데이터 캐시가 32 KB에 8-way set associative 구조로 확대 되었다. L2 캐시는 총 512 KB에 8-way set associative 구조이다.
캐시 포함 정책은 인텔과 유사하게 uOP 캐시 + non-inclusive L1 캐시 + inclusive L2 캐시를 채택하였다. μOP 캐시의 경우 인텔의 μOP와 동일한 역할을 하지만 방식이 약간 다르다. 인텔의 경우 L1 캐시가 μOP 캐시를 포함하는 inclusive 방식이지만 ZEN의 L1 캐시는 μOP 캐시의 내용을 담고 있지 않는다. 또한 모듈 설계의 영향으로 두 개의 정수부 코어가 공유하던 L2 캐시 역시 코어마다 독립적으로 할당되며, 캐시 쓰기 정책은 전작인 불도저의 비효율적인 write-through 방식에서 벗어나 write-back 방식을 채택하였다.
L3 캐시 메모리는 인텔의 스마트 캐시 메모리처럼 AMD는 이를 '게임 캐시 메모리'라는 이름으로 부르고 있다. CCX(Core Complex)당 8 MB에 16-way set associative로, CCX 내의 4개 코어가 공유한다. 캐시 포함 정책은 이전과 마찬가지로 non-inclusive 방식인데 (구체적으로는 victim 방식) L2 캐시 메모리 영역의 내용이 갱신되면서 퇴출된 데이터들이 L3 캐시 메모리 영역으로 밀려나며, 자연스럽게 L2 캐시 메모리의 데이터와 L3 캐시 메모리의 데이터가 서로 중복되지 않는다. 이 때문에 ZEN의 개발사인 AMD는 CCX 내의 캐시 메모리 용량을 코어 당 1개씩 할당된 512 KB L2 캐시 메모리와 8 MB의 L3 캐시 메모리를 합쳐 10 MB의 L2 + L3 캐시 메모리 용량으로 소개하고 있다. 불도저 아키텍처에서도 사용했던 방식이지만 상술한 바와 같이 대역폭은 5배로 증가하면서 기존의 대역폭 약점은 사라진 상황.
특히 4코어로 이루어진 CCX 내에서 공유 캐시 메모리 역할을 하는 L3 캐시 메모리 8 MB는 8개의 1 MB 캐시 메모리 조각들로 각각 분할하여 하위 메모리 어드레스 기준으로 interleaving 기법을 사용하여 각 코어에서부터 L3 캐시 메모리까지의 평균 레이턴시를 거의 동일하게 만들었다.
이러한 캐시 메모리 계층 구조에서 ZEN 특유의 구조가 나오는데, L3 캐시 메모리가 코어를 중심으로 둘러싸는 기존의 코어들과는 달리, ZEN은 각 CCX에서 코어가 L3 캐시 메모리를 중심으로 둘러싸는 코어를 양쪽에 붙여 둔 구조가 나온다. 요컨대 L2 캐시 메모리에서 넘쳐나 흘러들어온 데이터를 다른 코어에서도 최대한 끌어 쓸 수 있도록 조치를 해둔 것인데, 전통적으로 코어 양 옆에 L3 캐시 메모리를 배치하는 방식을 사용하면 NUMA 특성상 한 코어가 다른 코어의 L3에 접근하기까지 시간이 너무 오래 걸리기 때문에 이를 해결하기 위한 대안이라 할 수 있다. 대신 그만큼 코어 간의 간격이 벌어지고 서로 다른 CCX에 있는 데이터는 인피니티 패브릭이라는 인터커넥트를 통해서 주고받아야 하기 때문에, 게임 등 레이턴시가 중요한 작업에서 ZEN의 발목을 잡는 부분이라고도 할 수 있다. 하지만 어쨌든 불도저의 끔찍한 캐시 메모리 계층 구조와는 비교할 수 없을 정도로 장족의 발전을 이루었으며, 향후 세대에서 가장 큰 발전을 기대할 수 있는 부분이기도 하다.
2.7. 코어당 2-way SMT (양방향 동시 멀티스레딩)
ZEN에는 AMD 최초로 인텔의 Hyper-Threading 기술과 같은 방식인 코어당 양방향(2-way) SMT 기능이 구현되었다.[9] 양방향 SMT 자체는 불도저 마이크로아키텍처부터 부분적으로나마 도입된 적이 있었지만, 인텔의 하이퍼스레딩처럼 완전한 양방향 SMT라고 보기 어려운 CMT(Clustered Multithreading)였기[10] 때문에, 제대로 된 양방향 SMT로써는 ZEN부터라고 볼 수 있다.ZEN 내부의 모든 구조들은 단일 스레드 모드에서 빠짐없이 사용 가능하며 프론트-엔드 큐 는 라운드-로빈 방식으로 각 구조들의 사용 순서를 결정하며 필요할 경우 순서를 오버라이드 할 수도 있다.
ZEN의 코어당 양방향 SMT 효율은 Cinebench R15 멀티스레드 모드에서 측정한 결과 실행 속도가 약 40.6% 향상되어 2002년 Foster MP 계열 제온, Prestonia 계열 제온, 펜티엄 4 HT 3.06 이래로 15년 동안 지속적으로 개발해 온 인텔 하이퍼쓰레딩의 15~30%보다도 오히려 효율이 앞서게 되었다. 그 결과 처음으로 코어당 양방향 SMT를 개발 했음에도 불구하고 굉장히 잘 만들었다는 평가가 주류를 이루고 있다.
2.8. 인피니티 패브릭 인터커넥트
ZEN 기반의 칩 내 인터커넥트는 2000년대부터 갈고 닦았던 기존의 Hyper-Transport를 기반으로 재창조하다시피 갈아엎은 Infinity-Fabric(이하 IF)을 사용하게 된다. IF의 경우 AMD가 심혈을 기울여 만든 칩내 혹은 칩간 인터커넥트 규격으로 여러 종류의 연결 토폴로지를 망라하여 지원하며, 입출력 대역폭 역시 메인 메모리 입출력 조차도 무리없이 수용할 수 있도록 IF 클럭이 메인 메모리 클럭에 동기화 되어있다. 또한, Control-Fabric과 Data-Fabric으로 분리되어 저레이턴시-저대역폭 제어 통신은 Control-Fabric이 담당하고 대량의 데이터의 고대역폭은 Data-Fabric이 담당하는데, 칩 내부 뿐만 아니라 소켓내 칩간 연결, 그리고 소켓간 연결에도 일관적으로 사용되어 ZEN 아키텍처의 특징적인 MCM 구조를 확립하는데 큰 역할을 하고 있다.IF 클럭이 메인 메모리 클럭에 동기화 되어있다는 것이 달리 말하면 메인 메모리 성능빨을 많이 탄다는 의미이기도 하다. 그래서 라이젠의 성능을 제대로 뽑아내려면 램 오버클럭을 할 수밖에 없다. 캐시 메모리 클럭에 동기화된 인텔의 링 인터커넥트와 대조적인 부분. 이러한 특성 때문에 인터커넥트 대역폭도 성능에 영향을 줄 수밖에 없는데, 그래픽 카드를 많이 활용하지 않고 CPU에 의존하는 렌더링 또는 인코딩 작업에서는 순전히 CPU의 클럭과 클럭당 성능이 조합된 성능만큼만 보여주지만, 그래픽 카드를 적극적으로 이용하는 게임에서는 그래픽 카드가 지니는 PCIe 대역폭만큼 인터커넥트 대역폭을 할당하기 때문에, 안 그래도 느린 대역폭인 AMD의 IF 인터커넥트의 여유 대역폭이 더욱 부족해져 게임 성능이 렌더링 또는 인코딩 성능보다 더 떨어질 수 있다.
이렇다 보니, 인텔과 같은 CPU 코어 클럭으로 맞춰도 클럭당 게이밍 성능이 클럭당 렌더링 또는 인코딩 성능보다 현저히 떨어지는 원인 중에 하나로 꼽히고 있다. 싱글스레드 비중이 큰 게임에서는 ZEN의 클럭당 게이밍 성능이 인텔의 브로드웰급이 아니라 샌디브릿지~아이비브릿지급에 가깝고, 특히 잦은 프레임 드랍인 스터터링을 어느 정도 가늠할 수 있는 하위 1% 평균 프레임 레이트 기준으로는 샌디브릿지보다도 못 할 수도 있을만큼 고성능 게이밍용으로는 아쉬울 수밖에 없다. 다행히 그래픽 카드 요구 사양이 높으면서 멀티스레드 활용도가 높은 고사양 게임이라면 8코어 16스레드 덕분에 인텔 CPU와의 게이밍 성능 격차를 줄일 수 있다.
다만, 메인 메모리 클럭에 동기화하는 방식이 반드시 단점만 있는 것만은 아니다. 오히려 메인 메모리 클럭에 동기화되기 때문에 꾸준히 클럭이 상향되는 DDR 계열 SDRAM의 JEDEC 표준 규격에 따라 IF 클럭도 상승되고, DDR4 SDRAM에서 DDR5 SDRAM로 크게 바뀌면 IF 클럭도 그만큼 큰 폭으로 향상되는 장점이 있다. 거기에 CPU의 PCI-Express 버전에 따라 향상될 수 있음을 고려하면 엄청난 잠재력인 셈이다! 하지만, DDR5 SDRAM이 먼저 도입된 인텔의 12세대 코어 i 시리즈(엘더 레이크)가 메모리 컨트롤러와 메모리의 1:1 클럭 도메인으로 작동하는 것 자체가 불가능해지면서,[11] AMD도 그렇게 따라간다면 DDR5 SDRAM의 고클럭만큼 게임 성능 향상을 기대하기 어렵게 되었다.
2017년 시점에서 인텔의 링 인터커넥트가 AMD의 IF 인터커넥트보다 훨씬 더 빠른 대역폭을 보여주는 것은 부정할 수 없는 사실이다. 하지만 캐시 메모리 클럭도 결국엔 CPU 코어 클럭에 영향을 받는데다 코어 클럭이 너무 높으면 소비 전력이 너무 높아져 이를 완화하기 위해 캐시 메모리 클럭을 낮추는 꼼수로 지속될 수 있으므로 정작 인터커넥트 대역폭을 결정하는 캐시 메모리 클럭이 정체되어 CPU의 PCIe 버전이 업그레이드되기 전까지는 링 인터커넥트 대역폭도 정체될 수 있는 한계가 드러날 것이다.
2.9. SenseMI
ZEN의 클럭 및 전력 제어 구조는 아래의 3개 기능을 이용한다. 해당 기능을 위해 ZEN의 내부에는 수백개의 관련 센서가 내장되어 있으며 해당 센서는 Infinity Fabric 중에서 Control Fabric을 통해 제어된다.ZEN 코어를 특징짓는 굉장히 특이한 기능 중 하나로, 겉보기에는 세 기능이 연동되어 인텔의 터보부스트와 비슷한 작업을 하고 있으나 실제로는 정책상의 중요한 차이가 있다. 터보부스트가 작업이 많아지면 이에 따라 순차적으로 작업량과 발열량을 고려하여 클럭을 올리는 방식인 데에 반해, 젠 코어의 클럭 조정은 프로세스가 들어왔을 때 프로세스의 규모와 각 클럭의 상태를 확인한 후 가능한 코어를 선택해 클럭을 즉시 높이 올려 프로세스를 최대한 빨리 처리한 후 저클럭으로 즉시 돌아오는 것을 원칙으로 한다.
상당히 희한한 방식이고 클럭이 오르내리는 간격도 대단히 짧기 때문에 윈도우 작업관리자 등의 시스템 확인 프로그램에서도 올라간 클럭만 찍혀서 나오고 기본 클럭이 나오지 않는 버그가 있다. 때문에 실제로 확인하는 가장 좋은 방법은 온도를 확인하는 것으로, 굉장히 간단한 작업에도 온도가 잠깐 8~10도 정도로 큰 폭으로 올랐다가 바로 다시 내려오는 현상을 확인할 수 있다.
서밋 릿지 런칭 전후로 이 기능이 사실상 CPU를 자동으로 오버클럭 해준다는 이야기가 돌았으나, 당시에는 프리시전 부스트 기능이 미흡하여 이런 기능을 제대로 수행하지 못했다. 그러나 피나클 릿지에서는 프리시전 부스트의 클럭 곡선이 완만하게 변경되고 XFR 기능이 더 높아진 클럭 상한선과 맞물리며 실제로 괄목할 만한 수준의 자동 오버클럭을 가능하게 해 라이젠 CPU의 경쟁력에 기여하고 있다.
2.9.1. Pure Power
동일 클럭에서 낮은 전력소모를 목표로 한 전력제어 기능이다. 각 부분의 온도/클럭/전압을 모니터링 하여 최적 전압을 설정하여 전력소모를 낮춘다. Precision Boost기능과 연계하여 동작한다.2.9.2. Precision Boost
동일 전압에서 보다 높은 클럭을 목표로 한 전력제어 기능이다. 역시 각 부분의 온도/클럭/전압을 모니터링 하여 해당 전압에서 뽑아낼 수 있는 최대 클럭을 설정한다. 단 해당 단계에서는 스펙상의 부스트 클럭이 클럭 한계이다. 터보 부스트와는 달리 0.25 GHz 단위로 작동하며, 상술한 이유로 터보부스트에 비해서 클럭을 공격적으로 잡는 특성을 지닌다.2세대에 들어와 고급형 X370/470 보드에 프리시전 부스트 오버드라이브(PBO)라는 기능이 생겼는데 이 PB 기능의 기본 정책을 변경하는 기능이다. 젠 코어가 PB를 운용할 때 원래는 모든 메인보드에서 안전하게 사용할 수 있도록 온도만 감안하는 것이 아니라 일정한 수준의 전력 및 전류를 넘어가지 않게 설정되어 있는데, 이 제약을 사실상 풀어버리고 온도 지표만을 가지고 클럭을 조정하게 만드는 것이다. 충분하고 안정적인 전류를 공급할 수 있도록 전력 공급 구성을 잘 해둔 보드와 함께 사용하면 상당한 수준의 올코어 오버클럭과 함께 XFR까지 함께 사용할 수 있어 돈 값을 톡톡히 해 준다.
2.9.3. Extended Frequency Range(XFR)
최대 클럭에서도 온도가 낮다면 오버클럭을 통해 추가로 클럭을 증대시키는 기술. non-X 모델과 X 모델 모두 지원하나 non-X 모델의 경우 X모델에 비해 제한적이다. 그 이상의 클럭을 원한다면 사용자가 수동으로 오버클럭을 해야한다.2.10. 명령어 셋
2.10.1. 추가 및 삭제
CLZERO 등 일부 명령어셋이 추가된 반면, FMA4 확장 명령어셋 XOP 명령어셋 등 AMD가 독자적으로 만들던 3DNow!, SSE5의 일부 명령어셋은 지원이 중단되었다. 해당 명령어셋의 지원 추가와 중단은 다음 링크에서 확인해 볼 수 있다.#지원이 중단된 명령어셋은 AMD가 인텔의 SSE4에 대응해 추가하기는 했지만 인텔의 시장지배력에 밀려 사실상 사장된 명령어들이기 때문에 비록 지원이 중단 되어도 기존 바이너리와의 명령어 호환성 문제는 없을 전망이다. 예를 들어 FMA4 명령어셋은 AVX 레지스터를 대상으로 한 4-오퍼랜드 실수벡터연산 명령어인데 ZEN의 실수/벡터유닛의 구조상 레지스터파일이 3-오퍼랜드까지만 대응이 가능하다. 결국 4-오퍼랜드 명령어라고 해도 uOP로 변환되는 과정에서 3-오퍼랜드 명령어 1개와 FMOV명령어 1개로 분리되어 순차 처리되면서 결국 기존의 FMA3의 3-오퍼랜드 명령과 처리속도의 차이가 없게 된다. 처리속도 차이는 없는데도 불구하고 디코더 입장에서는 FMA4 명령을 처리하기 위한 기능까지 떠안게 된다. 즉 ZEN에서의 FMA4 명령어는 속도상의 이득은 없으면서 디코더만 더 복잡하게 만드는 요인이 되므로 삭제한 것으로 보인다.
또한 지원은 중단되었지만 아무래도 AMD CPU다 보니 기본적으로 디코더에 포함된 것으로 보인다. 강제로 FMA4 명령어를 사용한 연산을 명령하면 잘 수행된다.# 단 지원 중단을 선언했으니 후속 아키텍처에서는 제거될 것으로 추정된다.
대신 인텔의 SSE 후속 명령어셋인 AVX를 인텔처럼 AVX2까지 확장하였고 ZEN 4 이후엔 AVX-512까지 도입되었다.
2.10.2. 가상화 기술
가상화 기술의 이름이 AMD-V에서 SVM으로 변경되었다. 기본값이 꺼짐이어서 VMware나 VirtualBox 등이 제대로 작동되지 않아 혼돈의 카오스를 겪기 일쑤이므로 가상머신을 쓸 일이 있다면 UEFI로 들어가서 무조건 켜 놓자.2.11. 제조 및 생산
2015년에 발표된 GlobalFoundries의 14 nm FinFET인 14LPP 공정으로 제조 및 생산되었다. 삼성의 14LPP 공정과 같은 이름인데, 삼성에서 돈 내고 가져온 것으로 삼성의 14LPP 공정이라고 부르는 것도 틀린 표현이 아니다.2.12. 기대와 우려
2.12.1. 출시 이전
출사 이전 정보들을 종합하면 ZEN에서 기대할 수 있는 부분과 우려할 만한 부분은 다음과 같다.- 기대
- 2005년 5월부터 2007년 11월까지 주력 제품군이었던 K8 아키텍처 기반의 애슬론 64 X2 시리즈 이후 10년만에 인텔과 제대로 경쟁할 수 있는 제품의 출시.
- AMD CPU를 괴롭혔던 미세 공정 경쟁의 열세에서 벗어나면서 동급의 14nm 공정 달성.
- 일반 PC시장 최초로 인텔의 개인 사용자용 4코어-8스레드 제품 대비 차별화된 8코어-16스레드 제품의 도입.
- 라이젠 7이 인텔의 익스트림 모델과 비견 될 성능을 보여주면서도 최대 $499 이하 가격의 라인업을 갖춘, 하이엔드급에서의 뛰어난 가성비.
- 파운드리 협력 업체로 14nm FinFET공정을 빠르고 안정적으로 개발한 삼성 S.LSI와 GlobalFoundries를 선택하여, 안정적이며 저렴하고, 앞전 Polaris 14nm FinFET 생산으로, GF/S.LSI가 두번째로 내놓는 PC에 탑재되는 14nm FinFET 제품의 성능 저하의 우려가 사라짐.[12]
- 우려
- 8코어-16스레드 제품은 인텔 역시 이미 제온 및 HEDT 제품군을, 2018년 4분기부터는 컨슈머용 제품군까지 공급하고 있으므로 경쟁하면서 만약 인텔이 가격을 저렴하게 인하할 경우 차별성 있는 포인트가 사라질 우려.
2.12.2. 출시 이후
평가- 전반적인 성능은 출시 이전의 기대 수준 혹은 그 이상으로 나왔다는 평가가 대부분이다. 비록 스카이레이크나 그 이후의 인텔 경쟁제품 대비 클럭이나 클럭당 성능은 근소하게 뒤지지만 전성비 면에서 명확한 우위, 특히 레거시 실수연산이나 SSE 명령어 연산 성능은 오히려 앞서는 편.
- 14nm 공정의 우열은 클럭성능에서는 인텔 대비 열세로 4GHz가 한계이다. 높은 오버클럭 잠재력을 지닌 인텔CPU 대비 단점임이 분명하나, 3GHz대 영역에서의 전성비는 매우 뛰어나 라이젠 7 1700의 경우 8코어 제품인데도 TDP는 65W에 불과하다.
- 일반용인 8코어-16스레드, HEDT용인 16코어-32스레드, 서버용인 32코어-64스레드 제품은 상대적으로 저렴한 가격과 차별화된 상품성에 힘입어 소비자들의 높은 관심을 받으며 시장에 안착했다. 이로 인해 인텔은 기존의 HEDT 제품 라인업에서 대대적인 수정을 거쳐 18코어-36스레드까지 지원하는 코어-X 시리즈의 i9 라인업을, 서버 제품은 28코어-56스레드까지 지원하는 제온 시리즈의 스케일러블 프로세서를 도입해야만 하는 처지가 되었다.
- 파운드리의 서밋릿지 다이의 수율은 80%에 달한다는 루머가 공개되었다. 최소한 공급망 이슈가 없는 것으로 봐서 양산이 순조로운 상황이라는 예상은 가능하며 파운드리의 생산능력도 입증되었다고 볼 수 있다.
- 서밋릿지 다이 수율이 80%라는 이야기와 함께 다이 활용률은 99%에 달한다는 주장도 같이 공개되었다. 수율이 너무 좋아서 코어 절반을 죽여서 판매하는 라이젠 3 제품군 라인업의 출시가 늦어지게 된 것이 아니냐는 추측이 나돌 정도.
- 인텔의 공급가 인하 카드는 간접적으로나마 일부는 구체화된 상황이다. 대표적인 예가 데스크탑용 8세대 코어 i7과 i5 라인업에 6코어를 전면에 내세운 커피레이크.
- 멜트다운 취약점이 없다. 그나마 남아 있는 보안 취약점 중에 한 종류인 스펙터의 경우 Zen과 Zen+에는 마이크로코드 패치가 되었다고 하며, 후속 마이크로아키텍처인 Zen 2에서 근본적으로 해결된다고 한다.
기대
- ZEN 아키텍처는 AMD에서 백지 상태에서 개발하여 갓 출시된 아키텍처라서 오랜 기간 동안 개선을 거듭해 온 인텔 아키텍처에 비해 상대적으로 추후 성능향상의 여지가 크다.
- ZEN을 개발한 개발진이 14nm LPP 공정과는 처음 협업하는 것임에도 불구하고 큰 무리 없이 4.0GHz까지의 클럭을 달성하는 데 성공했고, 더욱 고성능인 12nm에서는 4.4GHz까지 달성했으며, 7nm 공정에서는 공정 자체의 성능 향상과 업무숙련도 향상이 시너지 효과를 내면서 더 좋은 결과를 내 줄 가능성이 있다.
- 현존하는 소프트웨어 코드들은 당연하게도 새로 출시된 ZEN의 마이크로아키텍처 구조에 최적화되지 않은 반면 샌디브릿지 이후로 점진적인 확대전략을 써 온 인텔 마이크로아키텍처에 적합하게 만들어졌다. 즉 차후 SW수준의 최적화가 진행되면서 기대할 수 있는 성능 향상폭은 인텔 아키텍처보다는 ZEN아키텍처에서 더 높아질 것으로 기대할 수 있다. 물론 ZEN의 시장 점유율이 신통치 않다면 SW최적화의 수혜를 받기 어렵겠지만 현재 ZEN 기반의 RYZEN 제품이 특히 강세를 보이는 부분이 다름아닌 바로 그 고성능이 필요한 하이엔드 시장이므로 SW최적화에 대한 전망은 전반적으로 긍정적이다.
- 마이크로아키텍처의 개선 역시 충분히 기대해 볼 만 하다. ZEN의 아키텍처가 최고는 아니지만 전반적으로 균형이 잘 잡혀 나왔기 때문에 동시 명령어 디코딩 숫자 증대나 레지스터파일 증가 등 전형적으로 사용되는 성능향상책을 적용하더라도 안정적인 성능 향상이 가능할 것으로 전망된다.
- 4-way 실수/벡터 유닛 구조는 레거시 x87에서부터 최신의 AVX2까지의 명령어들을 무리없이 실행할 수 있는 범용성이 높은 아키텍처이지만 AVX2와 같이 고도로 데이터가 병렬화된 명령어셋에 대해서 스루풋이 절반으로 떨어진다는 문제점을 가지고 있다. 이러한 문제점을 해결하기 위해 현재의 비대칭적인 유닛 기능을 점차 대칭적으로 확장하여 벡터연산 명령어의 스루풋을 높이면서도 레거시 명령어의 실행능력도 유지하는 방향 역시 기대할 수 있을 것이다.[13]
3. 코드네임
3.1. Whitehaven
자세한 내용은 AMD RYZEN 1000 시리즈 문서의 Whitehaven 부분을
참고하십시오.3.2. Summit Ridge
자세한 내용은 AMD RYZEN 1000 시리즈 문서의 Summit Ridge 부분을
참고하십시오.3.3. Raven Ridge
자세한 내용은 AMD RYZEN 2000 시리즈 문서의 Raven Ridge 부분을
참고하십시오.3.4. Dali
살바도르 달리에서 이름을 따왔다.2020년 1월 출시. #
2 코어 2 ~ 4스레드 정도를 갖춘 저전력 모델. 인텔 노트북 CPU의 Y 시리즈에 대항하는 저전력 라인업이다.
주로 500 USD 이하의 저가 노트북과 크롬북에 적용되는 중이다.
2020년에 Zen 코어라서 성능은 별로지만, 2021년 도입될 반 고흐에 앞서 나온 모델이다.
AMD 내부 명칭 Family 17h Model 20h.
1세대 라이젠 모델 중 유일하게 Windows 11의 공식 지원을 받을 수 있다.
3.5. Pollock
자세한 내용은 AMD ZEN 기반 마이크로아키텍처를 사용하는 기타 CPU 문서의 Pollock 부분을
참고하십시오.3.6. Great Horned Owl
3.7. Banded Kestrel
2019년 4월 출시. #2코어 4스레드의 저전력 파생형 모델. Ryzen Embedded 라는 명칭으로 판매되었다.
화가 이름인 노트북 라인업과 달리, 줄무늬 황조롱이라는 새의 이름을 라인업에 가져왔다.
시놀로지 # 및 QNAP # 의 2021년 NAS(저장장치) 라인업에 V1500B 제품군이 적용되어 있다. ZEN 코어의 특징으로 ECC 메모리를 지원하는것이 특징.
3.8. Naples
코드네임은 나폴리에서 따왔다.- 2017년 6월 20일 출시
- LGA 4094핀 타입의 SP3 소켓, 최대 2소켓까지 지원[14]
- 라이젠에 사용됐던 2CCX 다이 4개가 MCM(Multi-Chip Module)으로 결합되어 최대 32코어 64스레드를 지원[15]
- 최대 32×512 KB의 L2 캐시 메모리와 8×8 MB의 L3 (공유) 캐시 메모리
- 128개의 PCI-Express 3.0 레인 지원[16]
- 최대 2666 Mbps EEC 메모리 비트레이트, 최대 8개의 메모리 채널, 채널당 2개의 DIMM을 지원해 총 16개의 메모리 뱅크를 지원
- CPU 1개당 최대 2 TB의 메모리 지원
3.9. Snowy Owl
- 2018년 2월 21일 출시
- BGA 타입의 SP4 소켓, SP4r2 소켓
- SP4 소켓 기준
- 2CCX 다이 2개가 MCM으로 결합되어 최대 16코어 32스레드를 지원
- 최대 16×512 KB의 L2 캐시 메모리와 4×8 MB의 L3 (공유) 캐시 메모리
- 64개의 PCI-Express 3.0 레인 지원
- 최대 2666 Mbps EEC 메모리 비트레이트, 최대 4개의 메모리 채널, 채널당 2개의 DIMM을 지원해 총 8개의 메모리 뱅크를 지원
- CPU 1개당 최대 1 TB의 메모리 지원
- SP4r2 소켓 기준
- 2CCX 다이 1개만 실장되어 최대 8코어 16스레드를 지원
- 최대 8×512 KB의 L2 캐시 메모리와 2×8 MB의 L3 (공유) 캐시 메모리
- 32개의 PCI-Express 3.0 레인 지원
- 최대 2666 Mbps EEC 메모리 비트레이트, 최대 2개의 메모리 채널, 채널당 2개의 DIMM을 지원해 총 4개의 메모리 뱅크를 지원
- CPU 1개당 최대 512 GB의 메모리 지원
4. 공개 전 소문
자세한 내용은 AMD ZEN 마이크로아키텍처/공개 전 루머 문서 참고하십시오.5. 기타
5.1. 발매 초기의 각종 논란들
한때 발매 초기에 바이오스 최적화 문제가 대두되었었다. 퀘이사존, 플레이웨어즈, 쿨엔조이, 닥터몰라[17] 벤치마크들을 놓고 보면 이들의 성능 차이가 매우 큰데, 이는 메인보드 회사별로 라이젠의 최적화 수준이 다르다는 점으로 생각해 볼 수 있다. 결국 선 물량이 풀린 3월 2일 기점[18]으로 유저들 사이에서도 메인보드별로 벤치마킹이 들쑥 날쑥하는 일이 벌어졌고, 같은 칩셋이라도 메인보드 제조사에 의해 성능값이 심하면 30% 이상의 차이가 나는 것이 밝혀짐에 따라 초기 유저를 베타테스터로 아냐는 불만이 폭주했었다. Reddit에서 진행하는 AMA에 의하면 # 초기 메인보드의 바이오스는 쓰지 않는 기능을 끄는 것이 코어도 같이 파킹하거나 메모리 클럭을 설정하면 부스트 클럭이 작동하지 않는 등의 문제가 있었고, HPET(High Precision Event Timers)를 비활성화하고, 전원 옵션을 고성능으로 설정하면 나아진다고 한다.- HPET를 비활성화 하면 한 때는 AMD에서 제공하는 라이젠 오버클럭 유틸리티, 라이젠 마스터를 사용할 수 없었으나, 2017년 4월 7일 공개한 라이젠 마스터 v1.0.1 및 AGESA 1.0.0.4 기반 메인보드 바이오스로 업데이트 하면 HPET를 비활성화 해도 라이젠 마스터를 쓸 수 있게 개선됐다.#
- 사실 HPET는 메인보드 설정에서 활성화해도 윈도우에서는 비활성 되어있는 게 윈도우 8 이후 기본값이며, 이 상태에서도 대응 프로그램은 따로 사용할 수 있다.#(댓글 참고). 수동 설정을 요구한 게 그냥 AMD 삽질인 셈
- 전원 옵션은 윈도우측 대응 미비로, 이후 AMD 칩셋 드라이버에 전용 프로파일을 포함하여 해결되었으며, RS4에 가서야 윈도우 자체적으로도 대응이 완료된다.#"Win10 RS4가 발매되었을 때, RS4에 대한 잡담을 Ryzen에서 게임 성능을 향상시키는 것을 본 적이 있을 것이다. 이 사람들은 거의 확실히 AMD 칩셋 드라이버를 설치하지 않았기 때문에, OEM 균형 계획에서 코어 파킹의 불능화는 그들에게 Ryzen Balanced Plan이 그들에게 줄 수 있는 성능을 향상시키는 것이다."
또 다른 문제로는 오버클럭 잠재력이 매우 낮다는 것. 앞서 서술된 것처럼, 발매 전 똑같이 액체질소 냉각으로 올코어 5GHz 이상의 극한오버를 시도했을 때 6900K에 비해 0.2V 정도의 코어 전압이 더 들어가던 모습이나, 시연회에서 4.1GHz를 시도하다 다운된 해프닝에서 오버가 쉽지 않아 보인다는 전망이 있었고 결국 이런 우려들이 현실이 되었다. 각종 리뷰나 초기 구매자들의 사용기에 따르면 레이스 쿨러 사용시 3.8GHz, 보다 상위권 쿨러 사용시 4.0GHz가 한계이며 솔더링 때문에 온도는 양호한 편이나 무시무시한 전압으로 인해 저 위로는 시도가 어렵다. 여기에 더해 몇몇 리뷰에서는 최하위권 제품인 1700이 상위권 제품인 1700X / 1800X와 비슷한 클럭까지 오버가 되거나 되레 더 높은 클럭까지 오버가 가능한 모습을 보여주며 상당수 유저들의 어이를 날려버렸다. 이 쪽에 관해서는 차후 더 많은 표본을 살펴봐야 알 수 있을테지만, 해당 벤치마크를 접한 이들의 상당수는 1700를 선택하는 쪽으로 가는 듯.
현재 이슈가 되고 있는 SMT에 의한 게이밍 성능 문제는 설계 자체는 문제가 없으나 일부 개별 소프트웨어에서 논리적 코어를 전부 물리 코어로 인식해서 태스크 할당에 문제가 발생해 제 성능을 내지 못하는 것으로 예상되고 있다.[19] 실제로 SMT를 끌 경우 약 10%의 성능 향상이 있었으며 SMT 이슈가 해결된 리눅스에서 또한 10%의 성능 향상이 있었다고 한다. 이에 대해 일부는 윈도우 10의 스케줄러를 의심했으나 AMD는 이에 대해 스케줄러에는 이상이 없다고 말했다.# 라이젠 출시 초시 하드웨어 포럼 커뮤니티에서 제기했던 Coreinfo의 논리 스레드를 물리 코어로 인식했던 현상 역시 Coreinfo의 문제이며 이 문제가 해결된 V3.31 버전 이후의 프로그램을 써야 한다고 말했다. SMT에 의한 게임에서의 성능 저하는 하이퍼스레딩을 처음 내놓던 인텔 넷버스트 마이크로아키텍처 시절의 인텔도 겪었던 문제이며 최적화된 개별 소프트웨어가 흔해질때까지 많은 시기가 소요됐다. 라이젠도 비슷한 과정을 겪을 것으로 보인다.
CPU 구조상의 문제로 인해 성능이 저하된다는 이야기도 있다. 7시리즈의 경우 다이 자체는 하나이지만 4개의 코어와 하나의 8MB L3 캐시로 구성된 코어 컴플렉스 (CCX) 유닛이 2개 있는 구조고 인피니티 패브릭이라는 기술을 통해 이 2개의 CCX, 메모리 컨트롤러, I/O 허브 컨트롤러와 서로 데이터를 주고 받게 된다.[20] 이 인피니티 패브릭의 동작 클럭은 메모리 클럭과 동기화 되어 있다. DDR4-2667의 램을 쓰고 있는 경우에 1333MHz로 동작하며, 단방향 41.7GB/s, 양방향 83.3GB/s의 대역폭을 가지게 되지만, 이래도 1800X의 경우 230.4GB/s에 달하는 L2↔️L3 캐시간의 대역폭을 따라잡지는 못한다. 따라서 L3 캐시까지 동원될 정도로 큰 작업에서 CCX끼리 데이터를 주고받는데 병목이 일어나며 레이턴시가 늘어져버리는 것. 다이를 여러 개 쓰거나 하지는 않았고, 코어간의 통신도 내부적으로 처리되므로 일단 짭퉁 8코어 혹은 Non-native는 아니지만 기존까지의 방식과 비교하면 상당히 특이한 건 사실. 또한 램클럭이 올라갈 수록 인피니티 패브릭의 대역폭 또한 올라가 CPU의 퍼포먼스에도 엄청난 향상이 있다는 사실은 거꾸로 말하면 낮은 클럭의 램에서는 상대적으로 낮은 성능이 된다는 것이기에 일종의 양날의 검으로 작용하고 있다. DDR4-2667 이후의 지점에서 그나마 그 정도가 덜해지는데 라이젠 7 출시 시점에서 DDR4-2667 이상의 클럭을 지닌 램은 XMP가 적용된 고가의 제품들뿐이고 아니면 삼섬램을 사다가 오버시켜야 한다.
AMA 내용과 이번 AM4 메인보드가 매우 급하게 출시되었다는 점 등을 보았을 때, 메인보드의 바이오스 및 소프트웨어의 문제로 보이며 이후 바이오스 업데이트를 통해 얼마든지 개선의 여지가 있으므로 성능에 대해서는 좀 더 기다려 보고 판단하는 것이 옳다. 이러한 논란을 AMD 역시 사전에 알고 있었으며, 긴급하게 해당 오류를 해결하는 패치파일을 메인보드 제조사에 전달을 완료했다고 한다. 각 보드사는 한국시간으로 3월 4일에 해당 패치가 적용된 바이오스를 일제히 배포하기로 하였으며, 6~15%정도의 성능 향상이 이루어 진다고 한다. 아수스, 기가바이트 등의 회사들이 소량의 메인보드를 총판을 통해 시장에 풀었으나,[21] 실제 양산 물량이 풀리는 시점을 각 소매상 들에게 3월 8일 이후로 통보한 점도 이와 관련된 것으로 추정된다.
3월 25일, 아직 정식으로 공개되지는 않은 윈도우10 레드스톤2 크리에이터 업데이트 후의 게임 프레임 테스트가 공개되었고, 4.0GHz로 오버한 1700X가 5.0GHz로 오버한 7700K와 대등한 게임 프레임을 뽑아내는 결과가 나와 많은 기대와 관심을 모았다. 그러나 라이젠이 앞서 언급되어 있는 인피니티 패브릭의 대역폭 문제로 인해 몇몇 분야에서는 CPU 자체 클럭보다 램 클럭에 더 크게 영향을 받는 모습을 보여주고 있기에, 램클럭을 3600MHz까지 끌어올린 상태의 테스트 결과는 실사용과 꽤나 거리가 있을 것이라는 조심스러운 의견 또한 있었다.
이후 퀘이사존에서도 RS2 업데이트를 비롯한 여러 이슈에 대해 검증을 거쳤다. # 대충 메인보드의 UEFI 버전, 메인보드 제조사, 전원 옵션 여부는 성능에 크게 영향을 주지 못하며, 일부 게임은 램클럭에 따라 큰 성능 차이가 발생한다는 결론을 내렸다. 제일 중요한 RS2 업데이트에 대해서는 일부 고전 게임에서만 성능이 상향되고, 최신 게임에서는 거의 영향이 없다는 결과가 나왔다.
RS2 업데이트를 통한 성능 향상 효과가 기대만큼은 아닐 것으로 전망되는 가운데, AMD는 인텔 CPU에 비해 이상하리만큼 낮은 성능을 보여주는 일부 게임[22]들이 최적화 패치를 제공할 것이고, 여러 가지 문제점을 해결한 새로운 바이오스를 4월 초 메인보드 제조사들에게 공개할 것이며, 5월 중으로는 오버클럭 메모리에 최적화된 바이오스를 공개할 것이라 밝혔다.
몇 종류의 SSD 제품에서(특히 리뷰안, 테크엘(구 바른전자))[23] 라이젠과 극악의 호환을 달리며 컨트롤러가 제대로 작동하지 않거나, SSD 사용량이 100%로 고정되며 프리징 하는 버그가 발생하고 있다.
펌웨어 등으로 픽스된 제품도 있는 반면에, 테크엘[24] 등 2군 미만의 제조업체는 대응을 포기한 듯 한 모습으로 소비자들에게 불편함을 안겨주고 있으니, SSD로 시스템 구축을 하려는 사람은 충분히 주의하고 호환성 문제가 해결 된 SSD를 찾아 장착하여야 한다. 라이젠은 현재 삼성전자의 부품과 잘 맞는 경향이 있으니 참고하기 바란다.
삼성 SSD 950 Pro나 960 Pro의 경우 시스템 종료 후 재부팅할때 간혹 윈도우 부트로더까지 진행된 후 멍때리는 현상이 있다. 이때는 리부팅이 답이다. (삼성 SSD 자체 버그로 판단됨) 삼성 NVMe 드라이버 2.1에서 패치가 되었다고 하니 2.1 이후 드라이버의 AMD 호환성에 대해서 확인 후 설치하기 바란다.
종합해보자면 SMT의 작동 여부를 비롯한 발매 초기 최적화 문제나 상대적으로 낮은 클럭, 메인보드 제조사들의 준비 부족 등 많은 문제들이 산재해 있어 기대만큼의 성능이라기엔 아쉬운 부분이 꽤 있었다. 다만 라이젠에서 발생하는 대부분의 문제들이 CPU 자체의 근본적 결함이 아니라 외부 문제로 인해 발생한 이슈들인 만큼 해결 가능성도 높으므로 불도저같은 망작은 아니다. 사실 이전까지 AMD가 얼마나 부진하고 있었는지 감안하면 외부 문제들로 인한 이러한 요소들은 충분히 있을법했다. 워낙 기대치가 높았지만 그 성능을 다 발휘하기에는 초기에는 문제가 많아서 아쉽다는 수준이지 어쨌든 인텔과 AMD CPU를 두고 뭘 선택할지 고민을 할 수 있다는 점 자체만으로도 굉장한 발전이라는 것을 부정할 수는 없을 것이다. 그리고 다 감안해도 라이젠 7의 가성비가 인텔의 동 코어 제품에 비하면 정말 많이 빼어나다는 점은 부정하기 힘들다. 특히 다중코어 성능을 활용하기 좋은 컨텐츠 생산 업무에서는 높은 멀티스레드 성능과 가성비로 좋은 반응을 얻고 있다. 초기의 여러 가지 문제들이 해결되고 어느 정도 안정되기까지는 상당한 시간이 요구될것으로 예측되었으며 실제로도 어느정도 그렇게 흘러가고 있는데 때문에 '물건 자체는 충분히 괜찮게 나왔으나, 완전한 신규 플랫폼이라는 특성 상 안정화되는 과도기가 다소 길 가능성이 높으므로 정말 급하지 않다면 라이젠의 안정화 혹은 레이븐 릿지 APU / 2세대 라이젠, 차세대 인텔 라인업 등을 적당히 간보면서 관망하는 것이 가장 현명한 선택'이라는 의견도 많이 볼 수 있었다.
그리고 그러한 예측은 사실로 드러났다. 아니, 정확하게는 많은 매체들의 예상보다도 빠르게 개선되고 있다. R7이 정식으로 발매된지 3개월 정도 지난 2017년 6월 시점에는 그동안 누적되어 온 칩셋 드라이버나 메인보드 바이오스 업데이트로 인해 안정성과 게임 성능 쪽의 문제들이 대부분 개선되었고, 메모리 쪽에서도 슬슬 라이젠에 맞춰진 XMP 메모리들이 나오고 있는 등 전반적으로 안정화 단계에 접어들었다고 볼 수 있는 상황이다. 실제 야금야금 패치한 결과 라이젠의 게이밍 성능은 카비레이크와 거의 동급까지 쫓아왔고, 카비레이크 상위 라인업과 코어-X 라인업이 TIM으로 인한 발열 등으로 논란이 되면서 신규 구매자에게도 라이젠을 추천하는 모습을 많이 볼 수 있다.[25] 물론 낮은 오버클럭 잠재력은 여전히 아쉬운 부분. 다른 문제점들과 달리 트랜지스터의 물리적 특성에 제약되는 부분이기 때문에 현 세대에서 개선되는 것이 불가능하다.[26] 물론 3GHz 후반대의 클럭으로도 양호한 IPC와 많은 코어 숫자로 인해 성능은 최상급으로 충분히 나오고 있으니 그렇게까지 큰 문제는 아니지만, 샌디 이후의 4GHz 이상급의 오버클럭 환경에 익숙해진 PC커뮤니티측의 입장에서는 왠지 손해보는 기분(...)이 드는 것은 어쩔 수 없을 것이다.[27]
5.2. 한계
2024년 현 시점에서는 동시대의 인텔 7세대 카비레이크처럼 출시 때부터 Windows 7, 8.1을 공식 지원하지 않고 Windows 11 정식지원에서도 제외되면서 단 4년만에 현역에서 퇴장하게 되었으며, 성능 또한 최초의 메인스트림 6코어 CPU인 만큼 작업 성능면에서는 여전히 쓸만한 편이나, CPU 아키텍쳐 상의 한계로 인해 마이크로스터터링 현상이 심해 특히 게임에서 불리하다. 게다가 같은 AM4소켓 메인보드라도 최신 A520, B550, X570 메인보드 같은 보드나 일부 ROM 용량의 한계로 인해 최신 바이오스에서 라이젠 1세대 지원을 제거한 보드에서는 공식 지원하지 않아 장착이 불가능한 한계까지 있어 보드 호환성에서 불리하다. Windows 11을 공식적으로는 지원하지 않는 탓에 공식 우회 설치가 필요하며 Windows 11 설치시 드라이버 지원이 취약하여 2세대 이후 라이젠보다 L3캐시 레이턴시가 늘어지는 현상이 더 늦게 해결된 사례도 있고 2세대 이후 라이젠 대비 시스템 불안정과 성능 저하가 나타나고 있다. 특히, 레이븐 릿지 기반 시스템에서는 Windows 11에서 Windows 10에서는 멀쩡한 4K 동영상 재생에도 문제가 생기고 있는 상황이다. 이러한 한계들 탓에 2024년 현재는 출시 초기의 상품성이 많이 퇴색된 상태. 2024년 기준으로 라이젠 1600의 경우는 중고가 2~3만원, 1700X의 경우는 4~5만원 선에서 거래되는 등 동시대 인텔 7세대 대비 더 저렴한 가격대를 형성하고 있다. 웬만하면 중고로는 1~2만원 더 얹어서 성능도 더 높고 보드 호환성도 우월하며 Windows 11도 공식지원하는 라이젠 2세대를 사자.2024년 기준 레이븐 릿지 시스템의 경우에는 사실상 롤을 무난하게 구동할수 있는 최소 사양으로 기능하고 있는 상황이다.
[1] 이전에는 삼성전자 허밍버드(엑시노스 3110으로 개칭)를 그대로 사용하였다.[2] IPC는 응용 소프트웨어와 무관하게 CPU 코어가 지니는 이론적인 클럭당 성능으로, 실제 클럭당 성능과 다르다. 이에 관한 자세한 내용은 IPC 문서 참조.[3] 오타가 아니다. 실제 자료에 그렇게 명기되어 있다.[4] Cinebench R15는 벡터명령어인 SSE, AVX 명령어 세트에 크게 의존적이다.[5] bobcat 아키텍처의 신경망 분기 예측기를 구현한 엔지니어는 인텔에서 테자스 아키텍처를 구현하다가 AMD로 이적한 후 bobcat의 신경망 분기예측기를 구현하고 다시 삼성전자로 이적해서 삼성 M1 마이크로아키텍처의 신경망 분기예측기를 구현했다고 한다. 뭐 이런 괴수가[6] http://www.anandtech.com/show/10591/amd-zen-microarchiture-part-2-extracting-instructionlevel-parallelism/3 "AMD that the dispatch unit can simultaneously dispatch to both INT and FP inside the same cycle, which can maximize throughput"[7] CPU 레지스터에는 ISA에 정의된 명시적 레지스터와 CPU내부에서만 보고 사용할 수 있는 백그라운드 레지스터가 존재하는데 두 명령어간 레지스터값 연관성이 없어도 됨에도 불구하고 명시적 레지스터 숫자의 부족으로 인해 의사-연관성이 어쩔 수 없이 발생하여 두 명령어의 동시 실행이 어려워질 경우 CPU 내부에서 자체적으로 해당 레지스터 이름을 백그라운드 레지스터에서 이름을 바꿔서 의사-연관성을 제거하게 되는데 이를 레지스터 리네이밍이라고 한다.[8] 모듈 전체로 보자면 ZEN과 동일한 4개이다.[9] 코어당 2-way SMT가 일반적으로 학계나 업계에서 사용하는 학문 또는 기술 용어이고, 하이퍼쓰레딩은 해당 기술을 인텔이 상표화한 것이다. 즉, 부르는 이름만 다르고 실제 기능은 동일한 기술. 물론, 코어당 2-way SMT 자체는 인텔이 가장 먼저 구현한 것이 맞다.[10] Chip-level Multithreading의 약자가 아니므로 혼동하지 말 것.[11] 인텔에서는 이를 Gear 모드를 통해 구분하는데, 1:1 클럭 도메인을 Gear1 모드, 1:2 클럭 도메인을 Gear2 모드, 1:4 클럭 도메인을 Gear4 모드로 명명했다. DDR4 SDRAM과는 다르게 DDR5 SDRAM에서는 아무리 언더클럭 해도 Gear1 모드를 이용할 수 없다.[12] 인텔의 스카이레이크의 다이 면적은 약 122 mm²에 불과하여 일반적인 모바일 AP의 다이 면적과도 큰 차이가 없으며 제품의 성격 역시 로직IC라는 점에서 유사하다. 하지만 가격은 대략 10배의 차이가 나는데 그럼에도 불구하고 파운드리 업체는 모바일AP 생산을 통해 막대한 수익을 내고 있다. 파운드리 업체들의 원가경쟁력이 얼마나 강력한지 실감할 수 있는 부분.[13] 다만 각 유닛의 처리 데이터폭을 현용 128-bit에서 256-bit로 확장하는 것은 신중해야 하는 것이 바로 인텔이 섣불리 데이터 폭을 512-bit까지 확대하는 시도를 했다가 발열 문제를 해결하지 못하고 결국 AVX2, AVX-512 명령 사용시 클럭을 저하시켜야만 했던 사례가 있기 때문이며 심지어 이 문제는 현재진행형으로 계속 남아있는 상태이다.[14] 단점이 CPU 소켓이라고 봐도 될 정도로 제온에 비해 메인보드가 부실하다.[15] MCM임에도 불구하고 단일 NUMA 노드로 잡힌다. 참고로 스레드리퍼 역시 같은 공정을 거친다.[16] 2소켓 구성시에도 256레인이 아닌 128 레인만 사용 가능하다. 2소켓에서 인피니티 패브릭이 제공하는 128개 PCIe 레인 중 절반을 소켓간 상호 통신에 사용하기 때문. 키보드, USB, 내장 그래픽등을 사용하기 위한 칩셋을 연결해야 해서 128레인을 모두 활용 가능하진 않다. 외국 테크 전문 채널인 Linus Tech Tips의 영상을 보면 한 랙 마운트에 베가 아키텍처 기반인 연산용 GPU Radeon Instict MI25를 6개 장착한다. 이것도 128개의 PCIe 레인 덕분이다.[17] AMD FX 시리즈 항목에 있는 당혹스럽습니다 문구의 주인공인 이대근이 여기 소속이다.[18] CPU자체는 2월 28일 저녁에 각 소매상으로 전달 되었으나 메인보드가 공급된건 3월 2일 오전부터[19] 실제 와우와 고스트리콘에서 16개의 물리코어로 잘못 인식하는것이 확인되었다.[20] 라이젠에 내장돼 있는 I/O 허브 컨트롤러에는 24 레인의 PCI-Express 3.0이 연결돼 있으며 이 중 16 레인은 그래픽 카드용에, 4 레인은 NVMe SSD용으로, 나머지 4 레인은 PCH(Platform Controller Hub)에 할당돼 있다.[21] 총판들은 실제 물량이 얼마되지 않아 상품 DB에 해당상품을 올리지 않았으며, 이로인해 각 소매상들은 자신들이 확보한 물건으로 소비자들하고 전화로 딜을 하는 진풍경을 볼 수 있었다.[22] AOTS, DOTA 2 등.[23] 둘 다 실리콘모션 제 컨트롤러를 사용한다. SM2256/2246 컨트롤러 탑재 SSD 구입을 피할 것.[24] 테크엘(구 바른전자)은 2군 미만이 아니다. 동전주긴 해도 엄연히 상장사인데다 국내에서 낸드 사다가 패키징해서 직접 제품 만드는 회사는 테크엘 말고 찾아보기 힘들다. 당장 Lexar부터가 테크엘 OEM이고 삼성도 일부 SD카드는 테크엘 OEM이었다. 뭐 어차피 테크엘이 낸드를 사오는 곳이 삼성전자이긴 하지만 말이다.[25] 하지만 커피레이크의 등장과 카비레이크 최상위 라인업이 현재로선 여전히 게이밍 부분에선 우위를 보이고 있다. 커피레이크의 경우 i5 8400이 게이밍 성능에서 라이젠 모든 라인업을 이기고심지어 8600K, 8700K 뺨도 같이 때린다 i7 8700K의 경우 6코어 12스레드임에도 게이밍에서 더 우위인 것은 물론이고 멀티스레드 성능에서도 1800X와 사실상 동급을 달성했다.물론 발열이 쩐다 다만 CPU만 따진다면 1800X보다 싸게 나왔지만 발열이 엄청나 사제 쿨러를 사용해야 하는 등 추가적인 비용이 들어가 종합적인가격은 1800X가 더 싸다. 그리고 커피레이크 라인업이 기존 Z170, Z270 칩셋을 지원하지 않고 Z370마저도 다음 캐논레이크를 지원하지 않을 것이라는 예상이 강하기 때문에 국내에서도 다음세대 라이젠 업그레이드가 가능할 것으로 보이는 점이 경쟁력을 확보해 주고 있다.[26] 고클럭을 가로막는 전형적인 두 가지 원인이 각각 트랜지스터에서 출력되는 파형의 왜곡 문제와 트랜지스터 스위칭 타이밍 지연 문제인데 후자의 문제를 해결하는 전형적인 방법이 바로 파이프라인 스테이지의 증대이고, 전자의 파형 왜곡은 전압증가를 통해서 완화시킬 수 있으나 발열 증가와 같은 엄연히 한계가 있는 방식인지라 결국 트랜지스터의 물리적 특성을 개선하는 것 밖에는 방법이 없다.[27] 대체로 라이젠의 국민오버 수치는 라이젠 7 이던 라이젠 5 이던 클럭 3.7~3.8 / 전압 오토 (XFR 사용) OR 1.2~1.3V 로 정리되는 분위기이다. R7과 R5의 성능 측정이나 벤치마크 대부분이 이 정도 클럭에서 이뤄지며 충분히 괜찮은 성능을 보여주고 있으니 사실 굳이 4GHz까지 욕심 낼 필요는 없다. 어디까지나 감성의 영역일 뿐이니까. 아니 일단 인텔이던 AMD던 4GHz 오버를 하는건 좋으나 그만큼 먹는 전기가 많아져서 전기값 감당이 안된다