||<table bordercolor=black><table width=100%><bgcolor=white> x86 CPU 마이크로아키텍처 ||
}}}}}}}}} ||
{{{#!wiki style="margin:0 -10px -5px; min-height:calc(1.5em + 5px); color: #fff;" {{{#!folding [ 펼치기 · 접기 ] {{{#!wiki style="margin:-5px -1px -11px; color: #000;"dark-style="color: #fff;" | <rowcolor=white> 등장 시기 | 패밀리 넘버 (10진법/16진법) | 설계 기반 | 이름 | 공정 노드 |
고성능 지향 마이크로아키텍처 목록 | |||||
1996년 3월 | - | K5 | K5 | AMD 0.5 ~ 0.35 μm | |
1997년 4월 | 05 / 05h | K6 | K6 | AMD 0.35 ~ 0.18 μm | |
1999년 6월 | 06 / 06h | K7 | K7-Athlon | AMD 0.25 ~ 0.13 μm | |
2003년 4월 | 15 / 0Fh | K8-Hammer | AMD 0.13 μm ~ 65 nm | ||
2007년 9월 | 16 / 10h | K10 | AMD 65 ~ 45 nm | ||
2008년 6월 | 17 / 11h | K8 + K10 Hybrid | AMD 65 nm | ||
2011년 6월 | 18 / 12h | K10 Llano | Common Platform Alliance SOI 32 nm | ||
2011년 10월 | 21 / 15h | Bulldozer | Bulldozer | Common Platform Alliance SOI 32 nm | |
2012년 8월 | 21 / 15h | Piledriver | Common Platform Alliance SOI 32 nm | ||
2014년 1월 | 21 / 15h | Steamroller | Common Platform Alliance 28 nm | ||
2015년 6월 | 21 / 15h | Excavator | Common Platform Alliance 28 nm | ||
2017년 3월 | 23 / 17h | Zen | Zen | GlobalFoundries 14 nm | |
2018년 4월 | 23 / 17h | Zen+ | GlobalFoundries 12 nm | ||
2018년 6월 | 24 / 18h | Hygon Dhyana | GlobalFoundries 14 nm | ||
2019년 7월 | 23 / 17h | Zen 2 | TSMC 7 nm | ||
2020년 11월 | 25 / 19h | Zen 3 | TSMC 7 nm | ||
2022년 2월 | 25 / 19h | Zen 3+ | TSMC 6 nm | ||
2022년 9월 | 25 / 19h | Zen 4 | TSMC 5 ~ 4 nm | ||
2024년 7월 | 26 / 1Ah | Zen 5 | TSMC 4 ~ 3 nm | ||
미정 | 불명 | Zen 6 | 미정 | ||
고효율 지향 마이크로아키텍처 목록 | |||||
2011년 1월 | 20 / 14h | Bobcat | Bobcat | TSMC 40 nm | |
2013년 5월 | 22 / 16h | Jaguar | Jaguar | TSMC 28 nm | |
2014년 6월 | 22 / 16h | Puma | Common Platform Alliance 28 nm |
1. 개요
AMD CPU에 사용한 마이크로아키텍처. 최초로 250nm 공정에서 생산했으나, 이후 130nm 공정까지 개선되었다. 인텔의 넷버스트 아키텍처를 의식한건지 퀀티스피드(QuantiSpeed) 아키텍처 라는 이름으로도 불렸으나 일반적으로는 주로 K7 아키텍처로 불렸다. 1999년 6월 출시된 "애슬론"부터 사용되었으며 x86 데스크톱 CPU 중 경쟁 프로세서인 펜티엄III를 간발의 차로 제치고 최초로 1GHz를 돌파했다.CPU 발열과 소비 전력이 이전 세대에 비해서 많이 높아졌다. 그러나 당시 나온 메인보드는 이런 CPU에 제대로 대비한 설계가 되어 있지 않았다. CPU는 95도까지 작동을 보증했고, 썬더버드 애슬론의 경우 온도가 80도를 넘어가도 안정적으로 작동했으나 당시 사용되었던 메인보드의 전원부가 과열되어서 수명이 짧아진다던가, 캐패시터들이 배가 불러 전해액을 토해내는 참사를 일으키기도 하는 등 내구성과 안정성이 문제가 되었다.
AMD는 이 발열을 잡기 위해 강력한 쿨러를 설계해 끼워 팔았는데, 방열판의 두께도 두꺼웠을 뿐만 아니라 팬 두께도 무려 25mm(25T) 짜리 였으며 무려 5000rpm까지 올라갔다. 이 때문에 소음도 커졌고 그 덕에 쿨러 애프터마켓이 성장하는 계기가 된다.
초기에 사용한 슬롯 A는 인텔의 펜티엄 2/3과 같이 코어가 플라스틱 패키지 안에 있었으나, 소켓 A 방식 CPU는 코어가 히트 스프레더 없이 노출되어 있었고 CPU의 설정을 제어하는 브릿지도 노출되어 있었다. 코어가 방열판과 직접 맞닿을 수 있었던 덕에 열 전도성이 높아 오버클럭하는 사람들에게는 좋았지만, PC 조립 초보자들에게는 쿨러 설치할 때 코어를 깨먹는 참사를 많이 일으켰다.
또한 설정용 브릿지가 노출되어 있었는데, L1 브릿지를 전부 전기가 통하도록 연결시키면 배수락이 풀리거나, L2 브릿지를 연결해 듀론이나 셈프론에서 막혀있던 L2 캐시 메모리가 풀리는 비기들이 알려졌다. 흑연의 전도성을 이용해 노출된 브릿지를 연필로 그어 연결하는 작업이 유행했다. 이론적으로 듀론 1.6GHz을 L2 브릿지 부분을 연필이나 컨덕티브 펜으로 연결해서 애슬론 XP 1800+로 만들고, 와이어트릭이나 점퍼 조절로 FSB를 333MHz로 설정해 애슬론 XP 2700+까지 만들 수 있으나 수율이 받쳐 줘야만 할 수 있었고 그렇기 때문에 뽑기 운이 좋아야 했다. 그러나 그러다가 CPU가 사망하면 연필로 그었던 브릿지를 지우개로 지우고 A/S를 받으러 뻔뻔하게 찾아가는 등 당시 CPU 유통사의 부담이 꽤 컸다. 참고로 인텔은 설정을 제어하는 브릿지를 외부로 노출시키지 않는다.
L2 캐시 메모리 용량에 따른 성능 차이가 생각보다 작아서 듀론이나 셈프론의 성능도 괜찮았기 때문에 당시 AMD의 장사 수완을 불쌍히 여기는 유저들도 많았다. 이후 130nm 공정으로 개선한 바톤 애슬론 XP도 나왔고, 당시 개인 PC 시장을 지배했다.
K8 마이크로아키텍처가 출시된 후에도 저가 모델인 셈프론 등으로 근근히 연명하다가 2005년 신형 K8 셈프론 등장 이후 단종되었다.
- 코드네임 리스트
- K7 Argon
- K75 Pluto/Orion
- Thunderbird
- Palomino
- Thoroughbred A/B
- Barton / Thorton
2. 특징
- 코어 레벨
- 프론트 엔드/백 엔드 공통
- x86 명령어를 'MacroOP'으로 변환한 후 다시 하나의 MacroOP 당 1-2개의 OP으로 변환하여 실행하는 구조
- 프론트 엔드
- 2단계 분기 예측(GAs)
- 64 KB, 2-way set associative 명령어 캐시 (라인 크기: 64B)
- 명령어 캐시는 각각의 바이트에 대한 pre-decode 정보를 포함
- 24 엔트리 L1 명령어 TLB (4K: 16, 2M/4M: 8)
- 256 엔트리, 4-way 구성의 L2 명령어 TLB (4K only)
- 사이클당 최대 3개의 MacroOP을 생성할 수 있는 3-way 디코더
- 백 엔드
- 비순차적 실행(Out-of-Order Execution) 및 추측 실행(Speculative Execution)
- 레지스터 재명명(register renaming), 데이터 포워딩 지원
- 72 엔트리 크기의 재정렬 버퍼 (3 MacroOPs x 24 lines 구성)
- 18 엔트리 크기의 정수 스케줄러 (3-wide x 6 entries deep 구성)
- 36 엔트리 크기의 부동소수점 스케줄러 (3 MacroOPs x 12 lines 구성)
- 메모리 서브 시스템
- 44 엔트리 크기의 로드 스토어 유닛(LSU)
- 64 KB, 2-way set associative, write-back 데이터 캐시 (라인 크기: 64B)
- 데이터 캐시에는 2개의 포트가 존재
- 32 엔트리 L1 데이터 TLB (4K: 24, 2M/4M: 8)
- 256 엔트리, 4-way 구성의 L2 데이터 TLB (4K only)
- 4096 엔트리 크기의 분기 히스토리 테이블(BHT)
- 2048 엔트리 크기의 분기 타겟 버퍼(BTB)
- 12 엔트리 크기의 리턴 주소 스택(RAS)
- DirectPath: MacroOP 1개로 변환되는 x86 명령어를 처리한다.
- VectorPath: 2개 이상의 MacroOP으로 변환되는 x86 명령어를 처리한다.
- 각 reservation station은 MacroOP을 정수 및 주소 생성 OP으로 분해
- 정수 곱셈 연산은 pipe 0에서만 처리 가능하고 pipe 0 및 pipe 1의 결과 버스를 차지
- 88 엔트리 크기의 부동소수점 레지스터 파일
- FADD, FMUL, FSTORE 총 3개의 파이프로 구성
역사상에 남을 좋은 아키텍처라는 평을 받고 있다. 일단 K7은 전작인 K6와 비교했을 때 엄청나게 많은 것들이 변화하였는데, 공정을 개선해 트랜지스터를 많이 집적해 성능 향상을 꾀한 수준 정도가 아니다. 아래에 써 있는 내용은 변화 내용의 일부일 뿐이다.
탐스하드웨어를 설립한 토머스 파브스트가 쓴 리뷰글에 자세한 것이 써져 있으니 그 글을 참고하는 것이 좋다.#
퀀티스피드 아키텍처 자체가 특출나게 잘 만든 것이다 보니 K10 마이크로아키텍처까지 꾸준히 개선되었다.
2.1. 구리 배선 기술 도입
1999년 AMD는 모토로라의 도움을 받아 180nm 공정부터 배선 재질로 알루미늄 대신 구리를 도입했다. 저항이나 캐패시턴스 면에서 알루미늄보다 구리가 좋긴 했지만, 당시 기술로 식각이 어려워 알루미늄을 대신 써 왔다. 그러나 공정 기술이 발달하면서 180nm 공정 이후 구리 배선 기술을 도입했고, AMD K7 마이크로아키텍처로 만든 CPU는 손쉽게 1GHz 클럭을 찍을 수 있게 됐다. 인텔은 반면 130nm 공정에서야 뒤늦게 구리 배선 기술을 도입했다.2.2. 명령어 디코더
인텔과 AMD는 RISC 구조를 도입하기 위해 각각 P6와 K6 마이크로아키텍처 이후 CISC 가변 길이 명령어를 명령어 디코더로 고정된 길이의 RISC 명령어로 변환한 후 처리하기 시작했다. 그런데 AMD K7 마이크로아키텍처의 명령어 디코더는 기존의 AMD K6 시리즈와 그 이전 시리즈는 물론 인텔의 것과 전혀 다른 것이 들어갔다.인텔은 가변 길이 x86 명령어를 명령어 디코더로 마치 RISC 같이 micro-operations(mops, μops, uops)이라는 고정 길이 명령어로 변환해 처리했지만, AMD는 K7 마이크로아키텍처부터 다른 방식으로 변환해 처리했다. AMD는 인텔과 다른 방식으로 가변 길이 x86 명령어를 디코딩해 생성된 고정 길이 명령어를 Macro-operations(Mops)라 불렀다. AMD는 하나의 Macro-operation이 연산 처리와 메모리 접근(Load-Store) 처리 작업까지 할 수 있는 반면, 인텔은 하나의 micro-operation이 연산 처리든 메모리 접근이든 단 하나의 처리 작업만 할 수 있다.
P6와 K7 마이크로아키텍처 둘 다 3-way 디코더였으나 이런 구조적인 문제로 효율이 더 좋을 수 밖에 없었다. AMD의 이런 디코더 체계는 불도저 마이크로아키텍처를 거쳐 ZEN 마이크로아키텍처까지 이어지고 있다.
2.3. 스케줄러와 실행 엔진
명령어 제어기(Instruction Control Unit)를 넣어 명령어 스케줄러를 좀더 정밀하게 정수 스케줄러와 부동소수점 스케줄러로 분리할 수 있었다. 그리고 실행 엔진의 명령어 이슈 포트를 K6 마이크로아키텍처의 6에서 9 포트로 확장하면서 성능이 전반적으로 크게 좋아졌다. 반면 P6 마이크로아키텍처는 5 포트에 불과했다.정수 연산기(Integer Execution Unit)가 2에서 3개로, 주소 생성기(Address Generation Unit)도 1에서 3개로 늘어났으며, 부동소수점 연산기(Floating Point Unit)가 1에서 2개로 늘어났다. P6 마이크로아키텍처의 경우 정수 연산기, 주소 생성기, 부동소수점 연산기가 각각 2, 1, 2개였다. 정수 연산 성능도 개선되었고, 메모리 병목 현상도 개선되었으며, 특히 AMD CPU도 드디어 부동소수점을 파이프라인 기법으로 병렬 실행할 수 있게 돼 연산 성능이 크게 좋아졌다.
2.4. 분기 예측기
K7 마이크로아키텍처의 분기 예측 버퍼(Branch prediction Target Buffer, BTB)는 2048 엔트리였으며, 분기 기록 테이블(Branch prediction History Table, BHT)은 4096 엔트리로 구성해 분기 예측기를 크게 개선했다. P6 마이크로아키텍처의 분기 예측 버퍼는 512 엔트리뿐이었다. 그래서 P6 마이크로아키텍처의 분기 예측 성공률이 90~92%에 불과했던 것에 비해 K7 마이크로아키텍처는 무려 95%를 자랑했다.2.5. EV6 버스 인터페이스
AMD는 프로세서와 노스 브릿지 칩셋(메모리 컨트롤러 허브 칩셋)과 버스 인터페이스를 인텔의 FSB에서 DEC에게서 라이선스 받은 DEC Alpha EV6 버스 인터페이스로 대체했다. 인텔 P6 마이크로아키텍처의 FSB에 비해 Double Data Rate로 동작했기 때문에 성능이 훨씬 좋았다.또한 EV6 버스 인터페이스는 미니컴퓨터의 대명사였던 DEC의 기술이었던만큼 서버처럼 다중 프로세서로 구성할 경우 인텔의 FSB처럼 버스를 공유하지 않고 점대 점 프로토콜 통신으로 구성했기 때문에 메인보드 회로 설계도 상대적으로 쉬웠을 뿐만 아니라 병목 현상이 줄어들었다. 이 덕에 AMD 옵테론 시리즈가 한동안 선전할 수 있는 기반이 되었다.
2.6. 쿨앤 콰이어트(Cool'n'Quiet)
성능 상태(P-state)에서 동적으로 전압과 클럭을 조정(Dynamic Voltage and Frequency Scaling, DVFS)해 CPU 소비 전력을 관리하는 AMD의 PowerNow! 기술을 데스크톱용 CPU에 도입한 것이다. 애슬론 XP 시리즈부터 도입되었으며, 경쟁 기술로는 인텔의 스피드스텝이 있다.3. 사용 모델
- AMD K7 마이크로아키텍처/사용 모델
- AMD 애슬론 시리즈 - 슬롯A, 소켓A
- AMD 애슬론 XP 시리즈 - 소켓A
- AMD 듀론 시리즈 - 소켓A
- AMD 셈프론 시리즈 - 소켓A