AMD 스팀롤러 마이크로아키텍처

||<table bordercolor=black><table width=100%><bgcolor=white> x86 CPU 마이크로아키텍처 ||

{{{#!wiki style="margin:0 -10px -5px; min-height:calc(1.5em + 5px); color: #fff;" {{{#!folding [ 펼치기 · 접기 ] {{{#!wiki style="margin:-5px -1px -11px; color: #000;"dark-style="color: #fff;"	<rowcolor=white> 등장 시기	패밀리 넘버 (10진법/16진법)	설계 기반	이름	공정 노드
고성능 지향 마이크로아키텍처 목록
1996년 3월	-	K5	K5	AMD 0.5 ~ 0.35 μm
1997년 4월	05 / 05h	K6	K6	AMD 0.35 ~ 0.18 μm
1999년 6월	06 / 06h	K7	K7-Athlon	AMD 0.25 ~ 0.13 μm
2003년 4월	15 / 0Fh		K8-Hammer	AMD 0.13 μm ~ 65 nm
2007년 9월	16 / 10h		K10	AMD 65 ~ 45 nm
2008년 6월	17 / 11h		K8 + K10 Hybrid	AMD 65 nm
2011년 6월	18 / 12h		K10 Llano	Common Platform Alliance SOI 32 nm
2011년 10월	21 / 15h	Bulldozer	Bulldozer	Common Platform Alliance SOI 32 nm
2012년 8월	21 / 15h		Piledriver	Common Platform Alliance SOI 32 nm
2014년 1월	21 / 15h		Steamroller	Common Platform Alliance 28 nm
2015년 6월	21 / 15h		Excavator	Common Platform Alliance 28 nm
2017년 3월	23 / 17h	Zen	Zen	GlobalFoundries 14 nm
2018년 4월	23 / 17h		Zen+	GlobalFoundries 12 nm
2018년 6월	24 / 18h		Hygon Dhyana	GlobalFoundries 14 nm
2019년 7월	23 / 17h		Zen 2	TSMC 7 nm
2020년 11월	25 / 19h		Zen 3	TSMC 7 nm
2022년 2월	25 / 19h		Zen 3+	TSMC 6 nm
2022년 9월	25 / 19h		Zen 4	TSMC 5 ~ 4 nm
2024년 7월	26 / 1Ah		Zen 5	TSMC 4 ~ 3 nm
미정	불명		Zen 6	미정
고효율 지향 마이크로아키텍처 목록
2011년 1월	20 / 14h	Bobcat	Bobcat	TSMC 40 nm
2013년 5월	22 / 16h	Jaguar	Jaguar	TSMC 28 nm
2014년 6월	22 / 16h	Jaguar	Puma	Common Platform Alliance 28 nm

}}}}}}}}} ||

1. 개요2. 스팀롤러 마이크로아키텍처

2.1. 카베리는 원래의 스팀롤러가 아니다?2.2. 사용 모델 일람

3. 엑스카베이터 마이크로아키텍처

3.1. CMT 모듈 구조 개선 포기3.2. 사용 모델 일람

1. 개요

2012년 9월, AMD가 파일드라이버 마이크로아키텍처를 사용한 CPU가 출시되기조차 전에 발표한 마이크로아키텍처. 실제 출시는 2014년에 시작했다.

글로벌파운드리 28nm SHP 공정으로 생산한다.

2. 스팀롤러 마이크로아키텍처

코어/모듈 레벨 (파일드라이버 대비)

공유 프론트 엔드 (모듈당)

명령어 캐시의 크기가 64 KB → 96 KB로 증가
명령어 캐시의 associativity가 2-way → 3-way로 증가
루프 버퍼 추가

전용 백 엔드 (스레드당)
공유 FPU (모듈당)

Shuffle 유닛 추가

메모리 서브 시스템

로드 및 스토어 장치 (Load-Store Unit, LSU)

로드 큐의 크기가 44 → 48 엔트리로 증가
스토어 큐의 크기가 24 → 32 엔트리로 증가

L2 캐시 메모리 (모듈당, 2개 스레드가 공유)

불도저 마이크로아키텍처와 가장 큰 차이는 명령어 디코더를 2배로 늘렸다는 점이다. 불도저에서는 1개의 디코더를 2코어가 공유해 사용했다면 스팀롤러/엑스카베이터 마이크로아키텍처에선 1개의 코어가 각자 1개의 디코더를 가진다. 게다가 L1 명령어 캐시 메모리도 50%가량 증가해 96KB가 되었고 AMD에 따르면 캐시 예측 실패가 30% 정도 감소했다고 한다. 또 디스패치 큐가 25% 가량 증가해 각 코어당 40개의 마이크로옵을 저장할 수 있게 되었다. 이제 잘 사용하지 않는 MMX 명령 연산 장치도 모듈당 1개로 줄였다.

이런 변화로 인해 IPC가 많게는 30% 가까이 증가되었으며, 최종적으로 단일 스레드의 IPC는 약 9%가, 멀티 스레드는 약 18%정도 증가되었다.

다만 FX 시리즈와 옵테론으로 출시되지 않았으며 AMD A 시리즈 카베리와 그 데스크톱 리프레시 제품인 고다바리로만 출시되었다.

2.1. 카베리는 원래의 스팀롤러가 아니다?

원래의 스팀롤러로 추정되는 코어의 다이샷.
파일드라이버와의 비교 이미지

2013년에 프론트엔드와 백엔드를 통틀어 거의 모든 부위가 파일드라이버의 2배 용량이 된 스팀롤러 코어 샘플로 보이는 반도체 회로 사진이 유출되었다. 하지만 2014년 1월에 등장한 카베리는 파일드라이버와 큰 차이 없는 수준에 그쳤고, '스팀롤러B' 라는 이름을 단 채로 발표되어 스팀롤러의 원판이 있는 것이 아니냐는 의혹이 있었다. 이 설을 뒷받침하는 사실 중 하나는 스팀롤러B 수준의 얼마 안되는 연산 유닛에 디코더가 2개까지 있을 필요가 없다는 것인데, 실제로도 얻은 성능 향상은 미미했다. CPU에서 가장 소비전력이 많은 부분은 디코더인데 저전력을 지향한 아키텍처이면 크게 성능 향상이 없는 디코더가 2개까지 있을 필요도 없거니와 아귀가 맞지 않는 부분이 많아, 스팀롤러의 '원판'에서 확장된 백엔드만 도로 줄여 사이즈를 줄인 게 아니냐는 게 미심쩍은 부분이다.

산술적으로 볼 때 연산 유닛 면적이 2배로 넓어지면 성능이 [math(sqrt2)]배가 된다. 만약 저 유출된 사진대로 스팀롤러 코어가 나왔다면 3.7GHz APU 쿼드코어가 현재의 카베리 APU 5.2GHz, FX 8코어는 2.7GHz로 FX-8350과 성능이 비슷할 거라 예상된다. 하지만 당시 AMD CEO였던 로리 리드는 이 스팀롤러를 취소시키고 ZEN에 모든 투자를 하도록 한 것으로 보인다. 여러모로 아쉬운 프로젝트.

불도저의 떨어지는 IPC를 높은 클럭으로 만회하려는 전략이 누설 전류로 실패하자, 고밀도 공정을 선택해 전성비를 지향하는 설계를 했다. 아래에 설명한 엑스카베이터 마이크로아키텍처도 같은 공정을 선택했다. 이런 설계 방식은 당시 AMD가 경쟁할 수 있는 유일한 방법이었을 것이다. 하지만 현실적으로 2개 이상의 파이프라인을 점유하는 작업이 적어서, 3개의 정수 파이프라인을 가진 K10에서 2개-2개 구성으로 변경시켜 효율을 꾀한 게 불도저 코어임에 반해, 정수 파이프라인을 4개씩 한 쌍으로 가지는 코어가 된다면 단일 스레드 성능은 높아도, 당초 모듈 코어를 개발한 방향과 다르고 인텔과 같은 SMT(하이퍼스레딩) 없이는 비효율적이었을 것이다.

2.2. 사용 모델 일람

AMD A 시리즈 - 카베리, 고다바리
AMD 애슬론 II 시리즈 - 카베리, 고다바리

3. 엑스카베이터 마이크로아키텍처

블록 다이어그램상의 변경점은 크지 않으나 다음과 같은 부분이 개선되었다고 한다.

L1 캐시 메모리의 용량 증가, 프리페치 개선 및 대기 시간 감소.
분기 예측을 향상시키기 위하여 BTB 사이즈를 512엔트리에서 768엔트리로 50% 늘리고 분기 예측 실패 시 FPU 파이프라인 플러시 속도 개선.
AVX2, BMI1/2, MOVBE, SMEP, RdRand 명령어가 추가 되었으며, AMD 제품 중 최초로 DDR4를 지원.

소켓은 카리조에서는 FP4 소켓을 사용하고 향후 ZEN에서도 사용될 AM4 소켓을 공유하게 된다.

파일:external/gigglehd.com/452dae15519acbb474420ce125e31ffa.jpg

카리조 역시 카베리와 같이 전성비를 지향해 GPU용 고밀도 반도체 라이브러리를 이용하여 설계했는데, 그덕에 같은 글로벌파운드리 28nm SHP 공정임에도 불구하고 밀도가 29% 높아지면서 전작인 스팀롤러B 대비 전체 면적이 23% 가량 줄어들었다. 이는 칩셑에서 다른 부분을 제외한 코어의 크기만 측정한 값이다. 게다가 L2 캐시 메모리도 줄였는데 카베리의 절반으로 줄였다. 이것도 면적을 계산하면 약 24% 가량 줄어들었다.

이것이 가능한 이유는 GPU용 고밀도 반도체 라이브러리의 경우 가장 아래의 트랜지스터층은 크기가 같지만 그 위로 쌓이는 배선층, 즉 M1, M2, M3... 등이 차지하는 배선폭을 줄여 면적을 전반적으로 줄일 수 있다. PCB로 비유하자면 동일한 크기의 부품을 써도 배선을 가늘게 하면 PCB의 면적을 줄일 수 있다는 것으로 설명할 수 있다.

그러나 이렇게 배선층을 미세하게 하면 따른 수율 저하와 저항 및 발열 증가, 면적 축소에 따른 발열 처리 어려움 등의 문제점들이 있고 그런 이유로 클럭을 4GHz 수준으로 올리긴 어렵다. 하지만 프로세서 크기가 작아져 생산 비용을 절감할 수 있고 적정 클럭에서 전성비가 개선된다는 장점이 있다.

즉 고성능을 지향하려면 높은 클럭으로 설계해야 하는데 APU는 그렇게 하지 않아도 되기 때문에, AMD는 고밀도 반도체 라이브러리를 이용하여 생산 비용을 절감하고, 적당한 클럭에서의 소비 전력을 향상시키는 게 합리적이라 판단한 것이다.

파일:external/assets.hardwarezone.com/excavator-performance.jpg

출처

AMD의 발표에 따르면 스팀롤러 대비 성능 상승폭은 15W TDP와 Cinebench 기준으로 싱글 스레드에서 40%, 멀티 스레드에서 55%까지 올라간다고 한다. 15W 소비 전력 영역에 설계를 최적화 시킨 결과라고 한다. 성능 향상 포인트를 클럭과 IPC로 각각 나눌 경우 먼저 중간 정도의 부하인 15W에서의 클럭 상승률은 약 25~44% 올라가고 35W 영역에 도달하면 -2~5% 수준으로 클럭 상승률이 떨어지게 된다, 즉 고클럭에서 성능이 저하되는 고밀도 반도체 라이브러리의 한계점이 그대로 드러나게 된다.

다만 35W 영역에서도 근소하게나마 클럭을 올리는데 성공한 것을 보면 전반적으로 클럭 쪽의 약점은 나름대로 선방한 셈. IPC의 경우 도표 상으로 보면 싱글 스레드 기준 10~15%, 멀티 스레드 기준 10~12% 정도 향상되었다.

종합해 보자면 최고 속도로 동작할 때의 성능은 거의 IPC 성능 향상에 의존하면서 대략 9~13% 정도의 실행 속도 증가를 기대할 수 있고, TDP가 15W로 제한되거나 아니면 50% 내외의 부하가 걸리는 상황에서는 거의 50%가 넘는 성능 향상, 혹은 동일 성능일 경우 그에 맞는 소비 전력 개선을 기대할 수 있다. 다만 AMD의 다른 발표 자료에 따르면 IPC 증가폭은 4~15% 정도로 제시하고 있다.

엑스카베이터 제품은 그렇게 대중적이지 않은 모바일 APU 제품군에 그치지만, 역사적으로 여러 중요한 의미를 가진다. AMD 불도저 시리즈 중 마지막 제품이고, 또 다른 하나는 분기 예측의 개선 만으로 아이비브릿지의 IPC(1모듈-1코어 2스레드 조건)에 근접하게 따라온 AMD 최초의 아키텍처라는 것이다. 혹자는 이를 폄하할 수도 있지만, 2011년 불도저가 출시된 이후로 한번도 샌디브릿지와 비슷한 수준의 백엔드의 확장이 없었다는 걸 생각하면 어느 정도 박수를 쳐줄 만은 하다.

불도저의 끔찍했던 캐시 예측 실패율을 극복하고 이제는 투입된 연산 유닛을 인텔과 비슷한 수준의 효율로 운용할 수 있게 됐다. 이는 AMD가 엑스카베이터부터 더 이상 전성비를 향상시키지 않고 IPC를 올리겠다고 한 발언과도 어느 정도 맞다.

울트라 모바일로 출시되는 스토니 릿지 APU의 벤치마크 결과가 기대 이상이라 주목받았다. 흥미로운 점은 스토니 릿지는 더 이전에 나온 카리조와 같은 엑스카베이터 마이크로아키텍처에 같은 공정으로 설계됐음에도 불구하고 설계 최적화 작업만으로 또 한 번 IPC와 전성비가 개선되었다는 점이다.# 벤치마크 결과를 보면 불도저가 소비 전력으로 대차게 까였던 반면 엑스카베이터는 자사의 퓨마나 인텔의 ULV 제품군들을 바짝 추격하고 있는데, 제품의 TDP는 15W 이내다. 2015년까지만 해도 엑스카베이터 기반의 카리조와 저전력 코어인 퓨마를 이용한 카리조-L로 제품군을 구성했지만, 스토니 릿지는 엑스카베이터로 퓨마의 전성비를 따라잡았다는 것이 상당히 고무적. 인텔도 똑같은 방식으로 코어와 아톰, 두 가지 아키텍처로 구성하고 있다.

그래서 ZEN 아키텍처의 IPC는 엑스카베이터에서 40% 이상 향상될 것이라고 말했던 AMD의 발언이 주목받았다. 덩달아 브리스톨 릿지에 대한 기대감도 소폭 상승. 결과적으로 나온 RYZEN은 샌디브릿지를 아득히 넘어서 하스웰~브로드웰급의 성능으로 나왔고, 위에서 잠시 언급했던 고밀도 설계는 RYZEN에도 적용되어 RYZEN이 그만큼의 성능에 더해 높은 전성비까지 확보하게 하는 원동력이 된다. 사실 ZEN의 성능에 대해서도 스토니 릿지의 벤치가 나오기 이전에는 큰 기대가 없었다. 기껏해야 샌디브릿지만이라도 따라잡으면 성공이라는 소리도 아주 진지하게 이야기되었을 정도. 그런 추측을 스토니 릿지의 벤치마크 결과가 꽤 신선한 충격으로 많이 허물어버린 셈.

3.1. CMT 모듈 구조 개선 포기

2012년 말에 나온 스팀롤러 마이크로아키텍처를 사용한 FX와 옵테론의 소식이 2013년 4분기 로드맵에서조차 없자 해외 IT 사이트에서는 AMD의 FX 라인업을 사실상 포기한 것이 아니냐는 관측이 나왔었다. 하지만 AMD는 FX 라인업을 포기한 적은 없으며 조만간 공개한다고 발표했다. 이후 2014년 5월 7일 기존의 CMT 구조를 포기하고 SMT 방식의 새로운 아키텍처를 개발중인 것으로 AMD 공식 문서에 나와있다는 기사가 나왔는데, 이는 2012년 8월에 복귀한 짐 켈러 때문인 것으로 보인다.

그 새로운 아키텍처인 ZEN 마이크로아키텍처는 2016년에서 2017년 사이에 출시될 예정이었고 2017년 초에 출시되었다.

참고로 엑스카베이터 마이크로아키텍처로 16코어 옵테론 제품을 내놓을 예정이었으나 판매 부진에 아키텍처 개선 포기로 인해 발매되지 않았다. 다만 APU들과 4코어 옵테론을 내놓았고, 이는 CMT 구조 마지막 제품이 되었다.

3.2. 사용 모델 일람

AMD A 시리즈 - 카리조, 브리스톨 릿지, 스토니 릿지
AMD 애슬론 II 시리즈 - 카리조, 브리스톨 릿지
AMD Embedded G 시리즈 - 프레리 팰컨, 브라운 팰컨
AMD Embedded R 시리즈 - 멀린 팰컨
AMD 옵테론 시리즈 - 토론토

AMD 스팀롤러 마이크로아키텍처

1. 개요

2. 스팀롤러 마이크로아키텍처

2.1. 카베리는 원래의 스팀롤러가 아니다?

2.2. 사용 모델 일람

3. 엑스카베이터 마이크로아키텍처

3.1. CMT 모듈 구조 개선 포기

3.2. 사용 모델 일람

분류