Arm Mali GPU

1. 개요2. 상세3. GPU 제품 라인업

3.1. Utgard 아키텍처

3.1.1. Mali-55 / Mali-1103.1.2. Mali-200 / Mali-3003.1.3. Mali-4003.1.4. Mali-4503.1.5. Mali-470

3.2. 1세대 Midgard 아키텍처

3.2.1. Mali-T6043.2.2. Mali-T658

3.3. 2세대 Midgard 아키텍처

3.3.1. Mali-T62X

3.3.1.1. Mali-T6223.3.1.2. Mali-T6243.3.1.3. Mali-T628

3.3.2. Mali-T678

3.4. 3세대 Midgard 아키텍처

3.4.1. Mali-T7203.4.2. Mali-T760

3.5. 4세대 Midgard 아키텍처

3.5.1. Mali-T8203.5.2. Mali-T8303.5.3. Mali-T8603.5.4. Mali-T880

3.6. 1세대 Bifrost 아키텍처 기반

3.6.1. Mali-G713.6.2. Mali-G513.6.3. Mali-G31

3.7. 2세대 Bifrost 아키텍처 기반

3.7.1. Mali-G723.7.2. Mali-G52

3.8. 3세대 Bifrost 아키텍처 기반

3.8.1. Mali-G76

3.9. 1세대 Valhall 아키텍처 기반

3.9.1. Mali-G573.9.2. Mali-G77

3.10. 2세대 Valhall 아키텍처 기반

3.10.1. Mali-G683.10.2. Mali-G783.10.3. Mali-G78AE

3.11. 3세대 Valhall 아키텍처 기반

3.11.1. Mali-G3103.11.2. Mali-G5103.11.3. Mali-G6103.11.4. Mali-G710

3.12. 4세대 Valhall 아키텍처 기반

3.12.1. Mali-G6153.12.2. Mali-G7153.12.3. Immortalis-G715

3.13. 5세대 아키텍처 기반

3.13.1. Mali-G6203.13.2. Mali-G7203.13.3. Immortalis-G7203.13.4. Mali-G6253.13.5. Mali-G7253.13.6. Immortalis-G9253.13.7. Mali G1-Pro3.13.8. Mali G1-Premium3.13.9. Mali G1-Ultra

4. Video 칩셋 라인업

4.1. Mali-V5004.2. Mali-V5504.3. Mali-V614.4. Mali-V524.5. Mali-V76

5. Display 칩셋 라인업

5.1. Mali-DP5005.2. Mali-DP5505.3. Mali-DP6505.4. Mali-D715.5. Mali-D515.6. Mali-D77

6. Camera 칩셋 라인업

6.1. Mali-C71

7. 문제점8. 관련 문서

1. 개요

Arm에서 설계하는 그래픽 칩셋 브랜드. 노르웨이 지사에서 주로 개발을 담당한다.

2. 상세

2006년 Arm [1]이 Falanx Microsystems를 인수한 후에 본격적으로 개발에 들어간 GPU 솔루션이다. 이후 이 회사는 ARM 노르웨이 지사로 개편되었다.

ARM이 GPU 개발에 뛰어든 이유는 크게 두 가지로,

모바일 AP, 특히 ARM 아키텍처 기반의 AP에서 사용할 GPU 솔루션의 부재.
일종의 대세가 되어 가는 GPGPU 기술개발의 목적.

등이 있다.

과거 피처폰 시절부터 ARM은 모바일 AP 부분에서는 강자에 속했었다. 인텔 역시 DEC를 인수하면서 얻은 ARM CPU 라인업을 XScale로 발전시켰으나 Marvell에 대부분을 매각했다. 모바일 임베디드 시장이 점진적으로 확대되고, 이 시장이 기존의 PC의 영역까지 침범하게 될 가능성이 높아지자, CPU가 처리하지 못하는 더욱 높은 수준의 그래픽 작업 능력을 지원하기 위해 AP 안에 GPU를 탑재하기 위해 개발에 들어갔다는 것이다. 비단 ARM 뿐만이 아니라 대표적인 CPU 아키텍처 라이센스 구입사인 퀄컴에서도 이전 ATI에서 인수한 Imageon 모바일 사업부의 자체 GPU를 자사의 AP에 통합하기 시작했고, TI 같은 타 라이센스 구입사의 경우 PC 그래픽 시장에서 도태되어 모바일 GPU 시장으로 시선을 돌린 Imagination Technologies 사의 PowerVR SGX 시리즈를 GPU 솔루션으로 사용하고 있었다. 때문에 ARM에서는 기존의 ARM의 CPU 아키텍처를 라이센스를 받는 것과 비슷한 형식으로 GPU 솔루션을 개발, 라이센스를 판매하여 기반 기술이 부족한 구매사라도 수월하게 시장에 진출하게 하기 위해 GPU 솔루션을 개발하기로 한 것이다. 또한 연산 유닛이 CPU에 비해 압도적으로 많은 GPU를 일반적인 연산에 응용하기 위해서 당시에 여러 회사에서 많은 시도가 있었기 때문에 시장에서 도태되지 않기 위해 개발을 시도한 것이라고 한다.

GPU간 커널 드라이버 호환성이 좋은 편이다. 2021년 10월 기준 최신 드라이버인 r33p0의 경우 Bifrost용 드라이버와 Valhall용 드라이버의 소스 코드는 완전히 동일하다. 또한 데비안 위키의 말리 그래픽 항목에 따르면 Midgard와 Bifrost의 커널 드라이버도 버전만 다르게 설정되어 있고 내용은 완전히 동일하다고 서술되어 있는데, 이를 고려하면 사실상 Midgard부터 Valhall까지 드라이버가 완전히 호환될 가능성도 있다.[2]

3. GPU 제품 라인업

관련 성능은 모두 ARM의 발표치로 실 성능은 반토막 정도 난다고 보면 편하다.였는데... 실 성능을 측정하던 GFXbench 앱이 3.0으로 업데이트되고 난 후 이론 성능의 95%에 가까운 실성능을 보여주고 있다.

GPU 아키텍처의 명칭은 북유럽 신화의 지명에서 유래했다.

3.1. Utgard 아키텍처

3.1.1. Mali-55 / Mali-110

파일:external/images.sanhaostreet.com/20101213203516317.jpg

3.1.2. Mali-200 / Mali-300

클럭	성능	타겟공정
210 MHz	23 Mtri/s, 210 Mpix/s	40nm LP
500 MHz	55 Mtri/s, 500 Mpix/s	28nm HPM

극 초창기의 Mali 제품군이다. 사용한 예를 거의 찾아 볼 수 없다. 굳이 찾자면 국내 업체인 텔레칩스의 TCC89XX시리즈 정도가 Mali-200을 탑재한 사례다. 당시 기준으로는 그렇게 좋지 않은 성능은 아니었으나, 시기 자체가 GPU의 중요도가 없었던 시기였기 때문에 묻힌 감이 없지 않아 있다. 현재 Mali-200은 ARM 공식 사이트에서도 언급되지 않는 상태이며 성능이 비슷한 Mali-300만 남아있다.

3.1.3. Mali-400

싱글코어 기준
클럭	성능	타겟공정
210 MHz	23 Mtri/s, 210 Mpix/s	40nm LP
500 MHz	55 Mtri/s, 500 Mpix/s	28nm HPM

쿼드코어 기준[3]
클럭	성능	타겟공정
210 MHz	23 Mtri/s, 840 Mpix/s, 7.6 GFLOPS	40nm LP
500 MHz	55 Mtri/s, 2 Gpix/s, 18 GFLOPS	28nm HPM

멀티코어 구성이 가능한 최초의 Mali GPU이다. 최대 지원 개수는 4개다. 이전의 Mali-300과 같이 독립 셰이더 구조로, 버텍스를 담당하는 코어와 픽셀을 담당하는 코어가 각각 나누어져 있다. 버텍스 코어는 항상 1개로 코어 수에 포함되지 않고 독립적으로 픽셀을 처리하는 Fragment Processor 하나가 추가되는 수준이다. 그렇기에 싱글코어든 쿼드코어든 버텍스 성능은 같아 Mali-400을 탑재한 기기들이 벤치마크 점수에서 힘을 못 쓰게 하는 상황의 발단이 되었다.

삼성전자의 자체 AP인 엑시노스 4210에 쿼드코어 266 MHz 구성으로 최초로 탑재되었다. 당시 Arm에서는 400 MHz로 들어갈 것을 권고했으나, 발열 문제를 우려해 클럭을 낮췄다고 한다. 그리고 이 AP를 최초로 사용한 갤럭시 S II에서 역시 Mali-400을 최초로 사용했다. 루팅한 뒤 부트로더를 건드려주면 기존 클럭치인 400 MHz로 오버클럭이 가능하나, 역시나 발열 문제가 발생한다. 또한 평상시 클럭인 266 MHz로도 웬만한 애플리케이션은 문제없이 구동시킨다. 초반에는 호환성이 있는 애플리케이션이 거의 없는 관계로 많은 사람들이 우려를 표했으나, 갤럭시 S II 자체가 삼성전자의 플래그십 스마트폰이었고, 또 당시 안드로이드 진영에서는 사실상 유일하게 iPhone에 맞설 수 있는 기업이었기 때문에 글로벌 판매량이 굉장히 높았다. 그로 인해 실질적으로 사용하는 사람들이 많아졌고, 더 나아가 삼성전자 자체에서도 쇼미더머니를 시전하여 호환성을 끌어올렸기 때문에 문제가 쉽게 해결될 수 있었다고 한다. 이후 엑시노스 4210의 공정 개선판인 엑시노스 4212에는 정상적으로 440 MHz의 클럭으로 탑재되었고, 같은 공정을 사용하는 엑시노스 4412에도 그대로 적용되어 이 AP를 사용한 갤럭시 S III와 갤럭시 노트 II에는 최대 533 MHz의 클럭까지 적용되었다고 한다.

삼성전자의 엑시노스 4210이 호환성 문제를 해결하자, 후발 주자로 ST에릭슨과 락칩에서도 다양한 구성으로 사용되었다.

비교적 구세대인 독립 셰이더 구조 때문에 떨어지는 버텍스 성능으로 인한 병목 현상이 일어나며 절대적인 성능도 현재 퀄컴 Adreno 320 같은 경쟁 GPU와 비교했을 때 다소 떨어지는 편이지만, 아직까지 모바일에서는 버텍스 성능이 중요한 폴리곤보다 픽셀 성능이 중요한 텍스처를 주로 많이 쓰기 때문에 무난한 성능을 보여주고 있다. 특히 갤럭시 S II, 갤럭시 S III를 비롯한 삼성 엑시노스 4210, 4412 탑재 기기들이 안드로이드 점유율에 지대한 영향력을 끼치기 때문에 각종 애플리케이션 개발자들로부터 지원 역시 활발히 받고 있다. 다만 Open GL 3.0을 지원하지 않기에 Android 4.3 젤리빈에서는 큰 영향력을 행사하기 어렵다.

여담으로 닌텐도가 패밀리컴퓨터와 슈퍼 패미컴의 복고풍 복각판 콘솔 발매 시 탑재되었던 GPU의 원형이기도 하다.

3.1.4. Mali-450

쿼드코어 기준
클럭	성능	타겟공정
270 MHz	59 Mtri/s, 1.1 Gpix/s	40nm LP
650 MHz	142 Mtri/s, 2.6 Gpix/s	28nm HPM

옥타코어 기준[4]
클럭	성능	타겟공정
270 MHz	59 Mtri/s, 2.2 Gpix/s	40nm LP
650 MHz	142 Mtri/s, 5.2 Gpix/s	28nm HPM

Utgard 기반의 끝판왕으로 불리지만 구조 자체는 Mali-400을 2개 붙인 것과 크게 다르지 않다. 다만, Mali-400에서 문제점으로 지적된 버텍스 성능이 두 배로 증가시켜 어느 정도 문제를 해결하였다. 또한 Mali-400이 쿼드코어까지 지원했기 때문에 단순히 2개를 붙인 Mali-450은 총 8개까지 지원할 수 있다. 여기에 약간의 기술 개선이 이루어져 권고 클럭까지 상승하여 Mali-400의 버텍스 성능보다 약 3배 가량 높은 성능을 보여 준다. 또한 원래 괴물이었던 픽셀 성능은 2013년 당시 고성능 GPU 중 하나인 퀄컴 Adreno 320보다 2.5배 더 높은 성능을 보여 준다.

다만, Mali-400이 모체인 만큼 구세대 독립 셰이더 구조의 GPU라는 것은 변하지 않기 때문에 전력 소모 문제를 생각하면 이 것보다는 차기작인 Midgard 기반의 GPU를 탑재하는 것이 정신건강에 이롭다. 때문에 실제로 탑재할 AP가 있을지는 의문인 상황. 거기에 Open GL 지원 역시 Mali-400을 따라 2.0까지만 지원한다. 2013년 4분기 드디어 실 탑재 제품이 등장했다. 미디어텍의 MTK6592와 Amlogic의 AML-M802. 벤치를 보면 코어수는 단순 마케팅만이 아닌 성능을 보여준다. 버텍스 코어가 2개 로 늘어서 병목현상이 대폭 줄었는지 Mali-400을 단순 2배한 것보다도 성능이 잘 나온다. 이는 넥서스10의 Mali-T604보다 높으며, 예상대로 Adreno320급의 성능이었으며 특히 Mali-400에서 최적화가 끝난 드라이버와 앱의 호환성 그리고 전력 대비 성능이 매우 우수하다.

3.1.5. Mali-470

3.2. 1세대 Midgard 아키텍처

3.2.1. Mali-T604

쿼드코어 기준[5]
클럭	성능	타겟공정
533 MHz	533 Mtri/s, 2 Gpix/s, 72 GFLOPS	28nm HPM

출처

삼성전자의 엑시노스 5250에 최초로 탑재되었으며 출시된 제품으로는 넥서스 10이 있다.

1세대 Midgard 기반의 첫 GPU이며, 이전 Utgard 기반의 GPU와 비교 시 가장 큰 차이점은 통합 셰이더 구조라는 점에 있다. 때문에 각각의 코어에 코어 당 2개씩 연산 유닛이 있고, 텍스처 유닛이 별도로 들어간다. Midgard 아키텍처는 1ALU당 FP32 성능이 17 ops/cycle이고 Mali-T604에는 4코어 기준 8ALUs가 들어간다. 이로 인해 기존의 Utgard 기반에서 하나의 코어만 버텍스 작업을 담당했다면 이번에는 픽셀 코어와 동등한 버텍스 코어를 가지게 되었다. 이 때문에 기존보다 4배 이상 버텍스 성능이 상향되었다. 픽셀 성능은 기존에 비해 크게 오르지 않았지만, 기존의 픽셀 성능이 매우 훌륭했다는 것을 볼 때 별 문제가 아닌 것으로 보인다. 그래도 전체적인 성능은 퀄컴 Adreno 320 400 MHz와 비슷하다.

2015년 기준 최신인 OpenGL ES 3.1까지 지원하는데, 동시기 Adreno 320은 고사하고, Adreno 330도 OpenGL ES 3.0까지 밖에 지원하지 못한 것을 본다면, 출시 시기를 기준으로도 상당히 미래 지향적인 설계로 API 지원이 훌륭한 GPU이다.

3.2.2. Mali-T658

옥타코어 기준
클럭	성능	타겟공정
? MHz	? Mtri/s, ? Gpix/s	?

출처
1세대 Midgard 기반으로 T604와 같이 발표되었다.

기본적으로 Mali-400과 Mali-450처럼 Mali T604를 2개를 붙여 놓은 모습을 가지고 있지만, 각 셰이더 코어 당 연산 유닛의 수가 4개로 늘어 총 32개의 연산 유닛을 가지고 있게 되었다. Midgard 아키텍처는 1ALU당 FP32 성능이 17 ops/cycle이다. 한 마디로 말해서 괴물이다.

정확한 수치가 공개되지 않아 언급하기 어려운 점이 있지만, ARM의 발표대로라면 Mali-400의 10배, Mali T604의 4배의 성능을 보인다고 한다. 하지만 ARM에서 라인업 개편을 시행하면서 ARM의 라인업에서 사라졌다. 여담으로 비슷한 시기에 삼성전자에서 엑시노스 5410의 GPU를 선정하려 움직였으나 1순위였던 이 녀석이 드랍되는 바람에 결국 PowerVR SGX544 트리플코어를 채용하는 방향으로 틀어졌다고 한다. 그래도 존재 자체는 아직도 있는 것으로 보인다. 화웨이의 자체 AP인 K3V2의 후속으로 계획 중인 big.LITTLE 기술 적용 AP인 K3V3에 들어간다는 뉴스가 뜬금없이 떴다.

3.3. 2세대 Midgard 아키텍처

3.3.1. Mali-T62X

헥사코어 기준
클럭	성능
700 MHz	600 Mtri/s, 4.2 Gpix/s, 143 GFLOPS
533 MHz	457 Mtri/s, 3.2 Gpix/s, 109 GFLOPS

출처

2012년 8월 2세대 Midgard 기반의 T624와 T628이 T678과 같이 공개되었다. T622는 2013년 6월 2일에 CPU 아키텍처인 Cortex-A12와 함께, 별개로 공개되었다. 2013년 4분기 기준으로 사용하는 AP는 삼성전자의 엑시노스 5420이 유일하며 탑재된 기기로 갤럭시 노트3와 갤럭시 노트 10.1 2014이 있다. 이들이 워낙 많이 팔려 호환성 문제는 곧 없어지겠지만, ASTC 압축 포맷을 지원하고 Open GL 4.3과 Open GL ES 3.0에 대응한다. 이전 T60X 시리즈에 비해서 약 50%의 성능 향상이 있다고 한다.

벤치마크상 헥사코어 버전의 성능은 퀄컴의 아드레노 330과 거의 비슷한 성능. 다만 Mali 계열은 이전까지 6개월 정도 드라이버 최적화 과정 후 성능이 눈에 띄게 올라가는 것이 다반사였기 때문에 조금 더 지켜볼 필요가 있다.

마찬가지로 T62x 시리즈도 사람들의 관심사에서 멀어질 때 쯤 하여 최적화 드라이버가 기기에 적용되었다. 특히나 Open GL ES 3.0 환경에서 프레임이 2배 가 되어, 상대적으로 차이가 많이 나던 Adreno 330 기기과 정말로 동급이, 또는 상위가 되어 버렸다 Adreno 330대비 비교적 떨어졌던 프레임도 동급이 되어 버리고, 결정적으로 T62x 시리즈는 Open GLES 3.1 API를 지원하면서 Adreno 330과의 경쟁은 T628 MP6의 판정승이었다.

여담으로, GPU 명에 마지막으로 들어가는 숫자는 최대 코어 개수를 의미한다. 때문에 엑시노스 5420이 T628을 옥타 코어가 아닌 셰이더 코어 2개를 덜어내어 헥사 코어로 사용하고 있다.

3.3.1.1. Mali-T622

듀얼코어 기준
클럭	성능	타겟공정
? MHz	? Mtri/s, ? Gpix/s	32nm , 28nm

3.3.1.2. Mali-T624

쿼드코어 기준
클럭	성능	타겟공정
? MHz	? Mtri/s, ? Gpix/s	32nm , 28nm

3.3.1.3. Mali-T628

옥타코어 기준
클럭	성능	타겟공정
695 MHz	? Mtri/s, ? Gpix/s	32nm , 28nm

삼성 엑시노스 5420/5422(5800)/5430에 들어간 GPU이다. 위에서 언급되었듯이 초창기에는 퀄컴 스냅드래곤 800, 퀄컴 스냅드래곤 801에 들어간 Adreno 330에 비해 낮은 성능을 보여주었으나 현재는 대부분의 벤치마크에서 더욱 높은 성능을 보여주고 있다. 이로서 엑시노스 5430이 퀄컴 스냅드래곤 805 APQ8084보다 한 단계 높은 CPU 연산성능을 보였으나 낮은 GPU성능을 보였던 것이 어느 정도 향상되었다.

3.3.2. Mali-T678

옥타코어 기준
클럭	성능	타겟공정
? MHz	? Mtri/s, ? Gpix/s	28nm

1개의 셰이더 코어당 4개의 ALU 모듈이 있으며, 이는 이전 Mali T658의 개선 버전으로 추정됨. Midgard 아키텍처는 1ALU당 FP32 성능이 17 ops/cycle이고 Mali-T678에는 T658과 마찬가지로 8코어 기준 32ALUs가 들어간다. 다만 시장에 실 탑재된 제품이 출시되지도 않고, 어느 순간부터 ARM의 제품 리스트에서도 사라졌다.

3.4. 3세대 Midgard 아키텍처

3.4.1. Mali-T720

옥타코어 기준
클럭	성능	공정
650 MHz	650 Mtri/s, 5.2 Gpix/s, 88.4 GFLOPS	28nm HPM

2013년 10월 발표된 ARM의 새로운 중급 라인업의 GPU이다. 2세대 Midgard 기반의 GPU지만, 일단 라인업상 Mali-450을 잇는 중급 라인업이다. 그러나 공개된 스펙을 보면 중급의 그것이 아닌데, 현세대인 Mali-T62X 시리즈와 비슷하거나 그 이상의 성능을 보여 준다. 전력효율은 150%, 성능은 50% 상승이라고 하는데, 기준이 Utgard 라고 하면 너무 높고 Midgard 라고 한다면 낮다.

현재 시장에서 T62X시리즈를 탑재하고 시장에 출시된 제품은 삼성전자의 삼성 엑시노스 5 시리즈가 유일하며, 이것은 Utgard 기반의 GPU가 라이센스와 양산이 쉬워서 많은 제조사들이 채택했다는 것에 비해서 너무 접근성이 떨어진다는 상황을 잘 보여주고 있다. 양산이나 설계 능력이 떨어지는 제작사들은 Midgard 보다는 기존의 Utgard 기반의 Mali-450을 탑재하고 있는 상황에서 양산의 용이성을 높이고 성능 효율을 끌어올린 기존 T600 시리즈를 최적화한 버전이라고 할 수 있겠다. 특히 중요한 점은, 동일 공정에서 다이 사이즈도 30% 줄었다는 것이다.

나중에 상세히 밝혀진 바로는 각 코어의 연산 모듈의 수가 1개로 같이 공개된 T760의 반토막 버전이라고 할 수 있다. 실 제품은 2015년 하반기나 되어서 출시 되었는데, 탑재 제품이 대부분 보급형을 타겟 성능으로 잡아서 1~2 코어 구성으로 나왔다. 따라서 GFX벤치 2.7 티렉스 기준 25fps를 찍어주는 T628 헥사코어에 비해서는 성능이 상당히 낮게 나온다. 엑시노스 7580의 Mali-T720MP2가 티렉스 14fps정도를 찍는 수준으로 Adreno 320과 비슷한 성능이다. 실 제품으로 출시된 T760의 다이 크기가 생각보다 상당히 커서[6]여전히 삼성 위주로 사용되었다는 것과 대비해 보면, T720은 2015년 현재 최신 API인 Open GLES 3.1을 지원하며 무난히 중/저가형 포지션을 책임 질 만큼의 성능과 생산성을 가진 GPU IP로 각광 받고 있다. 이것이 어느 정도 영향이 있었는지, 미디어텍 같은 경우 자사의 ARMv8 라인업에서 1세대 제품을 재빨리 단종시키고, GPU를 T760에서 T720으로 다운그레이드시킨 2세대 모델을 시장에 일찍 출시하였다.

3.4.2. Mali-T760

16코어 기준
클럭	성능	공정
695 MHz	1390 Mtri/s, 11.2 Gpix/s, 378 GFLOPS	28nm HPM

Mali-T720과 같이 공개된 하이엔드 라인업. 공개된 성능만으로 보면 Mali-T720과 같은 코어로 추정되며, 최대 16개의 코어를 추가할 수 있다. 각 코어당 2개의 연산모듈이 들어가며, 전력효율은 기존 1세대 Midgard인 T604의 4배라고 한다. 다만 순수 아키텍처 개선이 아닌 공정밀도 미세화까지 반영된 전력효율이다.

압축 기술인 AFBC(ARM Frame Buffer Compression)과 Smart Composition 기술을 적용해, 이미지와 텍스처를 읽어들일 때 기존보다 메모리 대역폭과 전력 소비가 50% 줄었다고 한다. CES 2014에서 첫 탑재 AP가 공개되었다. 제조사는 중국의 락칩. 4개라는 비교적 적은 수의 셰이더 코어가 탑재된 T764 구성으로도 현재 시장에 정식 출시된 모든 AP를 상회하는 성능을 보여준다고. 다만 대대로 뛰어난 GPU 성능을 보여 준 NVIDIA Tegra K1의 GPU보다는 저성능이다. 나중에 수율 문제가 있었는지 정식 출시 성능은 발표 때의 반토막보다는 소폭 높은 성능이다.

삼성 엑시노스 7 Octa (5433)에 헥사코어 구성으로, 7420에 옥타코어 구성으로 들어갔다. 옥타코어 구성의 Mali-T760 772mhz는 FP32 기준 210 GFLOPS의 연산성능과 6.2 GPix/s의 픽셀 필레이트를 보여준다.

보여주는 성능은 동시기 비교군 대비 그리 우월하거나 눈에 띄게 뛰어나지 않지만 다중 코어 구성으로 다양한 라인업에 사용될 수 있다는 예시가 되었다.[7]

여담으로 GPU 코어의 다이가 이전 Mali스럽지 않게 큰 편이다. 1:1 코어 비교 시 Cortex A57과 거의 비슷한 크기다.

3.5. 4세대 Midgard 아키텍처

3.5.1. Mali-T820

4코어 기준
클럭	성능	공정
650 MHz	400 Mtri/s, 2.6 Gpix/s	28nm HPM

T720의 개선 버전으로, 각 셰이더 코어에서 ALU 모듈의 수는 1개로 유지하고 성능을 개선, 텍셀 필 레이트 성능을 20%끌어올렸다. ARM의 주장으로는 같은 코어 구성에서 이전 T62x 시리즈 대비 40% 높은 성능을 보인다고 한다.

3.5.2. Mali-T830

4코어 기준
클럭	성능	공정
650 MHz	400 Mtri/s, 2.6 Gpix/s	28nm HPM

드디어 Mali Cost Efficient Graphics 라인업에서 각 셰이더 코어 당 2개의 ALU 모듈을 갖는 GPU IP이다.

T820 대비 높은 연산성능을 보여 줄 것으로 예상되며, 같은 코어 구성에서 Mali T62x 대비 55% 높은 성능을 보여 준다고 한다. 삼성의 엑시노스 7 Octa 7870, 7880에 각각 싱글, 트리플 코어구성으로 들어갔다.

3.5.3. Mali-T860

16코어 기준
클럭	성능	공정
650 MHz	1300 Mtri/s, 10.4 Gpix/s, 353.6 GFLOPS	28nm HPM

전작 T700 라인업의 동일한 하이엔드급 GPU인 Mali-T760과 동일한 IPC를 가진다. 그러니깐 동일한 코어 수와 동일한 클럭 수면 동일한 픽셀 필레이트와 동일한 FP32 연산능력을 가진다는 것이다. 다만 전력효율을 전작 대비 20% 끌어올렸고 GPU 자체의 효율 증가로 동일 클럭에 GFX 3.0 맨해튼 기준 +20%의 성능 향상을 보여주었다. T760이 경쟁작 Adreno나 PowerVR의 GPU보다 전성비가 상대적으로 낮은 문제를 해소한 걸로 보인다.

3.5.4. Mali-T880

16코어 기준
클럭	성능	공정
850 MHz	1700 Mtri/s, 13.6 Gpix/s, 693.6 GFLOPS	16nm (16 FinFET)

점점 GPU의 연산성능을 중요시하는 현세대의 트렌드를 반영하여 드디어 각 코어당 연산 모듈의 수가 3개로 늘어났다. 그 효과로 Mali-T860 대비 연산능력이 1.5배 상승했다. 픽셀, 텍셀 필 레이트는 동일하다. 그러나 미드가르드 아키텍처를 또다시 약간 개량한 수준에 그쳤기 때문에 여러 커뮤니티에서 성능에 대한 우려의 목소리가 나왔다. 2015년 11월 12일 삼성전자에서 공식발표한 엑시노스 8890에 12코어 구성으로 들어가고 하이실리콘 Kirin 950와 955에는 4코어 구성으로 돌아간다. Kirin 950의 Mali-T880 4코어 구성에 900MHz의 클럭으로 엑시노스 7 Octa (5433)의 Mali-T760 6코어와 Adreno 420과 동일한 성능을 보여준다. 다만 이들 모두 무려 맥스웰 마이크로아키텍처를 사용한 NVIDIA Tegra X1의 GPU인 GM20B에는 많이 못 미치는 성능이다.

결국 12코어 탑재 기기인 갤럭시 S7이 나왔는데, 우려대로 기대 이하의 퍼포먼스를 보여주어 실망스럽다는 반응이 대다수였다. 당시 동급으로 출시된 퀄컴의 아드레노 530에게 벤치에서는 2~30%가량, 실제 게이밍에서는 비교할 수도 없이 밀리는 것으로 나왔는데, 이는 우릴대로 우려먹은 미드가르드 아키텍처가 이미 한계에 도달한 것이라고 여러 커뮤니티에서 입이 모아졌다. 이는 아키텍처를 대대적으로 뜯어고치는 것 말고는 방법이 없었으며 결국 다음 모델인 G71에선 아키텍처가 바뀌면서 성능이 향상되었다.

3.6. 1세대 Bifrost 아키텍처 기반

3.6.1. Mali-G71

ARM Mali-G71

1 ~ 32코어 구성이 가능한 유연한 구조이며, Mali-T880 대비 20%의 전력 효율 증가, 40%의 성능 집적도 증가, 20%의 외부 메모리 대역폭 절약. 차세대 10nm 공정으로 먼저 적용된다. 본격적인 AR/VR, Vulkan 지원 등을 염두에 두었다. 삼성 엑시노스 9 8895에 G71 MP20, 삼성 엑시노스 7 7885에 G71 MP2로 각각 20코어, 2코어 탑재가 확인되었다.

아키텍처를 대대적으로 갈아엎으면서 이전 저조한 평가를 받은 T880에 비해 성능이 대폭 개선되었다. 수 년 간 우려먹었던 미드가르드 아키텍처를 드디어 버린 것인데, 덕분에 항상 퀄컴에게 밀렸던 GPU가 이제 벤치마크에서만큼은 거의 대등하게 되었다. 더불어 연산구조가 벡터에서 스칼라 구조로 바뀌면서 연산성능 또한 크게 향상되었다. 하지만 전성비나 실제 게이밍에서는 여전히 좀 뒤떨어지는 모습을 보여준다.

엑시노스 8895의 G71MP20 기준, 최대성능 자체는 경쟁모델인 스냅드래곤 835의 아드레노 540과 대등하나[8], 코어 숫자가 많아진 탓에 소비전력이 두 배가량 커 전성비가 나쁘다.[9] 이는 상당한 발열을 불러왔고, 결국 스로틀링이 쉽게 걸려버리는 문제로 이어졌다. 이로 인해 긴 시간 동안 부하를 주는 롱텀 퍼포먼스 벤치마크에서 저조한 결과가 나왔고, 이 테스트가 실제 게이밍 퍼포먼스와 직결된 만큼 역시나 부족한 모습을 보여주었다. 허나 부드러운 게이밍을 포기하다시피했던 전작들에 비하면 크게 개선된 모델임에는 틀림없다.

로드맵 상 간만의 대규모 아키텍처 변화가 있는 세대였음에도 불구하고, 몇 년간 성능과 전력소모에는 불리한 방향인 소형화에만 집중했던 아드레노를 따라잡기는커녕 오히려 크게 뒤떨어졌다는 사실은, ARM과 퀄컴의 GPU 기술 격차를 보여 준다. 이 다음 세대의 아드레노에서는 모델명의 앞자리 숫자가 바뀌면서 큰 성능 개선이 있었고, 이미 이전 버전에서 전력을 다해 마이너 업그레이드밖에 되지 않은 Mali-G72로 아드레노를 상대해야 했던 삼성은 무려 2.5배나 되는 거대한 다이사이즈를 때려박아 가면서 성능은 큰 폭으로 밀리지만 전성비라도 겨우 동급을 맞추었다.

Mali-G71 GPU
아키텍처	Bifrost
코어 수	1~32
단위 코어당 FP32 연산 능력	24 FLOPS
단위 코어당 텍스쳐 필레이트	1
단위 코어당 픽셀 필레이트	1
클럭	(16nm FinFET 기준) 850 MHz
처리량	(16nm FinFET 기준) 850Mtri/s, 27.2Gpix/s
API	OpenGL ES 1.1/2.0/3.0/3.1/3.2 Vulkan 1.0 Direct3D 12 (Feature Level 11_1) OpenCL 1.1/1.2/2.0 RenderScript™
출처 - ARM 공식 데이터시트

3.6.2. Mali-G51

ARM Mali-G51

3.6.3. Mali-G31

1세대 Bifrost 아키텍처를 기반으로 하는 2018년 1분기에 출시된 초소형 중급기 GPU이다.

Mali-G51보다 크기는 20% 작고, 성능 밀도는 20% 높아졌다.

Mali-G31 GPU
아키텍처	Bifrost
코어 수	1~6
클럭	(28nm HPM 기준) 650 MHz
처리량	(28nm HPM 기준) Mtri/s, 1.3 Gpix/s
API	OpenGL ES 1.1/2.0/3.2 Vulkan 1.2 OpenCL 1.1/1.2/2.0 RenderScript™

3.7. 2세대 Bifrost 아키텍처 기반

3.7.1. Mali-G72

1 ~ 32코어 구성이 가능한 유연한 구조이며, 동일 공정 노드에서 G71보다 성능 밀도 +20%, 전력 효율이 +25%가 향상되었다. 다만, G72가 G71 대비 면적이 +4.2% 정도 증가해서 G71보다 최대 구성은 소폭 감소할 것으로 예상된다. 라고 예상되었으나 엑시노스 9810의 G72 MP18기준, 그래픽 성능 +15%, 연산성능 동급으로 나와서 성능 개선이 매우 아쉽게 나왔다. 그나마 다행인 점은 전력 효율은 발표대로 +25%가 향상되었다. 일단 성능은 아드레노보다 크게 떨어지지만, 전력소모량은 별로 밀리지 않는 모습을 보여준다. 하지만 이 배경에는 GPU 면적을 아드레노의 2.5배나 때려박은 삼성의 노력이 있었다. 셰이더 코어 구성을 줄이고 클럭을 올리면 면적은 아낄 수 있었겠지만 G72에서 그나마 개선된 전력소모 절감 효과도 보지 못했을 것이다.

Mali-G72 GPU
아키텍처	Bifrost
코어 수	1~32
단위 코어당 FP32 연산 능력	24 FLOPS
단위 코어당 텍스쳐 필레이트	1
단위 코어당 픽셀 필레이트	1
클럭	(16nm FinFET 기준) 850 MHz
처리량	(16nm FinFET 기준) 850Mtri/s, 27.2Gpix/s
API	OpenGL ES 1.1/2.0/3.0/3.1/3.2 Vulkan 1.0 Direct3D 12 (Feature Level 11_1) OpenCL 1.1/1.2/2.0 RenderScript™
출처 - ARM 공식 데이터시트

3.7.2. Mali-G52

중급기용 GPU, 발표가 늦었던 편이다.(G76 3개월 전)

Mali-G52 GPU
아키텍처	Bifrost
코어 수	1~4
클럭	(16nm FinFET 기준) 850 MHz
처리량	(16nm FinFET 기준) 6.8 Gpix/s
API	OpenGL ES 1.1/2.0/3.0/3.1/3.2 Vulkan 1.0 OpenCL 1.1/1.2/2.0 RenderScript™

3.8. 3세대 Bifrost 아키텍처 기반

3.8.1. Mali-G76

전작인 G72가 전력 효율을 제외하곤 큰 실망감을 안겨주었으나, G76은 성능 개선에 중점을 둔 GPU이다. 7nm 기준이지만 RTL(Register Transfer Level)이라 어떤 공정이든 쓸 수 있으며, 7~10nm 공정이 주로 이용될 것으로 추정된다. 코어 구성은 전작보다 줄어든 4~20코어며, 7nm 공정에서 G72보다 성능이 최대 50% 향상되었고, 성능 밀도와 전성비는 30%, 머신러닝은 2.7배 향상되었다. ALU가 G72의 4레인에서 8레인으로 2배 늘어나 성능 향상이 꽤 클 것으로 보인다. 삼성 엑시노스 9820에는 12코어 탑재가 확인되었다.

Mali-G76 MP20의 경우 Mali-G72 MP32 대비 최대 25% 성능이 개선되었고, 7nm 공정에서 Mali-G76 MP12 구성시 10nm LPP 퀄컴 스냅드래곤 845 대비 성능이 최대 13% 뛰어나고, 전성비는 40% 정도 우수하다고 한다. 물론 공정이 다르므로 성능 자체는 845와 유사할 것으로 추정되며, 내년에 공개할 스냅드래곤 855(가칭)에겐 여전히 밀릴 것으로 추측된다. 엑시노스 9820에는 MP12가 탑재되었으며, 전작보단 그래픽 성능이 많이 나아지겠으나 경쟁사에겐 여전히 밀릴 가능성이 높다.

Mali-G76 GPU
아키텍처	Bifrost
코어 수	4~20
단위 코어당 FP32 연산 능력	48 FLOPS
단위 코어당 텍스쳐 필레이트	2
단위 코어당 픽셀 필레이트	2
클럭	(7nm FinFET 기준) MHz
처리량	(16nm FinFET 기준) Mtri/s, Gpix/s
API	OpenGL ES 1.1/2.0/3.0/3.1/3.2 Vulkan 1.1 OpenCL 1.1/1.2/2.0
출처 - ARM 공식 데이터시트

2018년 6월 11일 기준, 클럭과 처리량, API 공개가 다 이뤄지지 않아서 여백이 있다.

3.9. 1세대 Valhall 아키텍처 기반

3.9.1. Mali-G57

Valhall 아키텍처 기반의 중급기용 GPU 이다.

말리 G52에 비하여 머신러닝 성능은 60% 향상되었고, 성능과 전력효율이 30% 향상되었다.

Mali-G57 GPU
아키텍처	Valhall
코어 수	1~6
클럭	(7nm FinFET 기준) MHz
처리량	(7nm FinFET 기준) Mtri/s, Gpix/s
API	OpenGL ES 1.1/2.0/3.0/3.1/3.2 Vulkan 1.1 OpenCL 1.1/1.2/2.0 RenderScript™

3.9.2. Mali-G77

완전히 구조가 바뀐 Valhall 아키텍처와 함께 공개되었다. 제품화되진 않았지만 아키텍처는 최대 16코어까지 확장을 지원한다. arm에서는 전작인 G76 대비 최대성능이 30% 향상되었고, 소비전력이 30% 감소했으며, 머신러닝 성능이 60% 개선되었다고 발표했다.

Mali-G77 GPU
아키텍처	Valhall
코어 수	7~16
단위 코어당 FP32 연산 능력	64 FLOPS
단위 코어당 텍스쳐 필레이트	4
단위 코어당 픽셀 필레이트	2
클럭	(7nm FinFET 기준) 695 MHz
처리량	(7nm FinFET 기준) Mtri/s, Gpix/s
API	OpenGL ES 1.1/2.0/3.0/3.1/3.2 Vulkan 1.1 OpenCL 1.1/1.2/2.0
출처 - ARM 공식 데이터시트

3.10. 2세대 Valhall 아키텍처 기반

3.10.1. Mali-G68

6개 이하 코어를 지닌 모델은 G68이라는 별도의 서브 프리미엄 GPU로 선보였는데, 실리콘 면적을 줄여 전체 다이 사이즈를 작게 만드는데 초점을 둔 모델이다. 최신 Valhall 아키텍처 기반 GPU이면서도 크기를 줄여 가격을 낮춘 중급기 모델이다.

Mali-G68 GPU
아키텍처	Valhall
코어 수	1~6
클럭	(5nm 세부공정 불명 기준) MHz
처리량	(5nm 세부공정 불명 기준) Mtri/s, Gpix/s
API	OpenGL ES 1.1/2.0/3.0/3.1/3.2 Vulkan 1.1/1.2 OpenCL 1.1/1.2/2.0

3.10.2. Mali-G78

G68과 함께 공개된 Valhall 아키텍처 기반, 두 번째 GPU이다. arm에서는 전작인 G77 대비 최대성능이 25% 향상되었고, 소비전력이 10% 감소되었다고 발표했다. 최소 7코어 사양만은 동일하나, 코어 최대구성은 전작 G77의 16코어에서 24코어로 늘어났다.

추가로 비동기적 최상위 등급기술을 통해 모든 코어에서 성능이 효율적이고 효과적으로 전달되도록 해서 모바일 게임에서 최대한 높은 성능을 발휘하고 생산성을 극대화하였다.[10] 그리고 타일러가 개선되어 PC나 콘솔에서 모바일로 옮겨온 게임들이 매우 복잡한 장면 및 정교한 자산으로 성능 문제와 병목 현상이 발생하지 않도록 GPU 버텍스 로드를 감소시켜 게임 성능을 향상시킨다.

화웨이의 Kirin 9000 AP에 24코어 구성으로 탑재되었으며, Mate 40 스마트폰에 탑재되었다. 한국시간으로 2021년 1월 12일 오후 11시에 공개된 엑시노스 2100에는 14코어 구성으로 탑재가 확정되었다.

Mali-G78 GPU
아키텍처	Valhall
코어 수	7~24
단위 코어당 FP32 연산 능력	64 FLOPS
단위 코어당 텍스쳐 필레이트	4
단위 코어당 픽셀 필레이트	2
클럭	(5nm 세부공정 불명 기준) 759 MHz
처리량	(5nm 세부공정 불명 기준) Mtri/s, Gpix/s
API	OpenGL ES 1.1/2.0/3.0/3.1/3.2 Vulkan 1.1/1.2 OpenCL 1.1/1.2/2.0
출처 - ARM 공식 데이터시트

3.10.3. Mali-G78AE

Mali-G78AE는 ARM이 안전을 위해 설계한 첫 GPU이다. 안전이 필수적인 자율 애플리케이션에 대한 사용자 경험과 이기종 컴퓨팅을 제공한다.

자율 GPU 워크로드에 대한 새로운 접근 방식인 플렉시블 파티셔닝을 통해 기능 안전이 중요한 워크로드를 분리시킬 수 있는 최대 4개의 완전히 독립된 파티션을 제공한다. GPU 리소스는 이제 안전성 기능을 갖춘 HMI 또는 자율 시스템에 필요한 이기종 컴퓨팅에 활용될 수 있다.

3.11. 3세대 Valhall 아키텍처 기반

3.11.1. Mali-G310

말리 라인업 중 가장 엔트리 라인업이었던 G31의 후속작이다.

3.11.2. Mali-G510

G57의 후속작으로, 중급기를 타겟으로 한 GPU이다. 기존에 비해 성능은 2배, 소비 전력은 22% 향상되었다. 또한 머신러닝 성능이 두 배 향상되었다.

3.11.3. Mali-G610

G710과 같은 구조며, 전작인 G68과 같이 G7x번대의 제품에서 최대 구성 가능 코어수만 줄여 서브 제품군화한 IP이다.

3.11.4. Mali-G710

3세대 Valhall 아키텍처 기반으로 발표되었다. 전작인 G78에서의 변경점은 셰이더 코어당 실행 엔진이 하나씩 늘어났고, 과거 말리 아키텍처에서 선보였던 스케일링 구조 중 일부를 다시 채택했다. arm에서는 성능이 20% 향상되었고 소비 전력은 20% 절감되었으며, 머신러닝 성능이 35% 향상되었다고 밝혔다. 구성 가능한 코어 수는 7~16코어이다.

Mali-G710 GPU
아키텍처	Valhall
코어 수	7~16
단위 코어당 FP32 연산 능력	128 FLOPS
단위 코어당 텍스쳐 필레이트	8
단위 코어당 픽셀 필레이트	4
출처 - ARM 공식 데이터시트

3.12. 4세대 Valhall 아키텍처 기반

3.12.1. Mali-G615

G610의 후속작이며, G715와 같은 구조이다. 최대 6코어 구성까지 가능하다.

PC용 옛 그래픽카드인 GTX560TI(...)와 비슷한 성능으로 출시되어 꽤 큰 반향을 일으켰다.

3.12.2. Mali-G715

4세대 Valhall 아키텍처 기반으로 발표되었다. 가변 비율 음영 (Variable Rate Shading,VRS)[11] 기술이 적용되었고, 실행 엔진의 구조가 새로 변경되었으며, 7~9코어 구성이 가능하다.

Mali-G715 GPU
아키텍처	Valhall
코어 수	7~9
단위 코어당 FP32 연산 능력	256 FLOPS
단위 코어당 텍스쳐 필레이트	8
단위 코어당 픽셀 필레이트	4
출처 - ARM 공식 데이터시트

3.12.3. Immortalis-G715

형제 모델인 Mali-G715과 달리, 처음으로 하드웨어 레이트레이싱 가속을 지원하는 arm의 새로운 GPU이다. 또한 네이밍이 Mali가 아닌 Immortalis로 명명되었고, 따로 런칭 영상까지 나온 걸 보면 앞으로 레이트레이싱을 지원하는 플래그십 arm GPU 시리즈는 Immortalis 네이밍을, 일반 프리미엄 arm GPU 라인업은 Mali 네이밍을 가질 것으로 보인다.

Mali-G715와 마찬가지로 가변 비율 쉐이딩(VRS) 기술이 적용되었고, 실행 엔진의 구조가 새로 변경되었으며, 10~16코어 구성이 가능하다．

Immortalis-G715 GPU
아키텍처	Valhall
코어 수	10~16
단위 코어당 FP32 연산 능력	256 FLOPS
단위 코어당 텍스쳐 필레이트	8
단위 코어당 픽셀 필레이트	4
출처 - ARM 공식 데이터시트

3.13. 5세대 아키텍처 기반[12]

3.13.1. Mali-G620

G615의 후속작이며, G720와 같은 구조이다. 최대 5코어 구성까지 가능하다.

3.13.2. Mali-G720

5세대 아키텍처 기반으로 발표되었다. 디퍼드 버텍스 셰이딩(Deferred Vertex Shading)[13] 기술이 적용되었고, 실행 엔진의 구조가 완전히 새롭게 변경되었으며, 7~9코어 구성이 가능하다. arm에서는 최대성능 및 지속부하 시 성능에서 전작 대비 15% 향상되었다고 밝혔다.

Mali-G720 GPU
아키텍처	Valhall
코어 수	7~9
단위 코어당 FP32 연산 능력	256 FLOPS
단위 코어당 텍스쳐 필레이트	8
단위 코어당 픽셀 필레이트	4
출처 - ARM 공식 데이터시트

3.13.3. Immortalis-G720

하드웨어 레이트레이싱 가속을 지원하는 immortalis 시리즈의 두 번째 GPU이다.
형제 모델인 Mali-G720처럼 디퍼드 버텍스 셰이딩(DVS) 기술이 적용되었고, 전작에서 32x32의 타일 처리가 가능했던 것에 비해 64x64로 처리량이 향상되었으며, 7~16코어로 구성이 가능하다. arm에서는 전작 G715 대비 성능이 평균적으로 15% 향상되었다고 밝혔다.

Immortalis-G720 GPU
아키텍처	Valhall
코어 수	7~16
단위 코어당 FP32 연산 능력	256 FLOPS
단위 코어당 텍스쳐 필레이트	8
단위 코어당 픽셀 필레이트	4
출처 - ARM 공식 데이터시트

3.13.4. Mali-G625

G725와 같은 구조이다. 최대 5코어 구성까지 가능하다.

3.13.5. Mali-G725

5세대 아키텍처 기반으로 6~9코어 구성이 가능하다.

Mali-G725 GPU
아키텍처	Valhall
코어 수	6~9
단위 코어당 FP32 연산 능력	256 FLOPS
단위 코어당 텍스쳐 필레이트	8
단위 코어당 픽셀 필레이트	4
출처 - ARM 공식 데이터시트

3.13.6. Immortalis-G925

하드웨어 레이트레이싱 가속을 지원하는 immortalis 시리즈의 세 번째 GPU이다, 10~24코어 구성이 가능하다.

Immortalis-G925 GPU
아키텍처	Valhall
코어 수	10~24
단위 코어당 FP32 연산 능력	256 FLOPS
단위 코어당 텍스쳐 필레이트	8
단위 코어당 픽셀 필레이트	4
출처 - ARM 공식 데이터시트

3.13.7. Mali G1-Pro

G625의 후속작으로 최대 5코어 구성이 가능하다.

3.13.8. Mali G1-Premium

G725의 후속작으로 6~9코어 구성이 가능하다.

Mali G1-Premium GPU
아키텍처	Valhall
코어 수	6~9
단위 코어당 FP32 연산 능력	256 FLOPS
단위 코어당 텍스쳐 필레이트	8
단위 코어당 픽셀 필레이트	4
출처 - ARM 공식 데이터시트

3.13.9. Mali G1-Ultra

디멘시티 9500에서 최초로 확인된 GPU이며, 일전 Arm에서 예고했던 리네이밍 라인업을 최초로 적용받은 G1 시리즈중 최상급 라인업에 속하는 GPU다.
G925 후속작으로 10~24 코어 구성이 가능하다.

Mali G1-Ultra GPU
아키텍처	Valhall
코어 수	10~24
단위 코어당 FP32 연산 능력	256 FLOPS
단위 코어당 텍스쳐 필레이트	8
단위 코어당 픽셀 필레이트	4
출처 - ARM 공식 데이터시트

Dimensity 9500에 12코어 구성으로 탑재되었다.

4. Video 칩셋 라인업

원래는 GPU가 담당할 비디오의 인/디코딩이나 디스플레이 출력을 위한 Mali 라인업들이 있다. 이는 기존의 GPU가 고사양을 필요로 하는 3D 연산을 하는 것은 물론, 4K 해상도 비디오의 인/디코딩 및 디스플레이 출력 등에 많은 리소스가 필요해짐에 따라서 본래 GPU의 목적인 GPU의 3D연산을 발목 잡거나 리소스의 처리에 GPU를 활용하는 것이 전력 효용성이 떨어지는 부분을 보충하기 위한 보조 코어로써 단독이 아닌 Mali T62x/7xx 번대 GPU와 같이 사용되는 것을 전제로 설계되었다.

4.1. Mali-V500

Mali-V500은 최대 8코어 구성의 비디오 인/디코딩 전용 칩이다. 최대 600MHz로 동작하며, 1개의 코어로 1080p 60fps의 인/디코딩을, 8개의 모든 코어를 사용하다면 2160p 120fps 처리가 가능하다.

H.265를 제외한 대부분의 코덱을 지원하며, ARM의 대역폭 압축 기술인 ARM Frame Buffer Compression (AFBC)기술로 기존의 50%의 대역폭만 사용하여 영상을 처리할 수 있다.

4.2. Mali-V550

2014년 10월 27일에 발표된 VPU로, H.265의 디코딩과 인코딩 기능이 추가되었다. 디코딩은 Main Profile과 Main 10 Profile 둘 다 지원하지만 인코딩은 Main Profile만 지원한다.

4.3. Mali-V61

2016년 10월 31일에 발표된 VPU로, H.265 Main 10도 인코딩을 지원하게 되었으며, VP9의 디코딩과 인코딩은 물론 8-bit, 10-bit 색심도까지 모두 지원한다. 최대 해상도와 프레임속도는 V500과 동일하다.

4.4. Mali-V52

2018년 3월 6일에 발표된 VPU로, 넘버링과는 다르게 V61에는 없는 H.264 10-bit 디코딩 & 인코딩을 지원하며, 디코딩 성능이 2배 강화되었다.

4.5. Mali-V76

2018년 5월 31일에 발표된 VPU로, 기능적으로는 V52와 동일하지만 디코딩과 인코딩 성능이 각각 2배씩 더 강화되어 8코어 모두 활용할 경우 8K 60FPS의 초고해상도 동영상까지 대응할 수 있다.

5. Display 칩셋 라인업

5.1. Mali-DP500

2014년 2월 Cortex A17과 같이 공개된 Mali-DP500은 디스플레이 출력전용 칩이다.

비디오의 합성, 색채, 회전 및 3D효과를 처리하며, 4K 12bit를 VESA, CEA, HDMI, MIPI DPI 등의 규격으로 출력이 가능하다. Mali-V500과 같이 ARM의 대역폭 압축 기술인 ARM Frame Buffer Compression (AFBC)기술로 기존 대비 대역폭의 사용이 50%감소.

5.2. Mali-DP550

5.3. Mali-DP650

파일:external/gigglehd.com/6794e992d421b9c3c4491eb43dbe323b.png

2.5K 해상도에 최적화되었고, 최대 4K 60fps까지 출력 가능하다.

5.4. Mali-D71

2017년 10월 31일에 발표된 Komeda 디스플레이 아키텍처를 기반으로 하는 첫 DPU로, AFBC(ARM 프레임 버퍼 압축) 1.2를 지원하여 대역폭, 처리량 및 대기 시간 문제가 해결된 덕에 메모리를 통한 단일 패스로 최대 4K 120FPS까지 구동할 수 있다고 한다. 또한, 기존의 4K 솔루션에 비해 시스템 전력이 30 % 이상 절감되었다고 한다. ARM 개발자 공식 홈페이지의 Mali-D71 소개 참조.

5.5. Mali-D51

2018년 3월 6일에 발표된 DPU로, D71의 하위 라인이라 해상도만 4K 60FPS으로 제한될 뿐 아키텍처는 D71과 같다. ARM 개발자 공식 홈페이지의 Mali-D51 소개 참조.

5.6. Mali-D77

2019년 5월 15일에 발표된 D71의 후속 DPU로, 기본적으로 D71과 같은 아키텍처이지만 VR 처리 기능 추가로 VR HMD 환경에도 최적화되어 최대 해상도가 4320×2160으로 좀 더 확장되었다. ARM 개발자 공식 홈페이지의 Mali-D77 소개 참조.

6. Camera 칩셋 라인업

6.1. Mali-C71

2017년 4월 25일에 발표된 ARM의 첫 ISP로, 1.2 GPixel/s의 처리량을 지원하고 최대 4096×4096 해상도에 4개의 렌즈까지 지원하며, 24스톱의 다이나믹 레인지에 최대 16채널까지 지원한다.

7. 문제점

사실 말리가 기본적으로 퀼컴과 애플의 GPU에 비해 최대 성능이나 전성비로나 뭐 하나 좋았던 시기가 전무했던 데다가, 아키텍처 구조상 모바일 게임에서 흔히 쓰이는 OpenGL API와의 궁합이 좋지 않아 그마저도 제 성능을 내기가 어렵다. 또한 설계컨셉 상 코어 수 조절로 여러 라인업을 폭넓게 커버하는 점 때문에 고성능을 추구할수록 별 수 없이 코어 수를 늘리게 되고, 이는 다이면적 및 전력소모를 크게 늘려 결국 SoC의 전체적인 전성비 밸런스를 무너뜨리는 결과로 이어진다.

2015년까지는 주력으로 사용하던 엑시노스가 제조공정 우위로 우격다짐하여 어찌저찌 체면치레를 하고 있었으나, 2017년을 기점으로 엑시노스가 흔들리기 시작하자 말리 GPU의 민낯 역시 서서히 드러나게 되었다. 엑시노스 8895에는 G71을 무려 20코어, 9810에서 G72를 18코어씩이나 때려박고도 피크성능 및 전성비 모두 큰 열세를 면치 못하였으며, 2019년 엑시노스 9825의 Mali-G76이 반짝 선전을 했지만, 급기야 2020년 엑시노스 990의 G77에서는 아예 동 세대의 스냅드래곤 865(아드레노 650)와 경쟁은 고사하고 플래그십에서 써먹기조차 힘든 엉망진창을 선보였다.[14] 오죽했으면 "망(亡)리", 똥말리등의 별명이 붙었을까.

결국 말리 GPU를 가장 애용하던 삼성은 2018년부터 몇 년 째 계속되는 지지부진한 전성비와 성능 향상, 거기에다가 최악 수준의 면적 대 성능비에 학을 떼었다. 이게 어느 정도로 면성비가 안 좋았냐면, Kirin 9000이 Mali-G78을 14개 사용한 엑시노스 2100보다 70% 더 많은 24개를 퍼붓고 TSMC N5 공정 수혜를 받았음에도 비교했을 때 측정된 성능 차이가 3DMark WLE는 겨우 8%, GFXBench는 15~20% 정도밖에 되지 않았다. 그래서 삼성은 2022년부터 AMD의 GPU를 도입하기 시작하고, 2024년 이후 출시되는 모바일 AP는 모두 RDNA 기반 GPU로 전환을 완료하여 말리를 완전히 버리게 되었다.

퀄컴의 아드레노 GPU가 세대를 거듭할수록 꾸준한 개선을 보인 끝에 2023년을 기점으로 애플을 아예 앞서나가버리는 데 성공하고, 구글 역시 자체 AP인 텐서에서 PowerVR로 전환 계획을 세우면서 말리는 모바일 시장에서의 사용처가 미디어텍 하나밖에 남지 않는 궁지에 몰리게 된다.

결국 2024년 Arm은 작정하고 말리 GPU의 설계를 완전히 뜯어고쳤고, 고클럭 기조로 틀면서 가까스로 Immortalis-G920 시리즈에서는 여전히 면성비는 약간 못 미치지만 아드레노에 겨뤄볼만한 정도가 되었다.

8. 관련 문서

퀄컴의 Adreno
Imagination Technologies의 PowerVR
Vivante의 GC 시리즈

[1] 당시 Arm 홀딩스[2] 실제로 Bifrost와 Valhall용 드라이버도 소스코드에는 모두 Midgard로 표시되어 있다.[3] Mali-400의 최대 구성 가능 개수[4] 최대 지원 개수[5] 최대 지원 개수[6] 1코어가 동 공정의 Cortex-A57 1코어와 거의 같은 크기다.[7] 시장에 출시된 제품으로 비교해 보자면 단순 코어 수 조절 만으로, MP2 = 퀄컴 Adreno 320 / MP4 = 퀄컴 Adreno 330 / MP6 = 퀄컴 Adreno 420 / MP8 = 퀄컴 Adreno 430과 비슷한 성능을 낼 수 있다.[8] GFX벤치에서는 엑시노스 우위, 3DMark에서는 스냅드래곤 우위.[9] 삼성의 10nm LPE 공정빨로 겨우 억누른게 이 정도다.[10] 비동기식 최상위 레벨을 높이면 약간 더 많은 전력을 사용하지만 전체 GPU 소비 전력의 90 ~ 95 %를 사용하는 셰이더 코어의 동작 클럭을 낮춤으로써 소비 전력 절감 효과가 훨씬 더 높다는 것이 Arm의 설명이다.[11] 3D 그래픽에서 눈에 잘 띄는 부분만 자세하게 연산하고, 불필요한 부분은 쉐이딩 연산을 덜 하여 성능을 향상시키는 기술이다.[12] 여태까지의 말리 아키텍처에는 Midgard, Bifrost, Valhall 등의 북유럽 신화에서 유래한 네이밍이 붙었으나, 이번엔 단순히 5세대라고만 지칭됐는데 그 이유는 불명.[13] 지연 셰이딩이랑 다른 기술이다. 디퍼드 셰이딩은 광원 연산을 먼저 하지 않고, 우선순위를 미뤄두었다가 연산하는 기술이고, DVS는 버텍스가 가시성이 판단되기 전까지는 연산하지 않는다.[14] 단, 이는 삼성 파운드리 7nm 공정이 생각보다 문제가 많았던 점도 있다.

Arm Mali GPU

1. 개요

2. 상세

3. GPU 제품 라인업

3.1. Utgard 아키텍처

3.1.1. Mali-55 / Mali-110

3.1.2. Mali-200 / Mali-300

3.1.3. Mali-400

3.1.4. Mali-450

3.1.5. Mali-470

3.2. 1세대 Midgard 아키텍처

3.2.1. Mali-T604

3.2.2. Mali-T658

3.3. 2세대 Midgard 아키텍처

3.3.1. Mali-T62X

3.3.1.1. Mali-T622

3.3.1.2. Mali-T624

3.3.1.3. Mali-T628

3.3.2. Mali-T678

3.4. 3세대 Midgard 아키텍처

3.4.1. Mali-T720

3.4.2. Mali-T760

3.5. 4세대 Midgard 아키텍처

3.5.1. Mali-T820

3.5.2. Mali-T830

3.5.3. Mali-T860

3.5.4. Mali-T880

3.6. 1세대 Bifrost 아키텍처 기반

3.6.1. Mali-G71

3.6.2. Mali-G51

3.6.3. Mali-G31

3.7. 2세대 Bifrost 아키텍처 기반

3.7.1. Mali-G72

3.7.2. Mali-G52

3.8. 3세대 Bifrost 아키텍처 기반

3.8.1. Mali-G76

3.9. 1세대 Valhall 아키텍처 기반

3.9.1. Mali-G57

3.9.2. Mali-G77

3.10. 2세대 Valhall 아키텍처 기반

3.10.1. Mali-G68

3.10.2. Mali-G78

3.10.3. Mali-G78AE

3.11. 3세대 Valhall 아키텍처 기반

3.11.1. Mali-G310

3.11.2. Mali-G510

3.11.3. Mali-G610

3.11.4. Mali-G710

3.12. 4세대 Valhall 아키텍처 기반

3.12.1. Mali-G615

3.12.2. Mali-G715

3.12.3. Immortalis-G715

3.13. 5세대 아키텍처 기반[12]

3.13.1. Mali-G620

3.13.2. Mali-G720

3.13.3. Immortalis-G720

3.13.4. Mali-G625

3.13.5. Mali-G725

3.13.6. Immortalis-G925

3.13.7. Mali G1-Pro

3.13.8. Mali G1-Premium

3.13.9. Mali G1-Ultra

4. Video 칩셋 라인업

4.1. Mali-V500

4.2. Mali-V550

4.3. Mali-V61

4.4. Mali-V52

4.5. Mali-V76

5. Display 칩셋 라인업

5.1. Mali-DP500

5.2. Mali-DP550

5.3. Mali-DP650

5.4. Mali-D71

5.5. Mali-D51

5.6. Mali-D77

6. Camera 칩셋 라인업

6.1. Mali-C71

7. 문제점

8. 관련 문서

분류