移动GPU那些事

2013-08-27张仁青《微型计算机》2013年8月上

喜欢

ARM Mali—“亲儿子”

发展历史：

ARM作为整个ARM生态圈的核心，在移动SOC的CPU发展上具有决定性的地位。不过在移动GPU的发展上ARM就没这么重要了。早期的ARM甚至没有GPU部分，直到2006年，ARM收购了挪威移动GPU厂商Falanx后，才推出了自己的亲儿子—Mali移动GPU。

首款MaliGPU目前可查的信息为Mali-200系列，多只能支持1个显示核心，频率有230MHz和380MHz两种，在275MHz下的三角形输出率为16M/s、像素填充率为275M/s。Mali-200做为Mali系列的开山之作，也由于经验不足存在很多问题，不过这个系列的产品前已经几乎看不到了，只有一些低端的机型或者是在嵌入式设备中可能还能看到它的身影。

从市场角度来说，ARM拥有Mali GPU的优势在于可以向厂商推出整体化的一条龙解决方案。厂商可以向ARM同时购买CPU和GPU的授权，组建自己的原生SOC芯片。不过早期的Mali芯片在性能特别是兼容性上存在一定问题—移动GPU目前标准比较多，各家GPU厂商的规格都不一样，因此如果不专门为某些芯片做出优化而只是用标准规格的话，要么某些G PU性能很差，要么会无法运行。Mali刚推出时，由于市场占有率不足，产品较少，因此很多软件都没有来得及支持Mali，不过在经过长时间发展特别是ARM的一体化推广后，Mali得到了三星这样的巨头支持，随着三星手机和Exynos产品的大卖，Mali无论在兼容性还是性能上优化都有了长足的发展，目前已经很少有严重的兼容性问题出现。2012年，ARM的Mali占据了2.6%的市场份额，算是小有成就吧。

HTC Desire和Google NexusOne都采用的是Adreno 200芯片，奠定了高通在移动GPU界的领先地位。

搭配Adreno 330的Snapdragon 800是目前强悍的SOC芯片，三星GalaxyS4 LTE-A使用了这颗处理器。

三星目前是Mali系列产品坚定的支持者，从Galaxy S2到Galaxy Note，Mali帮助三星征服了无数消费者。

Nexus 10采用了目前新的Mali-T604 GPU，可惜这款平板销量看起来不那么喜人。

当前主流产品：

如果说Mali-400MP系列的成功谁功劳大的话，除了ARM本身不懈的推广外，三星肯定是大的功臣。三星在自家Exynos 4系列产品，比如Exynos 4210、Exynos 4212以及四核的Exynos4412都使用了Mali-400MP系列的GPU产品，随着三星GalaxyS 、Galaxy Note系列手机的大卖，Mali-400MP系列成为市场上火爆的明星。

Mali-400MP规格上依旧主要支持OpenGL ES 2.0/1.1，采用统一渲染架构。相比前代产品，Mali-400MP的大特点在于可以进行多核心配置—少单核心，多四核心。每个核心的Mali-400MP在65nm工艺下只有4.7mm²面积，缓存可选8KB到266KB，性能在275MHz时达到三角形输出率为30M/s、像素填充率1100M/s，相比前代产品，像素填充率的大幅度提升让Mali-400MP可以轻松面对高清分辨率下的3 D游戏需求。由于面积很小，Mali-400MP每平方毫米性能非常出色，厂商往往使用多个Mali-400MP核心来加强性能。比如Exynos4412，就使用了四颗Mali-400MP组成Mali-400MP4，性能在一时可谓是傲视群雄。

在Mali-400后，ARM还推出了简化版的Mali-400，被称作Mali-300。Mali-300拥有8KB缓存，性能在275MHz时达到三角形输出率为30M/s，但是其像素填充率大幅度降低至275M/s，且只支持单核心配置，专门面向入门级用户，目前在移动计算市场中几乎看不到。

随后ARM又推出了Mali-400MP的加强版被称为Mail-450MP，大可扩展到八核心，单核心Mali-450MP在带256KB缓存的情况下核心面积为8.7mm²，性能相比Mali- 400MP进一步提升，在275MHz时达到三角形输出率为60M/s、像素填充率2100M/s，不过这一代产品也是罕有厂商使用，因此在市场上也很少看到。

目前ARM已经将精力几乎都放在全新的Mali-T600系列上，在官方宣传中，Mali-450MP以及以前的产品被称为“图形硬件”，而Mali-T600系列则被称为拥有GPU通用计算能力的图形核心。Mali-T600系列的研发代号是“Midgard”，这是北欧神话中人类国度的名称，可以看出ARM官方对新的Mali-T600系列寄予厚望。Mali-T600全系列支持OpenGL ES 2.0/1.1，OpenCL 1.1，DirectX 11，其中Mali-T622、Mali-T624、Mali-T628、Mali-T678还能够支持OpenGLES3.0。性能方面目前尚没有特别详细的参数出现，不过一些资料表明，Mali-604在四核心配置下高可达68GFLOPS的浮点性能，Mali-T658八核心配置高可达272GFLOPS。不过Mali-T600系列目前的问题在于尚没有太多产品使用，只有三星Exynos 5系列的Exynos 5250和Exynos5450使用了Mali-T604和Mali-T658，前者被使用在Chromebook和Nexus 10中，后者还没有具体产品出现。

GeForceULP—来自NVIDIA的“杀器”？

发展历史：

NVIDIA做显卡、关注移动图形计算也不是一天两天了。2004年10月，NVIDIA就发布了自己旗下首款专为移动计算设计的产品—GoForce 2150，这是NVIDIA收购了专门针对移动技术进行研发和投资的公司MediaQ后首款产品。随后NVIDIA还发布了GoForce 3000、GoForce 4000、GoForce5300、GoForce 6100等一系列产品。不过事实证明，在移动计算产品中，独立的GPU芯片几乎没有立足之地。因此NVIDIA转而开发SOC芯片，开始将ARM CPU集成进入SOC芯片中。

首款NVIDIAARMSOC芯片是TegraAPX，集成基于GeForce6GPU的图形芯片，也就是目前GeForceULP的鼻祖。实际上更可靠的消息是NVIDIA之前也收购一家专门关注移动GPU的厂商Hybrid Graphics，GeForceULP架构实际上和GeForce6系列差异性颇大，反而更为接近Hybrid Graphics的设计。在NV IDIA正式推出Tegra系列产品后，第一代应用于Windows Mobile设备中，实际上几乎没有太多产品使用，终沉沙折戟，第二代产品Tegra 600和Tegra 650，前者用于微软Zune HD中，随着这款产品的失败也消失在历史长河，后者始终没有实际产品面试，也不太成功。

THD游戏目前是NVIDIA推广的重头戏

NVIDIA的游戏掌机Shield，使用了高规格的Tegra 4芯片，跑分比在平板和手机上使用的Tegra 4芯片强很多。

Tegra和GeForceULP首次成功是Tegra 2产品，Tegra 2中的GeForce ULP集成了8个计算核心，支持OpenGL2.0/1.1以及OpenVG 1.1EGL1.4。性能方面GeForce ULP在200MHz下性能为3.2GFLOPS，而实际产品高可达40 0MHz，性能为6.4GFLOPS—这个数据仅能勉强赶上同期的PowerVR SGX 543（200MHz下拥有的6.4 GFLOPS），面对随后上市的iPad 2和iPhone 4S中使用的PowerVR SGX543MP2在200MHz下拥有的12.8GFLOPS性能完全不够看。后来Tegra 3上市后，NVIDIA将GeForce ULP核心升级到12个，性能在500MHz下也只达到了12GFLOPS，不但在当时不算出色，在今天更是远远落后。

做为图形技术大厂，NVIDIA在图形性能上的弱势似乎有些说不过去。好在NVIDIA将桌面游戏的“NVIDIA游戏之道”那一套搬到了移动市场来，扶持帮助游戏厂商开发基于NVIDIA Tegra系列芯片的THD游戏，THD游戏一般专门为NVIDIA芯片优化，在图形呈现上往往有比普通版本游戏更为优秀的效果，比如早的《水果忍者》的水果是圆形而不是明显多边形、《暗影枪神》中更为优秀的光影效果等，这也从一个侧面说明了理论参数只是理论，更好的图形效果还是需要厂商更为精心的优化才能得到。

当前主流产品：

由于Tegra 4和Tegra 4i还没上市，因此目前NVIDIA的主流产品依旧是Tegra 3。不过Tegra 3发布时间已接近2年，无论是性能还是实际的新品已经没有太多意义，下面内容还是主要针对即将上市的Tegra 4系列。

从架构来看，在其实无论是Tegra 3还是Tegra 4，其图形模块也就是GeForce ULP部分都只是在Tegra 2甚至更老的Tegra 600上直接扩大而来，基本规格没有任何变化。GeForce ULP家族和之前介绍所有产品都不同的是，GeForce ULP依旧是分离式渲染架构的产物，顶点和像素渲染引擎分别处理顶点数据和像素数据。这种处理方式不够灵活但相对来说每瓦特性能和每平方毫米性能都会比较出色。因此在新的Tegra 4上，NVIDIA在保持核心面积在80～100平方毫米的同时，将之前Tegra3的12个GeForce ULP计算核心扩大到了72个，整整是前代的6倍之多，Tegra 4的图形部分性能也一跃达到了高（在672MHz下）74.8GFLOPS，相比目前强大的图形核心iPad 4上使用的PowerVRSGX554 MP4的71.6GFLOPS理论性能还要更高一些，而Tegra4i则集成了60个GeForce ULP图形核心，理论性能也达到了至少60GFLOPS，达到了目前中高端水平。

微软的Zune HD堪称一代悲剧，不过Tegra在这款产品上积蓄了一定实力。

图为Tegra的发展路线

从规格来看，Tegra4中的GeForceULP虽然只能支持OpenGLES2.0，但是具体到规格上，又可以支持除了FP32外OpenGLES3.0的大部分功能。换句话来说一般只要不使用FP32（双精度32位浮点桌面还没玩顺呢），大部分OpenGL ES 3.0的应用都可以轻松转移至Tegra 4的GeForceULP上运行。

总的来说，作为图形大厂的NVI DIA，目前在移动GPU的发展上目的性比较明确，新一代的Tegra 4无论在性能还是规格上还是比较令人满意的。更令人惊喜的是，有消息称Tegra 5上NVIDIA将启用来自Kepler的全新架构，支持CUDA和DirectX 11等新规格，希望NVIDIA能够带来新的技术，在移动计算市场上开拓出全新的计算时代。

移动计算，精彩才刚刚开始

移动计算的GPU市场其实还有很多厂商，比如华为的海思处理器使用来自Vivante授权的GC400系列，算是不常见的品牌。目前移动计算GPU的市场情况相比CPU和GPU市场双寡头来说，厂商更多，竞争更为激烈。一方面厂商多，发展快，谁都不敢跑慢了；另一方面厂商多也证明了规格多样，兼容性就成为需要注意的一件事情。未来在进一步竞争中，肯定会有厂商由于竞争失败而逐渐退出移动计算GPU市场，而移动GPU后也有很大可能会呈现双寡头或者三寡头的局面。

激烈的竞争对消费者来说是有利的，移动GPU的性能在工艺的帮助下，从几年前1G FLOPS飞速发展到接近100GFLOPS，在16nm时代还要继续进步到1000GFLOPS，这都是之前完全不敢想象的事情。玩家有希望在移动设备上玩到画面更逼真、内容更丰富的游戏，也将带来全新的市场运作模式和市场机会。移动计算，好戏还在后面！