MCPLive > 杂志文章 > N卡新旗舰GeForce GTX 980首测

N卡新旗舰GeForce GTX 980首测

2014-11-14《微型计算机》评测室《微型计算机》2014年10月下

基于Maxwell架构的GTX 750系列已经展示了NVIDIA新架构的强悍实力,但限于定位较低,核心规格有限,所以只展现了冰山一角。
但也由此惊鸿一瞥,让我们更加期待Maxwell高端产品的到来。现在GeForce GTX 980、GTX 970终于正式发布……

能耗比标兵 N卡新旗舰GeForce GTX 980首测
能耗比标兵 N卡新旗舰GeForce GTX 980首测

NVIDIA显卡发展自进入“Kepler架构时代”后,就显得不慌不忙,不急不慢。这里面既有整个GPU市场下滑、PC市场萎缩的原因,也有目前半导体工艺发展缓慢,导致显卡更新速度被迫放缓的无奈。从2010年开始至今长达4年多的时间中,芯片代工厂TSMC的工艺一直停留在28nm节点上。因此,NVIDIA不得不在28nm工艺节点上部署继GTX 600/700之后的第三代产品—GTX 900系列。同工艺三代产品,这在显示芯片的发展中可谓史无前例。其实严格来说,这三代产品在架构上只有两代跨度,第一代基于Kepler架构—GTX 600/700系列;第二代基于Maxwell架构—GTX 900系列(额外包含GTX 750系列)。

GeForce GTX 980
GeForce GTX 980

说起这两代架构,Kepler架构开启了NVIDIA显卡研发模式的转变,从之前单纯专注于性能转向为追求更高的性能功耗比。因此才有了Kepler架构下GPU能耗比相比前代Fermi架构的大幅度提升,借此Kepler架构GPU实现了成功登录移动平台Tegra处理器的壮举。尝到了甜头的NVIDIA继续在架构设计上下功夫,依靠对显卡计算架构的优化进一步提升Maxwell的能耗比。早在今年2月,定位相对较低的GM107核心发布,也就是GeForce GTX 750Ti和GTX 750显卡,它们以超高的性能功耗比,让大家初窥了Maxwell架构的风采。也正是GTX 750系列的初期“试水”,帮NVIDIA积攒了新架构的生产经验,为更高规格的GTX 900系列顺利量产作好了铺垫。本刊在2014年3月下刊的《以小博大—NVIDIA Maxwell显卡深度测试》一文中,曾深入底层分析了Maxwell架构的设计,也对其CUDA Core的演变做了一些探讨。时隔半年后,规格更高的Maxwell架构显示核心—GM204面世,随之而来的就是GeForce GTX 970和GTX 980这两款定位高端的产品。相信不少玩家和我们有一样的疑问和期待,随着核心规格的暴增,GM204是否还能向我们展现低温、低耗特性?除了能耗比,高端的GM204核心相比之前入门级的GM107是否还配有其他优秀特性和辅助技术?不久前,MC应NVIDIA总部的邀请,前往美国圣何塞近距离接触了Maxwell的研发团队,也仔细听取了NVIDIA技术工程师对新架构和新技术的剖析。不敢独享这些信息,接下来就将精彩内容奉送给各位读者。并在随后奉上GTX 980/970的性能测试;能耗比、发热量以及特性体验的结果。

对比分析官方数据,引人瞩目的是GTX 980和GTX 970的功耗,前者TDP功耗仅为165W,后者更低至145W。实际上GTX 970算是踩在了单6Pin和双6Pin的界限上。按照显卡供电设计的规范来说,如果显卡大实际功耗不超过150W的话,是完全可以使用单6Pin供电的,因为PCI-E供电75W加上单6Pin供电75W,理论上足以提供150W的能量。不过考虑到主板产品设计、制造良莠不齐,PCI-E插槽供电能力可能出现不足量的情况,GTX 970还是保险起见使用了双6Pin设计。借此设计,也能避免显卡实际功耗的偶然波动对稳定性带来的负面影响。值得称赞的是,Maxwell如此低的功耗并非依靠工艺换代或者缩小芯片Die面积得来,根据参数来看,GTX 980的GM204核心芯片面积比Kepler时代的GK104大了35%(约100平方毫米),且依旧使用28nm工艺,但是TDP在核心频率更高的情况下反而下跌了15%。在同制程、芯片扩大、频率提升的情况下功耗反而下降,这在以前的产品中还未曾出现过。

至于外观上,近几代NVIDIA的旗舰款公版卡设计都非常相似。铁灰色外壳正面覆盖大面积透明亚克力开窗。亚克力板下就是密集的散热鳍片,通过尾部的涡轮风扇将显卡热量排出机箱外。不同的是,相比之前的GTX 780Ti或GTX Titan BE奢侈的6+2相供电设计,GTX 980仅采用了4+1的组合,比再上一代GTX 680公版的4+2还省。另外GTX 980的散热器的吸热底座也从前代旗舰的均热板换为了纯铜片。这样的变化显然是因为Maxwell架构能耗比倍增,带来耗电和发热量降低所致。虽说心里清楚这是好事,但对应到产品上,恐怕硬件控们的第一反应还是会忧心新旗舰是不是“缩水”了。

核心架构、规格解析

坦白说,GTX 980的公版硬件设计及用料上没什么亮点,中规中矩。与之相比,真正让人兴奋的还是它的显示核心—基于Maxwell架构的GM204。我们曾在GM107的评测中,比较深入地介绍过Maxwell底层架构,归纳起来说主要有以下三点:

1.重新设计了CUDA Core。Maxwell架构的CUDA Core能以更小的晶体管面积,获得Kepler架构CUDA Core约90%的性能。从而能让NVIDIA在半导体工艺不变的情况下,在同等大小的GPU Die中布置更多的CUDA核心。
公版GTX 980的TDP为165W,实际配备双6Pin外接供电,每6Pin外接和PCI-E供电都是75W,理论上大225W供电能力对它来说显然绰绰有余。

公版GTX 980的TDP为165W,实际配备双6Pin外接供电,每6Pin外接和PCI-E供电都是75W,理论上大225W供电能力对它来说显然绰绰有余。
公版GTX 980的TDP为165W,实际配备双6Pin外接供电,每6Pin外接和PCI-E供电都是75W,理论上大225W供电能力对它来说显然绰绰有余。

2.增加了逻辑结构。相比Kepler的SMX,Maxwell的SMM继续向下细分了4个SM计算集群,每个SM层都有相应的逻辑控制、指令分派单元。一个控制端只控制32个CUDA Core,而之前的Kepler是1∶192的关系,借此增强了Maxwell架构的并行运算能力和CUDA Core效率。

公版GTX 980的供电模块,采用了SO-8 MOS、钽电容、合金电感等品质不俗的料件,但规格仅为4相核心供电,足见GM204核心对电能的需求之低。
公版GTX 980的供电模块,采用了SO-8 MOS、钽电容、合金电感等品质不俗的料件,但规格仅为4相核心供电,足见GM204核心对电能的需求之低。

3.进一步增强几何运算能力。NVIDIA的几何处理部件一向和SMM这一层级的模块绑定,而非全局绑定。因此随着SMM单元的增加,几何运算单元将递增。以GM204对比GK104为例,前者由于SMM拥有16组,因此获得了16个几何计算单元;而后者只有8组SMX(同比于SMM模块层)所以只有8个几何单元。另外在Maxwell上NVIDIA启用了全新的PolyMorph Engine 3.0,相比之前的Kepler的几何单元,它的高Factor计算性能更佳,有利于GPU在重载下获得更好的曲面细分表现。

考虑到超1080p分辨率的显示器正越来越流行,玩家需要大容量显存满足高分辨率游戏需求,所以GTX 980的显存相比GTX 680翻倍,用8颗32bit×128M规格显存颗粒组成总计4GB容量,比GTX 780Ti还高。
考虑到超1080p分辨率的显示器正越来越流行,玩家需要大容量显存满足高分辨率游戏需求,所以GTX 980的显存相比GTX 680翻倍,用8颗32bit×128M规格显存颗粒组成总计4GB容量,比GTX 780Ti还高。

虽同为Maxwell架构,但相比早前发布的GM107,GM204又有了一个新的变化。GM204的逻辑管理层结构有所微调,它的每个GPC运算模块下辖的SMM计算结构从GM107的5个,削减到了4个,进一步提高了控制单元比例,理论上显卡每个GPC模块的并行运算能力都将更出色。

同为GM204核心,但GTX 980使用的是细分编号为GM204-400的完整规格,GTX 970用的是相对削减的GM204-200。
同为GM204核心,但GTX 980使用的是细分编号为GM204-400的完整规格,GTX 970用的是相对削减的GM204-200。

此外,基于以上三点可能会让读者进入一个误区,就是GM204的CUDA Core数量远不及GTX 780Ti,若按第1条所说单个CUDA Core性能还有折扣,那GTX 980岂不是会在性能上完败于GTX 780Ti?很显然,NVIDIA不可能让这样的事情发生。实际上将单个CUDA Core从整体架构中剥离出来比较并不科学,因为显卡的终性能是各个模块性能的综合考量。单个CUDA Core对比的是同周期“理想”状态下的计算能力,但为了满足这个计算需求,GPU外围的逻辑控制单元、指令单元、缓存模块、显存带宽等等一系列的其他组件都要能达到“理想”状态,没有任何一个部分是瓶颈。而实际上到目前为止,无论多么优秀的架构,都不可能做到完全无瓶颈。关于此,在接下来有关“CUDA Core大小揭秘”的部分,我们会有更详细的推断、解析。

散热器看似和上代旗舰GTX 780等显卡一样,其实GPU吸热面换为了纯铜底座,吸热效果不错,但相比GTX 780/Titan等显卡的均热板来说稍逊一筹。
散热器看似和上代旗舰GTX 780等显卡一样,其实GPU吸热面换为了纯铜底座,吸热效果不错,但相比GTX 780/Titan等显卡的均热板来说稍逊一筹。

公版GTX 980首次采用了HDMI 2.0接口,并破天荒地将DP接口增加到3个,DVI接口削减为1个。
公版GTX 980首次采用了HDMI 2.0接口,并破天荒地将DP接口增加到3个,DVI接口削减为1个。

Maxwell CUDA Core与Kepler CUDA Core大小、性能对比揭秘

NVIDIA官方并没有公布Maxwell架构CUDA Core相比Kepler架构的具体改变细节,不过我们依旧可以通过对比分析来粗略推测。当然基于技术原理的推测不可能做到100%准确,但至少能够反映出两代架构演变的部分内容。

底层猜测不是架构对比,考虑到如GM204和GK104这种规格的核心已经相对复杂,除了CUDA Core还有大量的周边辅助模块干扰,不容易对比。因此在这里使用结构比较简单的GM107和GK107来对比分析。同为Maxwell架构,GM107和GM204有逻辑层的调整,但底层CUDA Core应该没有变化。GK107与GK104同理,因此该对比有极高代表性。

GM204、GK104架构图对比。宏观上GM204是4(GPC)×4(SMM)×4(SM)的结构,比GK104上4(GPC)×2(SMX)多出一个细分的SM控制层(红框所示)。

GM204、GK104架构图对比。宏观上GM204是4(GPC)×4(SMM)×4(SM)的结构,比GK104上4(GPC)×2(SMX)多出一个细分的SM控制层(红框所示)。
GM204、GK104架构图对比。宏观上GM204是4(GPC)×4(SMM)×4(SM)的结构,比GK104上4(GPC)×2(SMX)多出一个细分的SM控制层(红框所示)。

先来看晶体管密度:GK107是1100万个/平方毫米,GM107是1250万个/平方毫米,GM107大约增加13.6%。相比之下,GK104的晶体管密度是1190万个/平方毫米,GM204是1360万个/平方毫米,GM204增加了大约14%。从这里可以看出,早期的28nm工艺下的Kepler产品,晶体管密度普遍相比目前较成熟的28nm工艺下的Maxwell产品低大约14%,说明TSMC的工艺还是有一定程度的改进。

接下来看两代产品,GK107有384个CUDA Core、核心面积118平方毫米、晶体管总数13亿个,512KB L2缓存。GM107是640个CUDA Core,核心面积为148平方毫米,晶体管总数18.5亿,L2缓存数量为2MB。GM107比GK107多了5.5亿晶体管,增幅42%,这多出来的晶体管主要用在了更多的CUDA Core和更多的缓存上。相比GK107,GM107的缓存大约多用了1.5亿晶体管左右。在这里假设所有周边控制单元的晶体管面积都和CUDA Core数量正比相关),那么Maxwell的GM107除去多增加的缓存后,剩余的部分大约占据了140平方毫米的面积(模糊估计值,包含了ROP、显存控制器等)。在不考虑其他干扰因素的情况下,算得Maxwell GM107的每个CUDA Core的面积为0.2平方毫米(140/640),而Kepler GK104的每个CUDA Core面积为0.3平方毫米(118/384)。这样粗略估计显示,Maxwell每个CUDA Core的面积只有Kepler每个CUDA Core面积的大约60%。但考虑到工艺进步的14%,这个数据可能被放大至70%,但极限应该不会超过75%。用一个体积只有原来产品70%的CUDA Core,获得原来产品90%以上的性能,这设计也应该算是老黄的“黑科技”了。

GK104的SMX结构中(右),一个控制结构要承担192个CUDA Core的调动任务,而GM204的SMM(左)中,依靠细分SM层(红框所示),一个控制结构只需负责32个CUDA Core。这更能提高单个CUDA Core的效率,还能提升整个GPC结构的并行处理能力。GK104的SMX结构中(右),一个控制结构要承担192个CUDA Core的调动任务,而GM204的SMM(左)中,依靠细分SM层(红框所示),一个控制结构只需负责32个CUDA Core。这更能提高单个CUDA Core的效率,还能提升整个GPC结构的并行处理能力。
GK104的SMX结构中(右),一个控制结构要承担192个CUDA Core的调动任务,而GM204的SMM(左)中,依靠细分SM层(红框所示),一个控制结构只需负责32个CUDA Core。这更能提高单个CUDA Core的效率,还能提升整个GPC结构的并行处理能力。

再来看GM204,此前GK104仅为每个SMX设计了传统的、只读的共享L1缓存,而GM204的SMM中,设计了一个96KB的全功能可读写L1缓存,除了诸如CUDA Core这样的计算单元或调度单元可以使用L1缓存外,纹理单元也能划分一部分内容用作纹理缓存。每个SMM配96KB L1,GM204共计16个SMM,总计1.5MB可读写L1,比之前的Kepler更强、更实用。再加上2MB的L2缓存,整个GM204的缓存体系可谓大幅度加强,这使得GPU内数据存储更为方便,也大幅度降低了内部计算单元的等待延迟;降低了核心通过显存控制器访问显存的次数,降低了显存控制器的工作压力。因此大幅度提升了数据命中率,显著提升了CUDA Core的效率。也正因为此,在实际计算的过程中,Maxwell CUDA Core在指令控制、数据等待、存储等环节的等待时间大幅缩短,让CUDA Core一直处于高效状态,借此大幅提高了计算效率。所以我们看到另一组官方数据显示“Maxwell每个CUDA Core在游戏中的实际性能大约是Kepler架构CUDA Core的1.4倍”。这看似和之前架构特性中的介绍矛盾,其实是将CUDA Core分离和融合进整体架构后的两种不同表述,玩家们心里有数了吗?

Tips:GM204是Maxwell的终形态吗?

玩家们在对比GM204、GK104和GK110后,有没有一种Maxwell依旧意犹未尽的感觉?至少MC有一种预感,GTX 980并不是Maxwell的终形态,或者说GM204核心并不是“完整”规格的顶级Maxwell显卡,想想一个显存位宽仅256bit的核心会是顶级的核心吗?实际上在旧金山的技术沟通会上,NVIDIA老拿GM204跟GK104做对比讲解,测试成绩也是GTX 980和GTX 680的对比居多,这是否具有极强的暗示性?因此在现场,MC记者就此疑问询问过NVIDIA的高级技术经理。得到的答案也很特别“GM204是个完整规格的核心,绝对没有任何未开启的隐藏CUDA Core,至少就当前来说,它绝对是规格完整,性能强的Maxwell核心。”这意思是说不会在GM204上出现如GTX Titan到GTX Titan BE这样通过GK110“开核”升级情况。但这并没正面回答我们的疑问,让我们有理由相信在未来还会有规格更庞大的“GM210”(按照以往习惯猜测的代号)核心来完成新一轮显卡性能王的交接。因为x04在NVIDIA内部通常都是中端核心的代号,只有x10才是当前架构下强核心的带指,类似GTX Titan/780Ti的GK110核心相对于GTX 680的GK104核心。而这种同一架构,挑起两代显卡产品换代的市场布局,也很可能会成为未来显示核心厂商的策略常态。就当下来说,这留给玩家一个美好的期待,不久的将来我们还能看见规格更大的Maxwell架构核心,用上更出色的显卡。

几种通常会遇到的显存数据压缩示意图。
几种通常会遇到的显存数据压缩示意图。

通过显存压缩,GM204可省下约25%的显存带宽,相当于使用了9300MHz的超高频显存。
通过显存压缩,GM204可省下约25%的显存带宽,相当于使用了9300MHz的超高频显存。

GM204特色技术介绍

在GM107的基础上进一步优化了底层逻辑结构,让Maxwell架构在GM204上显得更成熟、更具魅力,相比Kepler的众多核心来说完全是一次彻底的转变。但NVIDIA为我们带来的惊喜还远不止于此,为了让玩家体验到更真实的画面,伴随GTX 980而来的还有诸如:
全面强化的显存体系;
更强的视频编码;
高效的VXGI光线追踪;
事倍功半的MFAA;
巧妙提升画质的DSR;
第三代虚拟现实VR Direct等一系列可以明显提升游戏画质,提高玩家体验的技术……

压缩让GM204等效拥有320bit显存位宽

当前单芯旗舰显卡的显存带宽多在300GB/s左右,对应位宽384bit~512bit之间。而GTX 980的设计目标是要在性能上超过当前的所有单芯显卡,所以理论上GTX 980的显存带宽至少也应该有300GB/s左右的水平,否则很可能成为瓶颈。然而GM204的显存位宽并不高,只有256bit,与之匹配的倒是当前速度快的7000MHz高速显存,这一定程度地弥补了位宽的不足,让总带宽达到224GB/s,但离300GB/s的标准依旧不够。实际上除了依靠高显存频率来弥补位宽不足这种常规方式,GM204还引入了全新的无损显存压缩技术。这项技术可以在某些情况下大幅度节省显存带宽的占用。

VXGI体素渲染示意图,单位是立方体,有利于保持真实性的同时降低运算量。
VXGI体素渲染示意图,单位是立方体,有利于保持真实性的同时降低运算量。

启用VXGI特效渲染出的阿波罗11号登月“照片”(左)和真实照片的对比,是不是已经有点以假乱真的感觉?
启用VXGI特效渲染出的阿波罗11号登月“照片”(左)和真实照片的对比,是不是已经有点以假乱真的感觉?

NVIDIA举出了好几个显存带宽压缩的例子。比如一个4×2像素的区域中色彩是常数时,可以实现大的8:1的压缩,压缩前每种色彩都有8个像素,总计32Bit×8=2568Bit,压缩后色彩只占据1个像素位置(其余的数据用数学方法统计),这样总共只需要32Bit的数据空间,显存带宽和空间需求量节省至原来的八分之一。此外,如果遇到2×2像素的区域色彩是常数,通过压缩可以节省至原来的四分之一。当然,压缩不是万能的,差的一种情况是所有的像素都是独立色彩,这样的数据就无法压缩,带宽不足的问题还是会原形毕露,虽说这样的情况不多,但知晓此关键,玩家们就可以心中有数了。

除了上述压缩外,GM204还配备了第三代“Delta Color Compression”,这种方式可以计算相邻像素之间的色彩差,然后尝试将这些不同的值用算法存储在一起。比如A像素和B像素相邻,A像素的色彩值是红色253(8bit),B像素的色彩值是红色250(8bit),差距只有3,因此终压缩后,只记录差值,数据就被缩减至2bit。Maxwell目前使用的是第三代压缩方式,NVIDIA宣称其有效性更高,压缩效率更出色。由于显存数据压缩所带来的优势,因此Maxwell的实际显存带宽在很多应用场景中被变相增大了。在NVIDIA的测试中,GM204的内存带宽少节约了17%,多节约了29%,综合来看有相25%左右的带宽节约。这相当于高拥有290GB/s的显存带宽,平均水平为280GB/s,即等效拥有320bit的显存位宽,达到了预期的设计目标。

VXGI—取巧的全局光照

现实世界中,人眼所见到的图像,是光线在不同材质表面带来了不同角度的若干次折射、反射以及不同颜色交互影响后的结果。而这种源自光线的无限次数的交互影响,正是我们视觉感到“真实”的关键要素。但在计算机图形世界中,GPU没有办法完全计算无穷多的光线簇,也无法算完每一簇光线接近无限的反射、折射过程。因此很多情况下,光线的计算会被大幅度简化。即使是类似于“全局光照”这样的技术,在光线计算上限制也非常多,折射、反射的计算以及次生光源的计算,都是极为有限的。简化如此,其计算强度之大,也不是普通PC能够承受得起的,或者说用普通PC来处理每一帧图像都需要一个漫长的过程,不可能在游戏中实时完成。

MFAA算法抽样取点示意图,理论上性能消耗只有MSAA的一半,效果却基本一致。

MFAA算法抽样取点示意图,理论上性能消耗只有MSAA的一半,效果却基本一致。
MFAA算法抽样取点示意图,理论上性能消耗只有MSAA的一半,效果却基本一致。

因此,当前绝大多数3D计算使用了一种特殊的方法,叫做“预烘培”或“预处理”。顾名思义,这种计算方法是在游戏场景的开发阶段,就先通过详细而复杂的计算,模拟场景中可能存在的光照情况,让它尽可能地接近真实。这样的计算往往需要耗费大量的时间,不过它的优势在于是一次定型,游戏开发完毕后,所有信息都已经处理妥当。未来游戏运行时,只需要根据相应的场景调取这些处理好的光照信息即可,不需要PC再计算。当然,这种方式的问题也很明显—它并非动态信息。其中的光照效果不会由场景的细微变化而发生动态改变。所以玩家们一定因此有过疑问“这游戏画面如此精美、细致,但总感觉死气沉沉活力不足!”这就是光线没有动态改变导致视觉“不够真实”的结果。解决此问题也正是未来图形计算的发展方向,也是当前桌面显卡的一道坎,谁能先跨过,谁就能抢先为玩家带来为接近真实世界视觉效果的完美游戏体验。

解决问题的原理不难,就是要尽可能以枚举方式,计算每一簇光线的所有折射、反射过程。而这个过程需要的计算能力大到无穷,现在无法实现。因此,在现有桌面显卡有限的计算能力下,完成对光线的模拟就显得异常困难了。现在NVIDIA给出了自己的新解决方案—VXGI。

VXGI(VOXEL-Based Global illumination体素全局光照),相比以往的渲染方式,它将采样点体素化,小单位不再是平面的像素,而是三维的小方块。光线在某处的发散也不再是无限多的“线”,而是抽样成数量有限的“椎体”。因此,它既是基于真实光线和立体物体之间的互动来计算的光照信息,又通过粗略抽样大幅缩减了GPU的计算量。有望通过实时计算在游戏中为大家展示非常接近真实光照效果的画面。

DSR 4K输出到1080p显示器的效果(左),在细节处自然比1080p出色太多。

DSR 4K输出到1080p显示器的效果(左),在细节处自然比1080p出色太多。
DSR 4K输出到1080p显示器的效果(左),在细节处自然比1080p出色太多。

DSR的开启非常简单,只需在NVIDIA驱动面板“3D设置”中一键开启就OK了,当然你还可以自定义是渲染4K还是渲染2560×1400的分辨率。
DSR的开启非常简单,只需在NVIDIA驱动面板“3D设置”中一键开启就OK了,当然你还可以自定义是渲染4K还是渲染2560×1400的分辨率。

事半功倍的MFAA

抗锯齿算法一直都是提升画面细节的法宝,是目前图形画质提高的核心问题之一。经久不衰的MSAA依靠多次边缘采样来提高画面边缘的平滑度,从而实现抗锯齿的效果,这样做效果立竿见影,但存在性能损耗极高的弊端。而如FXAA和MLAA这类后处理抗锯齿技术,在性能消耗上虽不足为惧,但原理上有先天不足,终效果也不太令人满意,甚至会对画面产生负面影响。玩家依旧需要一种更好的抗锯齿技术,既能带来非常出色的画质,又应该让性能损耗尽可能降低。为此,NVIDIA为Maxwell搭配上了新的MFAA,全称为“Multi-Framesample AA(多帧抗锯齿)”。这种技术的特点在于,它能够以比MSAA小得多的性能损耗达到和MSAA基本相同的画质水准。

NVIDIA给出一些AA原理图。比如在相对NOAA和4xMSAA的对比上,NOAA画面上,红线(也就是物体边缘)所通过的两个像素的值分别是0和1,差值是1,极大的差距形成了明显的对比,这也是锯齿产生的根源—过于鲜明的像素差异。不过4xMSAA对这种情况做出了很出色的处理,它调用周围多个像素点的数据进行平均计算,终原来为0的像素点被填充为1/4灰,原来为1的像素点被填充为3/4的灰,像素之间的差距缩减至1/2,这样一来两个相邻像素点就变得“温柔”了许多,锯齿也因此大大减轻了。

MSAA的做法也是在同一帧的物体边缘进行多采样处理,比如上述例子中进行了4倍采样,每帧画面都需要4倍采样,就是4xMSAA。而MFAA在此基础上进行了取巧,MFAA在单帧画面上只进行2倍采样,且间隔帧的取样点垂直变换,然后利用隔帧取样点的数据差异,进行一次两帧间的混合计算。这样就相当于每帧都进行了2xMSAA采样,混合在一起却能达到4xMSAA的效果。如果单帧采用4x采样的话,MFAA就可以提供8xMSAA的效果。

从原理来看,MFAA实际上是一种的取巧算法,看起来MFAA相比MSAA能节省一半的资源耗费。但实际过程中会有中间插值计算等额外开销,所以NVIDIA给出的性能节省幅度是30%左右。不过从原理来看,我们觉得MFAA的问题也很明显,首先就是在激烈运动的画面中,如果上一帧和下一帧的位置出现了巨大的变化,两帧信息完全不同的话,这种混合计算采样就失效了。其次,MFAA的效果和帧率应该是相关的,如果显卡性能不够,这种采样的有效性依旧值得怀疑。因此,MFAA可能是基于MSAA的多方式复合采样抗锯齿方法。

目前MFAA尚需时间部署到游戏中,暂时还不能体验,等游戏补丁更新后,我们会第一时间奉上实际测试,看看它的性能表现和显示效果是否如技术DEMO中这般出色。

测试平台主要信息一览

处理器         酷睿i7 4790K
主板            ROG玩家国度Maximus VII Formula
内存            宇瞻DDR3 2133 4GB×2
硬盘            海盗船Neutron GTX 240GB SSD
                  +希捷桌面4TB HDD
电源             影驰HOF 1000W

小显示器也能享4K画质—DSR动态超级分辨率

4K近年来很火,但普及尚需时日,绝大多数玩家依旧在使用1080p的显示器。如何在1080p显示器上展示出如4K分辨率般的精细画质?NVIDIA为GM204配上了DynamicSuper Resolution,即动态超级分辨率,简称DSR。

这项技术的原理非常简单。那就是将游戏画面以4K的分辨率渲染,再投射到1080p的显示器上,这项技术传统意义上被称作“Downsampling”,不过NVIDIA在驱动中集成了便捷开关,并使用了13-tap的高斯滤波器来完成这个分辨率缩减过程。这种高质量的滤波器将不会带来一些简单滤波器出现的混叠现象,也不会造成画质损失。需要说明的是,开启DSR的分辨率上限还是受到游戏大分辨率的限制,倘若游戏能支持的大分辨率本就是1080p,那DSR就失去意义了。

七彩虹iGame GTX 970烈焰战神U的PCB参考了公版GTX 980,并有所加强,散热也增强为双风扇搭配4热管底座的组合。
七彩虹iGame GTX 970烈焰战神U的PCB参考了公版GTX 980,并有所加强,散热也增强为双风扇搭配4热管底座的组合。

七彩虹iGame GTX 970烈焰战神U的PCB参考了公版GTX 980,并有所加强,散热也增强为双风扇搭配4热管底座的组合。
七彩虹iGame GTX 970烈焰战神U的PCB参考了公版GTX 980,并有所加强,散热也增强为双风扇搭配4热管底座的组合。

七彩虹依旧为iGame GTX 970烈焰战神U保留了iGame家族式的一键超频设计按钮,能让显卡在公版和非公版频率之间快速切换。
七彩虹依旧为iGame GTX 970烈焰战神U保留了iGame家族式的一键超频设计按钮,能让显卡在公版和非公版频率之间快速切换。

GM204助虚拟现实更上一层楼

虚拟现实(Virtual reality,简称VR),是图形计算业界多年来的梦想。它不同于常见的所谓“3D”图形渲染,而是通过同一时间模拟现实世界的“双眼所见”,直接给左右眼呈现不同的画面,人脑后再合成完整的3D视觉。带上VR体验设备,再配合动作捕捉技术,基本上就相当于进入了一个完全不同的虚拟世界。

VR技术虽好,但是在目前的游戏中应用还存在一些问题。主要是延迟比较高,转头动作之后感觉虚拟世界中的“视线”转动比自己的动作慢。这看起来很像游戏流畅与不流畅的问题,但实际不同。更重要的是,这种延迟会让体验者觉得头晕、想吐,是种很糟糕的感受。在GM204上,NVIDIA成功将这种延迟降低到此前系统的一半以下,让VR系统具备了实用性。想知道有关NVIDIA VR技术和配套产品的更多信息,请参见本刊的《应用与技术》栏目,MC将会为大家奉上详细的技术大餐。

HDMI2.0接口携手4K超高清

目前显示器和视频输出逐渐向4K甚至5K进化,因此除了GPU本身外,视频输出接口也需要升级以适应新时代的需求。之前NVIDIA的显卡产品多只能支持到HDMI 1.4,这种接口可以提供4K分辨率+无损444RGB的影像输出,但刷新率只能到30Hz,或者以有损压缩的YUV420方式输出60Hz的影像。很显然无论什么方式,HDMI 1.4的带宽问题都是4K超清影像发展的桎梏。为此,GM204启用了HDMI 2.0接口,这样GPU就可以以无损的RGB444输出4K分辨率、60Hz的影像,打破输出带宽的瓶颈。

与之对应的,GM204是否具备流畅的4K超高清解码的能力?针对此,NVIDIA已经为它设计了增强的NVENC视频编码模块,首次具备了加速H.265视频的编码、解码能力。相比之前的H.264,H.265在同等的画质下能大幅度节约带宽。因此它也被称为未来4K超清晰视频的首选压缩格式。但就当前设计水平来说,GM204的NVENC模块只能支持H.264全硬解码,速度提高至Kepler的2.5倍以上,可以全程支持高码率的4K超清视频以60Hz流畅播放。对H.265的硬解码支持尚有不足,考虑到4K视频和H.265编码流行起来至少需要两到三年,因此该问题留给下一代的GPU也算合理。

到此,有关GM204的架构改变、全新技术的原理就已经基本介绍完毕了。接下来,我们将正式进入GM204的性能测试环节。

GTX 980/970性能首测

初期上市的GTX 980只有NVIDIA的公版显卡,因此我们的测试亦基于公版GTX 980。至于GTX 970则与之相反,没有所谓的公版设计,各厂商只能依照NVIDIA给出的参考方案设计非公版型号。而先抵达MC评测室的,是来自七彩虹的iGame GTX 970烈焰战神U,也就成为本测试的GTX 970代表。

性能问鼎 但谈不上秒杀

此前我们已经分析过,对比GK104每SMX 192个CUDA Core,GM204的SMM的CUDA Core数量仅128个,少了33%。但是考虑1.4倍的性能提升,因此GM204每个SMM和GK104每个SMX单元具备的计算性能是基本相同的。所以,GM204相比GK104就相当于拥有了差不多两倍的理论计算性能(16个SMM对比8个SMX)。而对比拥有15组SMX的GK110,我们的预计是GM204略强一些,或者两者处于伯仲之间。当然,细心的玩家可能已经从规格对比中发现,GM204只拥有52亿晶体管,而GK110却有71亿个。半导体芯片性能跟晶体管数量成正比已经是个“常识”,以此经验,我们基于理论技术推断两者性能在伯仲间的结论似乎站不住脚。然而事实展现了Maxwell架构的不可思议!在3DMark等理论测试中,GTX 980完胜包括GTX Titan BE和GTX 780Ti在内的所有GK110产品。相比对手的R9 290X,更是领先了15%之多。当然,我们也要看到,GTX 980相比GTX 780Ti的领先幅度并不大,大约5~8%。这和16个SMM对比15个SMX约6~7%的差距基本吻合,印证了我们对SMM和SMX单元性能基本相当的推断。值得一提的是GTX 970,它比GTX 980少了3个SMM模块,总计384个CUDA Core,理论计算能力降低了大约25%。但iGame GTX 970的核心频率比公版高出80MHz,实测差距并没这么大,仅落后约12%,基本达到上代旗舰GTX 780Ti的水平。

实际游戏测试结果则不像理论性能测试这么“极端”,GTX 980的表现和GTX 780Ti/TitanBE等产品基本在伯仲之间,多数时候GTX 980小幅领先,《古墓丽影9》和《蝙蝠侠:阿卡姆起源》反而明显落后。此时,在理论测试中和GTX 780Ti/Titan BE差距甚小的GTX 970则表现出明显差距,游戏性能要逊色一些。

在对比官方给出的规格表时,应该也有读者发现了GM204的一个特别之处—光栅单元的成倍提升。GM204总显存位宽256bit被分拨给4个显存控制器管理,每个显存控制器下仅辖64bit,但ROP单元却高达16个,这比上代Kepler产品的每显存控制器只配备8个ROP的规格提升了一倍。更多的ROP单元在面对更高的分辨率、更多的像素以及更高级别的抗锯齿时,有着更强悍的抗压能力和更出色的性能输出。这一点是英伟达考虑到4K时代的来临而做出的重要改变。而这也确实对游戏性能的发挥产生了明显影响,至少在我们的游戏对比中有明显效果。在1080p分辨率测试中,GTX 980/970显卡的表现和理论测试有些出入,部分项目被反超。仔细分析,你会发现3DMark Strike Extreme提高了分辨率,达到2560×1600;而3DMark 11 Extreme则加上了极高的抗锯齿设置。在这些测试项目发布之初,与之对应的严苛环境少有游戏会用到,所以当时的显卡也未针对此进行优化。现在,如1600p、4K等超1080p分辨率逐渐在游戏中普及,GTX 900系列的设计自然更偏向于高分辨率、抗锯齿环境,与之恰好对应。实际上也只有高分辨率和高抗锯齿需求,才能充分发挥出GM204光栅单元翻倍、显存容量大的优势。所以在将显示器分辨率提升到2560×1600后,我们看到GTX 980/970的表现重回正轨,在《蝙蝠侠:阿卡姆起源》测试中和GTX Titan BE旗鼓相当,而《古墓丽影9》中更是全面反超。

惊艳的曲面细分表现

NVIDIA有关几何处理的部件一直和流处理器模块(SMM/SMX层级)绑定,而不是像AMD那样和全局GPU绑定。这样做的好处是随着GPU规模增大,几何性能也会逐渐上升,因此从Fermi以来,英伟达的GPU在几何性能诸如曲面细分处理能力上都显著强于AMD的同档次产品。AMD的全局设计,虽然简单,但是面对复杂的几何操作时更容易出现瓶颈。这也就是实际的测试和游戏体验中,N卡相比A卡拥有曲面细分计算优势的主要原因。

在Maxwell上,NVIDIA又带来了全新的PolyMorph Engine 3.0,相比之前的Kepler上的版本,PolyMorph Engine 3.0加强了高Factor下的计算性能,这样一来GPU在重压下也能够提供更好的曲面细分计算能力。对应到GM204,拥有16组SMM,因此获得了16个PolyMorph Engine 3.0模块,相比只有8个PolyMorph Engine模块的GK104,取得了压倒性的、一倍以上的理论计算能力。从英伟达官方资料来看,在Factor系数较低的时候,GM204的性能优势尚无法完全体现出,只有GK104的2倍,但是只要Factor系数增加到31以上,GM204的PolyMorph Engine 3.0胜出幅度就会越来越大,终能达到3倍于GK104的水平。也因此,在注重曲面细分测试的Unigine测试软件中,GTX 980成绩几乎达到GTX 680的两倍,也明显领先上代旗舰GTX 780Ti,相比对手的R9 290系列的领先幅度也高达30%。

DSR并非免费大餐

我想用化腐朽为神奇来形容DSR,但这并不准确,说它充分利用了GPU的富余计算能力更实在一些。当然,这个前提是你面对的游戏不是《孤岛危机3》这样的显卡杀手。在诸如《坦克世界》、《蝙蝠侠:阿卡姆起源》等游戏中,GTX 980能提供的平均帧率已经大幅超越了60fps。多余的帧率并不能带给你更流畅的感觉,也不能让画面更精美,反而会有让画面出现撕裂的隐患。而此时,你完全可以借助DSR功能,将富余的计算能力利用起来,美化游戏画面,讨好自己的眼睛,与此同时还能不影响流畅度,这何乐而不为呢?

当然,DSR并非免费为你提高画面精细度,玩家在享受这个功能的时候,需要注意自己平台的图形处理性能是否能处于“富余”状态,如何定义?看看我们的对比测试成绩你能看出……在《蝙蝠侠:阿卡姆起源》中,1080p分辨率下的高画质也不能给GTX 980带来压力,平均帧率高达140fps。此时我们开启DSR 3840×2160,相当于将游戏分辨率提高到4K水平(前文已详述DSR技术原理和效果,在此不再赘述)。渲染压力增大,帧率必然有所降低,但依旧能保持在80+fps的水平。《地铁:后的曙光》和《坦克世界》的情况又略有不同,在1080p下帧率80左右,若开启4K水平的DSR,帧率会迅速下降到不足40fps。这难以保证游戏全场的流畅性,偶尔会出现卡顿。因此,此时将DSR动态分辨率调整到2560×1600更合理,帧率在50~60fps之间,流畅性有保障,画面相对4K DSR稍差,但也比1080p精美了不少。

能耗比之王—惊艳的功耗表现

很早之前,在Kepler架构都还未正式发布的时候,我们就从NVIDIA的官方幻灯片里看到了对Maxwell架构的简单描述。让我们印象深刻的别无其他,就是能耗比上的提升目标。Kepler能耗比相比Fermi翻倍,Maxwell要相比Kepler翻倍。在当时想来,伴随半导体工艺的进步和核心架构的优化,这样的目标显得并不意外。但当TSMC的半导体工艺在28nm长期滞留之后,我们突然意识到这是一个多么困难的任务。要在工艺不变的前提下,让能耗比提升一倍?这对显示核心架构的设计要求有多高我们无法量化,只能说只依靠架构优化获得如此成就是史无前例的,因此一度怀疑这个目标达成的可能性,也曾猜测NVIDIA是否会秘密上马新工艺。事实证明NVIDIA完成了一个“不可能完成”的任务,若说GM107达到此目标还借助了核心规格小巧的原因,那GM204的表现则彻底让大家心服口服。GTX 980只需要2个外接6pin接口,官方TDP仅165W。通过严苛的FurMark拷机,实测测试平台的功耗也仅285W,同平台下比GTX 680都还低。但上面的性能测试已经告诉我们,它的性能水平已经达到甚至超过了GTX Titan BE的水平。毫无疑问,GTX 980绝对是28nm节点下的能耗比之王。

4K超高清解码还需完善!

相对架构和性能的改进,GM204在视频编码、解码上的改进显得重视力度不够高。顺意而为地为GTX 980/970用上了HDMI 2.0接口,也加入了针对H.265编码的优化,看似能满足用户对未来4超高清视频解码的需求。但经过我们测试,用显卡硬解H.265的4K超高清视频并没有想象中的流畅。很显然,官方所谓的H.265加速是相对原来只能依靠软解的情况,现在能通过GM204得到部分硬件加速,但纯硬解尚欠火候。那么H.264呢?官方宣称效率达到Kepler架构的2.5倍。对比1080p,4K的实际输出像素提高到4倍,解码需求若等比例提高,也需要4倍于1080p的硬解性能。Kepler硬解1080p是轻松愉快,但2.5倍于Kepler的Maxwell能搞定4K吗?实际测试发现流畅与否还是跟视频码率有关,同样是4K分辨率,《Sintel》的码率只有50~60Mb/s,也就是高质量1080p的水平,此时GTX 980硬解毫无压力。但面对《Crowd Run》这样码率爆表到300Mb/s以上水平的视频,也有些招架不住,出现偶尔卡顿。看来全面硬解4K超高清,还得看下代架构……

DSR 4K(右),注意草尖、纹路等画面细节,比普通1080p提升了一个档次。
DSR 4K(右),注意草尖、纹路等画面细节,比普通1080p提升了一个档次。

MC点评:

GTX 980展示了Maxwell架构成熟后的魅力,相比性能,我们依旧更为赞赏它的能耗比表现。因为就性能来说,它相比对手当前的旗舰领先仅约10%。就以往的经验,对方换代产品在性能上提升30~40%将它反超并非不可能。但这需要花费的代价难以估量,不是冒险启用新工艺,就是增大核心面积……同工艺下的能耗比表现难以实现反超。更重要的是,GTX 900系列的定价在我们看来颇有杀伤力,比GTX Titan BE这样的上代旗舰便宜了不止一半。这颇有些当年AMD执行小核心策略,主攻甜点定位的感觉。实际上GM204核心300多平方毫米的Die规格比对手的400多平方毫米“小核心”还小,对比NVIDIA以往500+平方毫米的大家伙来说,也只能算是甜点产品。

其实,就价格来说,值得注意的应该是GTX 970,其性能达到GTX 980的90%左右,成功跻身当前PC游戏显卡的顶级水平。但其定价仅2000多元,足以让以往4000元级甚至8000元级的旗舰“掩面泪奔”。

至于随Maxwell一起面世的众多画面优化技术,前景值得期待,但要想在游戏中体验到,估计还需要不短的时间。GTX 980打好了硬件基础,但更多的是服务于开发者,普及到PC端则有待下一代显卡来完成。比如VXGI,需要游戏开发者重新设计引擎。我们只期待NVIDIA和游戏引擎厂商能更积极、紧密的合作,早点让我们体验到下代真实光照引擎带来的震撼效果。

分享到:

用户评论

用户名:

密码: