SUPER超能力 NVIDIA GeForce RTX 4070 SUPER显卡首发评测
在NVIDIA的定义中,GeForce RTX SUPER系列的定位相当于版本进阶。与Ti系列作为不同数字型号之间产品线完善不同,SUPER就是冲着提升对应型号性能与性价比去的。在CES 2024上首次展出的GeForce RTX 4070 SUPER就是其中一个很好的例子,不仅带来更高的性价比,生成式AI创作上也得到进一步创新,战斗力十足。

更确切的说,GeForce RTX 4070 SUPER是当下最有机会进入教科书的产品之一,同样是基于AD104打造,但核心数量已然向GeForce RTX 4070 Ti靠拢,包括7168个CUDA Core,224个第四代Tensor Core和56个第三代RT Core,重点是L2缓存一步拉满至与GeForce RTX 4070 Ti相同的48MB,诚意已然拉满。

重点是GeForce RTX 4070 SUPER的发布定价与GeForce RTX 4070发布之初相同的599美元,这意味着GeForce RTX 4070 SUPER在相同的价格策略下拥有无限接近于GeForce RTX 4070 Ti的表现,特别是当下热门的AI加速,DLSS 3.5游戏,以及生成式AI和NVIDIA Studio特性,在GeForce RTX 4070 SUPER上都应该会着高性价比且强势的表现。
那么事实真的如此?按照惯例,在性能解禁的当下,让我们奉上NVIDIA GeForce RTX 4070 SUPER Founders Edition的首发评测。

AD104-350新范式
AD104拥有广泛且成熟的产品线阵营,GeForce RTX 4070,GeForce RTX 4070 Ti,移动端的GeForce RTX 4080,以及专业领域的RTX 4000 Ada Generation,RTX 4500 Ada Generation都是基于AD104打造的。

GeForce RTX 4070 SUPER所采用的AD104-350-A1已经非常接近于完全体的AD104,同时继承了所有AD102、AD103上的功能特性,包括对DirectX 12 Ultimate很好的支持,芯片面积达到294mm2,晶体管数量358亿个,采用台积电4N NVIDIA定制工艺,并围绕第三代RT Core,第四代Tensor Core以及大量核心所构建起来的芯片。

我们知道Ada Lovelace架构GPU中包含了若干个GPC(Graphics Processing Clusters,图形处理集群),GPC下包含若干个TPC(Texture Processing Clusters,纹理处理簇),再往下就是SM、CUDA、RT Core、Tensor Core等等。每个GPC之间包含的TPC数量相等,当GPU进行定位区分的时候再进行GPC、TPC的物理屏蔽实现。
完整的AD104包含5个GPC,每个GPC包含6组TPC,每组TPC包含2个流式多处理器(Streaming Multiprocessors,SM)。其中每个SM包含4个处理块,每个处理块包含1个64KB寄存器堆,1个L0指令缓存,1个Warp调度器,1个调度单元,4个加载/存储单元,1个特殊功能单元(Special Function Unit,SFU)用于执行超越函数指令(比如正弦、余弦、倒数、平方根等)和图形差值算法指令。

每个SM下的128个CUDA Core随处理块分成4组,每组CUDA由16个专门用于FP32的CUDA Core,16个可以在FP32和INT32之间切换的CUDA Core组成。同时每个SM还包含4个第四代Tensor Core,1个第三代RT Core,成为后续游戏实时光线追踪和DLSS 3.5性能提升的重要前提。
GeForce RTX 4070 SUPER的厉害之处在于,它与GeForce RTX 4070 Ti相当接近,仅在GeForce RTX 4070 Ti的基础上减少2个TPC,即4个SM,最终拥有56组SM,7168个CUDA Core,224个第四代Tensor Core,56个第三代RT Core,224个纹理单元,80个ROP,并搭配192-bit 12GB GDDR6X。

在缓存方面GeForce RTX 4070 SUPER也毫不吝啬,配合56组SM,每组SM搭配128KB L1缓存,因此L1缓存容量达到了7,168KB,L2缓存则没有任何减少,达到49,152KB,也就是48MB。
这相对于GeForce RTX 30系列的GPU而言是给非常庞大的数字,就算是上一代旗舰GeForce RTX 3090的L2缓存也不过48MB,GeForce RTX 3070仅有4MB。这意味着GeForce RTX 4070 SUPER的L2缓存是GeForce RTX 3070的12倍,这将为后续的光线追踪性能发挥、AI加速奠定了很好的基础。
具体对比表格参考如下:

黑化版的FE
与GeForce RTX 4070 Founders Edition一样,GeForce RTX 4070 SUPER Founders Edition也只占2个槽位,长度也与RTX 4070 FE相同,可以轻松放进ATX机箱或者更小的机型中。

在整体的设计元素上,GeForce RTX 4070 SUPER Founders Edition偏向于深黑色,包括固定中框的处理使用了深黑色外观,上手来看实现的更高级了。散热设计则与RTX 4070 FE相似,在GPU贴合底座使用了铜基座设计,并通过4根热管将热量快速扩展到铝制散热片中,同时双轴风扇也提供了更好的气体流动性,能够提供比GeForce RTX 3070 Ti FE更强的20%气体流动提升。

特别是针对12GB GDDR6X的发热量,GeForce RTX 4070 SUPER Founders Edition使用了8层PCB板以确保给GPU和vRAM提供干净的电流,并使用了6相电源供电设计,其中2相被设计为专为21Gbps的GDDR6X供电。

在接口设计上,GeForce RTX 4070 SUPER Founders Edition供电使用了16pin(12VHPWR)接口设计,随机包装配送了2x8pin转接线。输出接口则包括3个DisplayPort 1.4a和1个HDMI 2.1接口。

虽然GeForce RTX 4070 SUPER Founders Edition的硬件参数已经接近于RTX 4070 Ti,但TGP仅需要220W,因此在压力测试中GeForce RTX 4070 SUPER Founders Edition的散热模组能够轻松的稳定住GPU和显存的发热量。例如在压力测试下GPU温度最高为68℃,通过红外线测试可以看到GeForce RTX 4070 SUPER Founders Edition表面最高温度在PCB部分,为67.7℃。

与此同时,GeForce RTX 4070 SUPER Founders Edition的游戏功耗表现也非常出色,这里我们对5款游戏的2K分辨率最高画质下RTX 4070 SUPER实际功耗进行比较,可以2K分辨率下很难超过200W功耗,TGP 220W已经足够GeForce RTX 4070 SUPER使用。

DLSS 3.5超进化
如开头所言,GeForce RTX 4070 SUPER性能提升源自于核心数量增加以及更大的缓存设计。特别是GeForce RTX 4070 SUPER的L2缓存达到了与GeForce RTX 4070 Ti相同的48MB,并且CUDA Core数量,第三代RT Core和第四代Tensor Core数量都接近GeForce RTX 4070 Ti。

在探究GeForce RTX 4070 SUPER的表现之前,惯例放出测试平台,包括最新的Core i9-14900K、ROG MAXIMUS Z790 DARK HERO、G.SKILL Trident Z5 DDR5-7200 16GBx2,并配以Thermaltake TPI RGB PLUS 1250W电源作为支持,在GPU对比上则使用GeForce RTX 4070、GeForce RTX 3070 Ti、GeForce RTX 4070 Ti等GPU作为参考。

在基础性能测试中,主要参考检测DirectX 11和DirectX 12性能的3DMark Time Spy,3DMark Time Spy Extreme,3DMark Fire Strike Extreme,3DMark Fire Strike Ultra,Port Royal。
GeForce RTX 4070 SUPER距离GeForce RTX 4070 Ti基准测试相差性能只有4%到8%之间,同时GeForce RTX 4070 SUPER比GeForce RTX 4070快了15%到23%,GeForce RTX 4070 SUPER也比GeForce RTX 3070 Ti快了26%到40%。这意味着GeForce RTX 4070 SUPER实际性能表现高于RTX 3090,同时功耗只需要220W,效率非常高。

特别是DLSS 3和DLSS 3.5以后版本在GeForce RTX 40系列上的应用,让GeForce RTX 4070 SUPER的效率得到进一步的提升。这得益于第四代Tensor Core性能提升幅度巨大,包括的FP16、BF16、TF32、INT8、INT4性能相对前一代提升两倍以上,并支持商业Hopper GPU架构中出现的FP8 Transformer Engine。并且辅以光流加速器(Optical Flow Acceleration,OFA)与DLSS相结合的办法,构建出了一个更为立体的分析方式,让GPU实际执行过程压缩到原本的 1/8,更多的工作由DLSS 3及以后的版本完成。

而DLSS 3.5更近一部,它是一套基于AI,让画质和帧率同时提升的解决方案,同时包含DLSS帧生成(FG)与光线重建(RR, Ray Reconstruction)技术搭配,再加上超分辨率(Super Resolution)、DLAA、帧生成(Frame Generation)多种技术融合,让游戏效率表现更为突出。
在理论测试中,我们先引用3DMark DLSS 3功能测试作为参考,能够看出GeForce RTX 4070 SUPER的DLSS表现要比GeForce RTX 3070 Ti高出了115%,比GeForce RTX 4070高出了15%。

游戏测试部分,我们以近期即将上线的多人武侠开放世界RPG游戏《燕云十六声》作为例子,这款游戏来自Everstone工作室,主打单人模式和多人模式下的剧情、画面沉浸体验,仅在黄钟测试阶段便广受好评,仍处在调试阶段的游戏画面已经达到了相当精细的效果。

《燕云十六声》无疑成为GeForce RTX 4070 SUPER理想的测试场景之一。为了保证游戏流畅性,《燕云十六声》会根据GPU性能锁定画质等级,GeForce RTX 4070 SUPER最高可以开启超高档位。这时候在4K分辨率下,不做任何设置的GeForce RTX 4070 SUPER已经相当能打,但显然这是远远不够的,重点便是开启DLSS 3。
先说画质,这里远处山林在柔雾下光影的细节处理,DLSS 3开启之后过度变得更为自然。


再比如光照下屋檐的光斑处理,以及同一场景中柔雾展示,开启DLSS 3后的《燕云十六声》多了意境感。


当然更重要的还是帧率提升,4K分辨率超高画质下,GeForce RTX 4070 SUPER可以让游戏的帧率维持在接近60FPS的程度,而一旦开启DLSS,引入DLSS帧生成(FG),情况立马不一样了,帧率一下提升了170%。GeForce RTX 4070提升幅度也很明显,但实际表现仍然与GeForce RTX 4070 SUPER有20FPS,超过15%的差距。

这里我们原本想进一步对GeForce RTX 3070 Ti和GeForce RTX 2070 Super进行进一步测试,但无奈测试版本中的游戏画质等级被限制,因此没有参考的价值了。

DLSS 3另一个好处就是Reflex的加入让游戏响应延迟的进一步降低,在同一场景下,可以看到GeForce RTX 4070 SUPER不仅让游戏获得了更高的游戏帧率,延迟也更低,也进而提升了游戏击打的准确度,对于《燕云十六声》这款武侠动作游戏而言,无疑显得更为重要。

与此同时,我们也做了《无畏契约》《堡垒之夜》和《APEX英雄》的系统响应延迟测试,GeForce RTX 4070 SUPER与DLSS 3.5双重加持下,甚至可以让游戏的延迟部分接近10ms左右。可见GeForce RTX 4070 SUPER已经能够很好的承担竞技GPU的工作。

在更多的游戏测试中,我们以2K分辨率最高游戏画质作为参考,分别对比RTX 2070,RTX 3070和RTX 3090,差距感一下子就拉满了,GeForce RTX 4070 SUPER对比RTX 2070提升最多甚至可以有800%,而对比GeForce RTX 3070,表现则可以达到55%至200%以上。
即便是对抗当年卡皇RTX 3090,GeForce RTX 4070 SUPER也占了不小优势,DLSS 2场景表现与卡皇相当,而DLSS 3加持之后,最高也能拉出100%以上的差距。
下图表格中RT代表光线追踪Ray Traced,PT代表更高阶的路径追踪Path Traced,RR则是在DLSS 3.5中开启了光线重建Ray Reconstruction。




同时在实际游戏中,DLSS 3.5带来的画质变化也是质的攀升。例如在《赛博朋克2077:往日之影》中,早期车灯照射不准确的效果被修正,原因是之前人工调整降噪器的采样不准确,现在交予DLSS 3.5的AI不仅节省了调整的成本,效果也非常出色。特别在广告牌、霓虹灯反射的积水路面上,有了更准确的表达。


另外在《心灵杀手2》也能够明显感受到DLSS光线重建带来质的变换。以第二章节开始的咖啡厅橱窗为例,如果关闭DLSS 3.5,就会在玻璃上看到明显的噪点,窗户内人物衣服的二次反射,也不会投影到橱窗中,缺少了真实玻璃通透的质感。


AI创作很能打
有意思的是,游戏表现只属于GeForce RTX 40系列GPU性能表现的一部分,利用GPU的对AI加速的优势,以及本地运行的大模型,PC已经能够很好的在离线状态下具备完善的AIGC生成式内容创作。不仅如此,NVIDIA Studio加持下,常见的Adobe等专业内容创作软件,不仅也具备AI性能表现,在日常内容创作中性能也被很好的提升。

这里先进入喜闻乐见的Stable Diffusion生成式图像创作。随着Stable Diffusion SDXL发布,相比Stable Diffusion 1.5版本,SDXL模型扩大了3倍,图像的生成质量向上猛升了一个台阶。

图像质量的提升代价是需要更长时间的出图,自然就敦促更多针对硬件加速优化的诞生。NVIDIA针对Stable Diffusion Web UI 的TensorRT 加速插件就是其中之一,它可以让GeForce RTX在AI性能提升2倍率,并大幅提升Stable Diffusion出图效率。重点是对于消费者而言,这些都是免费的,只要记得将软件更新即可。
在配置完Stable Diffusion Web UI + TensorRT之后,这次我们用更短的语言描述生成10张分辨率为1024x1024的星际航行图片,每次运算1张图片,即总共执行10次,采样步数设置为50。
文字描述部分的神秘小代码参考如下:
epic space battle over a water planet, many ships, cinematic lighting, Depth of Field, hyper-detailed, beautifully color-coded, 8k, many details, chiaroscuro lighting


可以看到,在不到2分钟的时间内,GeForce RTX 4070 SUPER完成了10张质量非常高的图片创作,12GB GDDR6X被完全使用,精细度高下立判,轻松甩出Stable Diffusion 1.5一条街。

Stable Diffusion SDXL + TensorRT

Stable Diffusion 1.5
这里我们通过记录时间,推算出每分钟推算图片效率,参考公式为60 / (TotalTime / (BatchSize * BatchCount)) = Images Per Minute。通过对比可以看出,在768x768分辨率下,GeForce RTX 4070 SUPER表现出的战斗力已经很接近RTX 4070 Ti的水平了。

如果Stable Diffusion SDXL生成图像还显得有些抽象,D5渲染器利用DLSS 3.5加速效果无疑更为直接。在最新版本的D5 Rander中,利用DLSS 3.5光线重建(Ray Reconstruction, RR)完成AI渲染加强,不需等待即可看到最终的展示效果。换而言之,在诸如《赛博朋克2077》DLSS 3.5中体验到的流畅感,在D5 Rander中也能感受到。
值得注意,在D5渲染器中,DLSS 3.5使用了比DLSS 3多5倍的数据训练,因此也可以更好的识别光线追踪效果,在时间、空间数据中做出更合理的判断,从而实现高效率的扩展。

在D5渲染器中开启DLSS 3.5的方法很简单,只需要在菜单中找到DLSS 3.5选项,勾选所有的子选项,就能直接过得DLSS 3.5带来的畅快感觉。

其中在画质上,搭配光线重建的DLSS 3.5带来的效果非常明显,例如反光质感金属装饰杆噪点被处理得很通透。再例如窗户的透明与折射过度变得更为自然。




与此同时,D5渲染器的实时帧率在DLSS 3.5加持下得到明显提升,这里用GeForce RTX 4070 SUPER与RTX 3070进行对比,由于RTX 3070不支持帧生成,D5渲染器的场景帧率只有12FPS,但在GeForce RTX 4070 SUPER中,开启DLSS 3.5后帧率提升至将近40FPS,性能提升轻松超过200%了。

AI测试部分我们利用了ON1 Resize AI 2022对图片分辨率进行提升,在五个场景中进行比较,并记录平均时间,时间越少说明AI性能越强。可以看出GeForce RTX 4070 SUPER相对GeForce RTX 4070节省了8%的时间,相对GeForce RTX 3070 Ti则节省了50%的时间,效率非常高。


SPECviewperf特点是可测量在OpenGL和Direct X API下运行的系统的3D图形性能,专业软件包括3dsmax、Catia、Creo、Energy、Maya、Medical、SNX、Solidworks,凭借着几乎完整的AD104核心,GeForce RTX 4070 SUPER表现出的常规性能也非常突出。

Octane Render RTX则是用来测试GPU的光线追踪性能表现,在复杂场景下考验GPU每秒产生的样本率,GeForce RTX 4070 SUPER相对GeForce RTX 4070提升4%,相对GeForce RTX 3070 Ti提升51%。

在V-Ray 5 Benchmark中,会分别对CUDA Core和RTX进行检测,借助更多的CUDA Core数量,GeForce RTX 4070 SUPER对比RTX 4070也有非常明显的优势,提升达到25%以上,相对RTX 3070 Ti提升更是达到66%以上。

Blender Benchmark主要检测了Moster、Junkshop、Classroom三个输出场景,这里也可以看到GeForce RTX 4070 SUPER提升达到5%左右,相对RTX 3070 Ti提升达到60%以上。

写在最后:用SUPER定义性价比
无论游戏、AI创作还是专业软件加速,GeForce RTX 4070 SUPER都给留下了让人相当深刻的印象,原因也很简单,在与GeForce RTX 4070定价相当的前提下,展现出来的性能与GeForce RTX 4070 Ti相当,并且能够在大部分场景中战胜上一代卡皇RTX 3090,配合只有220W TGP,无论效能、性价比,GeForce RTX 4070 SUPER表现都非常出色。

可以这么说,GeForce RTX 4070 SUPER展示了SUPER系列所达到的性价比高度。特别是在NVIDIA软件与驱动不断升级和加持下,通过DLSS 3.5让游戏获得更好的画质和流畅体验,或者搭配TensorRT高质量的加速Stable Diffusion SDXL,再或者光线重构给D5渲染器带来实际使用时质的提升,这都是GeForce RTX 30系列以前GPU所无法比拟的。

重点在于,如果你已经是GeForce RTX 40系列用户,那么恭喜你,这篇评测中提到的所有关于GPU的新功能和AI加速,都已经可以免费获得。而如果是GeForce RTX 30系列以前的用户,比如GeForce RTX 3070 Ti,GeForce RTX 2070 SUPER的玩家们,不需要犹豫,GeForce RTX 4070 SUPER就是当下所能买到最具性价比的GeForce RTX 40系列GPU。
最后,英伟达GeForce RTX 40 Super系列现已上市,请到京东DIY Super超能年货节上选购GeForce RTX 4070 Super/80 Super 公版和合作伙伴显卡。
