4K光追新王者! 索泰 RTX4080 SUPER显卡全面测评

2024.09.25

    暑期大促相信对于众多 DIY 玩家来说是个攒硬件的好日子，作为装机大头的显卡应该有不少朋友都在关注。而作为老黄家的次旗舰 nvdida RTX 4080 SUPER ，想来也有不少小伙伴既想入手，又纠结于性能价格是否对等。
    有鉴于此，我也利用手头的索泰 RTX 4080 SUPER 显卡做了几项测试，顺便分享下个人对 RTX 4080 SUPER 定位看法。
    快问快答NVIDIA Ada Lovelace 架构优势何在
    RTX 40 系列显卡这次采用了全新的 NVIDIA Ada Lovelace 架构，以早期计算先驱Ada Lovelace 的名字命名。工艺采用定制 TSMC 4N NVIDIA工艺，核心面积从上一代的 628.4mm² 缩小到 608.5mm²，晶体管数量从上一代的 283 亿个提升至 763 亿个。最恐怖的是核心面积一直在缩小的同时晶体管数目保持夸张的增长速度，同时功耗也持平甚至更低于上代。

全景光线追踪：Ada Lovelace 架构引入了新的全景光线追踪技术，包括新的 RT 核心、更多的着色器以及新的 Tensor 核心，这些技术的结合使得光线追踪的性能得到显著提升。
光流加速器：架构中增加了光流加速器的运算性能，从Ampere架构的 126 TFLOPS增加到 300 TFLOPS，这使得DLSS 3能够预测场景中的运动，提高帧率同时保持图像质量。
DLSS 3技术：DLSS 3 包括帧生成技术、DLSS 2 超分辨率技术和 NVIDIA Reflex 技术，为游戏体验的流畅度、延迟和画质提供全方位的提升。
编码器升级：NVIDIA 编码器 (NVENC) 升级到了第八代，开始支持 A V1 编码，其效率比 H.264 高 40%，减少了数据量需求，同时提高画面质量。
第四代Tensor Core：Ada架构搭载了新的第四代Tensor Core，支持FP8数据类型，增加了INT4支持，同时去掉了 FP64 的支持，提供更高的AI计算性能。
第三代RT Core：Ada 架构的第三代 RT Core 将光线与三角形求交性能提高了一倍，同时 RT-TFLOP 峰值性能也提高了一倍，引入了 Opacity Micromap (OMM) 引擎和 Displaced Micro-Mesh (DMM) 引擎，大幅提升了光线追踪的速度和效率。
着色器执行重排序（SER）：SER 技术能够动态调整工作负载的顺序，最高可将光线追踪操作的着色器性能提升2倍，或将游戏帧率提升 25%。
架构规模增大：Ada Lovelace 的GPC数量从Ampere的最大7个增加到12个，二级缓存规模是上一代的 16倍，显著提升了性能。
显存带宽和PCIe支持：支持 1TB/s 的 GDDR6X 显存带宽和 PCIe GEN4 ，提供更高的数据传输速率。
NVIDIA RTX 6000 GPU：基于 Ada Lovelace 架构的 RTX 6000 GPU 为NVIDIA Omniverse™ Enterprise 平台提供了卓越的图形、AI 和计算性能，促进了协作、内容创作和仿真的发展。

    RTX 4080 SUPER到底升级了啥？
    不同于上代 4080 残血 AD103 - 300 核心，4080S 是真满血版本 AD103 - 400 ，拥有完整的 80 组 SM 单元、流处理器多了 512 颗。此外显存位宽不变的情况下，显存频率提升到了 23Gbps（22.4Gbps），带宽上升到了 736GB/s（717GB/s）。

从数据方面来看，RTX 4080 SUPER 领先 4080 大概 5% 左右，不过反映到实际游戏场景，提升大概在 2% ~ 3% 左右。不过这都不是重点，重点是RTX 4080 SUPER的发售价比RTX 4080 还低了约 16.7%，增量降价没跑了

    哪些用户是否需要 RTX 4080 SUPER
    经常有朋友问我这个问题，所以单独拿出来说一说
    先说结论

2K 分辨率，主流单机大作采用中高画质，4060TI 级别的显卡完全没问题
4K分辨率，主流单机大作采用高画质，4070TI / SUPER 级别的显卡都可以应对，游戏性能大概比 4070Ti 强 11% 追求高刷就开 DLSS3 性能档，或者关闭几个影响画质的选项
整个 SUPER 系列，我最推荐的就是 4080 SUPER
4070 SUPER 性能上提升最大，但显存拉了后腿，适合预算有限的朋友
4070TI SUPER 要好很多，显存来到了 16GB，玩游戏不容易爆显存；支持双视频编码器协同工作，我之前做过与 30900TI 的达芬奇输出测试，速度会提升一倍以上，但是性价比最低
4080 SUPER 的优势在于满血 AD103 - 400 核心，等效频率 22.4GHz ，甚至超过了 RTX 4090 的 21GHz。算力方面提供了高达 52 TFLOPS、121 RT TFLOPS 以及 836 AI TOPS，可以更好的满足游戏生产力用户。最重要的是 618 期间价格已经干到 8K 以内，相比 4070 SUPER 价差不大但性能提升巨大。

    再来谈谈型号选购，就我看来，一线品牌性能释放都差不多，SUPER 系列在功耗上也和 40 系保持一致，像 4080 SUPER 满载也不过 320W，散热压力并不大，所以我认为选购时性价比是最应该考虑的因素，其次下来则是品牌口碑、售后、散热以及设计等因素。
    下图是网上搜集的各品牌 4080 SUPER 用料表（并未涵盖所有）

    本次测试的主角是索泰 RTX 4080 SUPER 16GB TRINITY OC 月白，推荐理由里很简单。
    首先是品牌靠谱，毕竟后面站着的是 NVIDIA 核心伙伴栢能，性能、品质口碑都是一流，但又比御三家的价格更加亲民。
    其次月白这个系列我前前后后入手过 4060TI、4070TI，总结就是不算堆料但性能释放相当出色，温度控制的也很好。正如我前面所说，40 系显卡尤其是高端系列都属于规格溢出，反而是月白这种供电散热不存在短板，同时又保持了亲民的价格定位。
    此外，推荐它的原因是颜值高。众所周知，纯白系显卡本来可选余地就小，而能把设计感做的到位更是凤毛麟角，索泰月白系列算是少有的高颜值白色系显卡，对于搭建纯白主机很有优势。
    对了，索泰月白系列还有个优点 ~ 身材纤细、长度适中，对小尺寸机箱兼容性较好。

    纯白圆润，不夸张但实用的机体造型
    索泰 RTX 4080 SUPER 16GB TRINITY OC 月白，和天启系列同为它家次旗舰（再往上就是 AMP 和 PGF ）。相比公版卡来说基频相同，但核心频率提升到了 2565MHz。由于没有进行过于激进的官方超频，因此，这块卡可能是目前市场上价格最实惠的白色 RTX 4080 SUPER 显卡之一。

索泰 RTX 4080 SUPER 16GB TRINITY OC 月白基于三风扇设计，纯白配色，转角采用曲线过渡显得较为圆润。三只直径 90mm 的“仿生盾鳞2.0”风扇，不仅加大了扇叶面积，而且利用鳞状仿生条纹和特殊定制的曲率，优化风扇的进气风道，起到增加风压、减小乱流的效果。

风扇支持支持智能启停技术，可以在高、低温度和负载之间让风扇智能启停，减小噪音，增加显卡寿命。同时，用户还可以利用索泰的 FireStorm 软件来自定义风扇的转速和性能曲线，以适应不同的使用场景和个人喜好。

显卡顶部设计了一个醒目的镂空品牌标识，内部铺设了名为“虹桥幻影”的大型 RGB 灯带，高达 1670 万种颜色的自定义设置，可以通过 FireStorm 软件进行个性化调整，以满足不同场景下的工作模式需求。

显卡内部是索泰自家的 IceStorm3.0 散热系统，由仿生盾鳞 2.0 三风扇、7 条 6mm 镀镍热管以及加厚型散热模组构成，配合 11 + 2 相的供电设计，可以很轻松压制显卡产生的热量。

显卡背部是从一体成型合金背板，金属背板不仅增强了显卡的结构稳定性和电气性能，特殊的尾部的通风孔设计有助于提高散热器的空气流动，从而提升散热效率。

30.7 * 59 * 12cm 的尺寸、2.5 卡槽占用，在同规格显卡阵营堪称纤细，可以更好的适配小尺寸机箱。

    4K 毫无压力，开启光追更轻松
    本次测试平台如下，处理器是 Intel Core™ i7 14700KF，搭配 Z790 小雕，足以保证不拉后腿。

游戏加加性能跑分，总体得分 190056、工作站性能 M-374557。CPU单核性能评分 39492分、CPU多核性能评分 583500分、GPU性能评分 148380分、得到了“S”级评价。

首先是 3D Mark Fire Strike，这是一项适用于高性能游戏电脑和超频系统的 DirectX 11 基准测试，其统一的打分机制对于不同设备的性能比较很有参考。实测下来，索泰 RTX 4080 SUPER 16GB TRINITY OC 月白的总得分为 51976 分，其中显卡分数 64417分，预估在【荒野大镖客2】游戏最高画质下可跑到 130+FPS 以上的好成绩。

而 4K 版本的 Fire Strike Ultra，显卡得到了17959 分，，其中显卡分数 17469分，预估在【荒野大镖客2】游戏最高画质下可跑到 105+FPS 以上的好成绩。此时 GPU 最高温度 45.04°C，GPU 负载 38.99%，GPU 时钟频率 2760MHz.

Time Spy 则是针对 DirectX 12 游戏设计的基准测试，支持原生 API 功能，比如如异步计算，多显卡适配器技术和多线程。实测下来，索泰 RTX 4080 SUPER 16GB TRINITY OC 得分为 27470 分，其中显卡分数为 28339 分，预估【战地5】最高画质下可以跑到 200+FPS 。

Time Spy Extreme 作为进阶版，看重的是 4K 分辨率下 DirectX 12 的游戏性能测试。实测下来显卡得分为 6297 分，其中显卡分数为 6068分，预估【战地5】最高画质下可以跑到 135+FPS ，

针对实时光线追踪的【Port Royal】总分 18110分，大力水手关闭 40.21FPS，开启能跑到 134.79FPS，提升极为明显。

赛博朋克作为少有的同时支持 INA 三家超分辨率技术，以及光追与 DLSS 3 技术的单机大作，自然不能错过测试。在默认的 4K 分辨率 / 超级光追模式下平均帧率能做到 113.90FPS，最小帧率都能跑到 80FPS 以上。

设置不变，仅将“大力水手”切换到性能档，平均帧率来到 148.81FPS，最小帧率也来到了 128FPS 以上。

极限竞速：地平线 5 在 4K 分辨率，预设极端模式下，平均帧率 122FPS，最低帧率 113FPS

原设置不变，开启NVIDIA DLSS AI 超分辨率（超高性能）、DLAA关闭、开启帧生成技术，平均帧率 166帧，最低帧率，主打流畅二字。

育碧的 3A 大作刺客信条.幻境，这游戏的优化着实喜人，但最高只支持 nvdida DLSS2 技术.虽然有国外网友开发了 DLSS 3 帧生成 MOD，但使用之后游戏内置的 benchmark 就无法运行。这里我测试的 4K 分辨率最高画质，游戏平均帧率达到了 101FPS，最低 1% 也有 83FPS。

温度测试环节，利用 Furmark 对索泰 RTX 4080 SUPER 月白进行烤鸡，在负载拉满的情况下，显卡最高功耗跑到了 320W 左右，完美对应标称数据。此时 GPU 表面温度 76°C 左右、热点温度 90°C 左右，考虑到显卡本身并没有做夸张的散热设计，这个温度控制应该算是相当完美。

    AI 生产力才是王道
    40 系显卡价格偏高，最重要的原因它不是纯游戏卡，对于跑 AI 的朋友来说更是妥妥的生产力需求。
    为什么说 N 卡最适合跑 AIGC？
    确切来讲，AIGC 技术并不局限于 NVIDIA显卡，但目前大多数加速计算环境是基于 CUDA 构建的，而 CUDA 是 NVIDIA 开发的技术，NVIDIA的 GPU 拥有卓越的并行处理能力和针对 AI 工作负载优化的架构。例如，NVIDIA 的 DLSS 技术，它通过 AI 生成额外的帧来提升游戏和应用程序的渲染性能，这就是 AIGC 技术的一个应用实例。此外，市面常见的 AIGC 模型都是用 N 卡跑出来的，所以硬件兼容度也是最高的。

我之前出过一篇利用 Stable Diffusion 跑本地 AI 绘图的文章，相比流行的 Midjourney（Mid）来说，Stable Diffusion 可以进行本地部署，部署完毕可以免费无限次使用，没有使用成本，在图像质量和用户可控性都更高。但也因为需要本地跑图，所以对硬件有一定的要求，尤其是 GPU，推荐至少 4GB 显存的显卡，8GB 及以上显存可以获得更好的性能。

    本次 AI 绘图测试同样基于 Stable Diffusion 本地模型，评测之前先和大家分享下索泰 RTX 4080 SUPER 的优势
    众所周知，在 AI 绘图领域，核心数量主要决定计算的快慢，显存大小则决定分辨率、模型以及批次数量的上限。
    对于 SD 来说，12GB 显存已经可以满足日常图像绘制的需求，不过如果你喜欢尝试不同的插件、扩展、乃至相互组合生图
    那么 16GB 可以更好的保证不出现爆显存的风险。
    更别提现在流行的视频生成项目，这可比生成静态图片所需显存要求可大了一截
    所以，选择大显存不仅是速度更快，而且在其他项目的尝试也能更加的自由

    本次 AI 测试基于秋葉aaaki 大佬的整合包和 SDXL 大模型，首先做哈准备工作
    显存优化这里，如果是＞12GB 显存就选无优化，
    然后关闭下方的 VAE 半精度优化

    进入 Stable Diffusion ，先来到系统信息 - 基准测试跑个分
    索泰 RTX 4080 SUPER 16GB TRINITY OC 月白在默认模型下跑出了 16.49it/s、24.56it/s、28.14it/s
    这是什么水准呢，从跑分天梯图来看就是妥妥的第二名（排名仅供参考，数据量目前很少）

    换成 SDXL 大模型 + SDXL VAE 的组合，分数就会骤降到 6.41it/s、11.73it/s、19.53it/s
    要知道，这还是优化相对算好的高质量模型，想想要是用优化普通的模型 + LORA + 额外扩展的组合，渲染量一大不崩才怪。
    这应该就是高端卡的优势所在 ~ 生产力！

使用 SDXL 1.0 模型、搭配 sxdl/VAE 模型，采样方法: DPM++2MSDE、迭代步数:60；图片宽度：1024；图片长度：1024；总批次数：1；单批数量：8。

耗时 1 分 56秒，显存最高达到了 13.3GB，基本上 4070TI SUPER 以下阵亡了。

成品图

不仅如此，Nvidia 还专门推出了用于加速 AI 矩阵运算的 Tensor Cores ，这是一个针对深度学习推理的高性能 GPU 加速器，它可以自动对神经网络模型进行优化，提高运行速度并降低内存占用。

在 Stable Diffusion 中使用相同的提示词，一次生成 20 张图片，对比 Tensor Cores 加速前后耗时

    Tensor Cores 加速前后，生成时间从 2 分 36 秒缩短到了 1 分 43 秒，加速实际效果达到了 51%。
    这还只是用的基础模型库，关键字等各项参数也不复杂，换成高分辨率输出和多模型组合的话，这个差距只会越来越大。
    而这才是老黄卡不愁卖的根本原因，生产力永远是核心需求。

    总结
    增量减价，堪称良心，这是我对 Nvdida RTX 4080 SUPER 显卡的看法。游戏性能相较于 RTX 4080 有 2%~10% 提升，可以很轻松满足 3A 大作对画质和帧率的需求，满血版 AD103 核心和 16GB 的超大显存，对于需要进行视频编辑、3D建模等高负载任务的生产力用户来说，简直就是雪中送炭。大显存意味着你可以同时打开更多的应用，处理更大的文件，而不会感受到丝毫的卡顿。
    索泰 RTX 4080 SUPER 16GB TRINITY OC 月白则是家用游戏显卡的典范。小巧纤细的机身，可以轻松适配各种小型机箱，让你的桌面空间不再受限。而且，它并没有因为体积小而牺牲性能，对比某些品牌用夸张的造型、过分的堆料来强行提高价格，索泰这样的做法无疑才是真正为玩家着想。