为什么RTX4090的规格是RTX4070显卡的将近3倍性能却只有2倍？

2024.06.17

    我发现4090这款显卡的边际效应相当明显，这一发现让我颇感意外。
    在GPU这种超大规模并行计算领域，最能突显性能差距的无疑是GPU渲染或计算能力，因为这类运算完全依赖于GPU，几乎不受其他因素的影响。
    我特地从OC渲染的benchmark天梯榜上搜集了40系显卡的成绩数据（未开启RT），并进行了深入分析。

    这份数据结果真的让我大吃一惊，4090的渲染性能竟然只比4070高出将近两倍。要知道，在以往的显卡评测中，这种情况可是从未出现过的。毕竟，4090的规模几乎是4070的三倍，但渲染性能却只高出两倍。
    我仔细计算了相对衰减幅度，并据此推测，显存带宽可能是RTX40系显卡的一个主要瓶颈。可以说，显存设置上的吝啬可能限制了RTX40系显卡发挥出其应有的性能。
    4060Ti 8G就是一个典型的例子。尽管它的流处理器数量比4060多了41.67%，但由于显存带宽仅略高于4060，其最终渲染性能的提升幅度也仅有13.6%。
    相比之下，4070在流处理器规模仅比4060Ti多出35.3%的情况下，其渲染性能却强出了57.56%。这得益于4070的显存配置——192bit 21Gbps，最终带宽达到了504GB/s，比4060Ti的288GB/s高出了75%。
    我记得在RTX30系显卡的时代，我们在进行OC渲染时并没有特别关注显存带宽这个因素。

    RTX30系的衰减情况可以说是微乎其微，显存带宽问题并没有那么突出。因此，以前我们在评估GPU渲染性能时，通常会将渲染性能与显卡规模直接挂钩。
    再来看一下RTX20系的情况。

    在GDDR6显存还未普及的时代，只有高端显卡的衰减情况较为明显。因此，我们有理由相信，RTX40系高端显卡的瓶颈已经变得相当显著，甚至在GPU渲染用途上已经开始出现明显的性能衰减。
    对于RTX4090渲染性能仅有4070两倍不到这个问题，我严重怀疑显存带宽是一个重要的制约因素。这可能与GDDR7显存的缺失有关。
    另一方面，我也对Ada Lovelace架构的边际效应问题产生了怀疑。从目前已知的信息来看，Ada Lovelace架构相较于30系的Ampere架构，除了加入了一些新特性（如第四代Tensor Core、第三代RT Core以及光流加速器、大L2等）外，主要就是换用了台积电4N工艺，扩大了规模并提高了频率。
    然而，AD102核心的流处理器数量相较于GA102有了巨大的增长，但显存带宽却保持不变，都是1008GB/s。这意味着单个SM的光栅渲染性能提升可能主要来自于频率的提高，这可能会导致在超大规模下GPU的并行效率下降。
    也许在下一代GPU中，随着架构的改进和GDDR7显存的采用，我们才能看到这种规模的GPU应有的实力。
    至于游戏方面，由于游戏性能还受到CPU和内存等其他因素的影响，因此性能差距可能会进一步缩小。