柳影花阴网>巴中 > 正文

英伟达称Blackwell每兆瓦吞吐量是Hopper的50倍

来源：柳影花阴网-工人日报

2026-03-17 23:02:26

IT之家 2 月 18 日消息，英伟达于 2 月 16 日发布博文，宣布其 Blackwell Ultra AI 架构（GB300 NVL72）在能效与成本上实现显著突破，通过 DeepSeek-R1 模型测试，相比前代 Hopper GPU，其每兆瓦吞吐量提升 50 倍，百万 tokens 成本降低至 35 分之一。

此外，英伟达还预告了下一代 Rubin 平台，预计其每兆瓦吞吐量将比 Blackwell 再提升 10 倍，进一步推动 AI 基础设施的演进。

IT之家注：每兆瓦吞吐量（Tokens / Watt）是衡量 AI 芯片能效比的核心指标，指每消耗一瓦特电力能处理多少 Token（文本单位）。数值越高，代表能效越好，运营成本越低。

英伟达在博文中指出，性能飞跃的关键，是升级技术架构。Blackwell Ultra 通过 NVLink 技术，将 72 个 GPU 连接成统一的计算单元，互联带宽高达 130 TB/s，远超 Hopper 时代的 8 芯片设计。此外，全新的 NVFP4 精度格式配合极致的协同设计结构，进一步巩固了其在吞吐性能上的统治地位。

AI 推理成本方面，相比 Hopper 架构，新平台将每百万 Token 的成本削减至 35 分之一；即便与上一代 Blackwell（GB200）相比，GB300 在长上下文任务中的 Token 成本也降低至 1.5 分之一，注意力机制处理速度翻倍，适配代码库维护等高负载场景。

OpenRouter 的《推理状态报告》指出，与软件编程相关的 AI 查询量在过去一年中激增，占比从 11% 攀升至约 50%。这类应用通常需要 AI 代理在多步工作流中保持实时响应，并具备跨代码库推理的长上下文处理能力。

英伟达为应对这一挑战，通过TensorRT-LLM、Dynamo 等团队的持续优化，进一步提升了混合专家模型（MoE）的推理吞吐量。例如，TensorRT-LLM 库的改进，让 GB200 在低延迟工作负载上的性能在短短四个月内提升了 5 倍。

责任编辑：柳影花阴网

媒体矩阵

客户端
微信号
微博号
抖音号

推荐

看点

工会24小时

网评推荐

客户端

亿万职工的网上家园

关于我们|版权声明| 违法和不良信息举报电话：010-84151598 | 网络敲诈和有偿删帖举报电话：010-84151598
Copyright © 2008-2024 by {当前域名}. all rights reserved

扫码关注

柳影花阴网微信

柳影花阴网微博

柳影花阴网抖音

工人日报
客户端

×

分享到微信朋友圈×

打开微信，点击底部的“发现”，
使用“扫一扫”即可将网页分享至朋友圈。