英伟达宣布创造满血 DeepSeek 推理世界纪录

栏目分类

新闻动态

你的位置：米乐体育M6官网 > 新闻动态 > 英伟达宣布创造满血 DeepSeek 推理世界纪录

发布日期：2025-04-12 05:30 点击次数：207

IT之家3月19日消息，英伟达在今日举行的NVIDIAGTC2025上宣布其NVIDIABlackwellDGX系统创下DeepSeek-R1大模型推理性能的世界纪录。

据介绍，在搭载了八块BlackwellGPU的单个DGX系统上运行6710亿参数的满血DeepSeek-R1模型可实现每用户每秒超250token的响应速度，系统最高吞吐量突破每秒3万token。

英伟达表示，随着NVIDIA平台继续在最新的BlackwellUltraGPU和BlackwellGPU上突破推理极限，其性能将会继续不断提高。

单节点配置：DGXB200（8块GPU）与DGXH200（8块GPU）

测试参数：最新测试采用TensorRT-LLM内部版本，输入1024token/输出2048token；此前测试为输入/输出各1024token

计算精度：B200采用FP4，H100/H200采用FP8精度

英伟达表示，通过硬件和软件的结合，他们自2025年1月以来成功将DeepSeek-R1671B模型的吞吐量提高了约36倍。

节点配置：DGXB200（8块GPU）、DGXH200（8块GPU）、两个DGXH100（8块GPU）系统

测试参数：依然采用TensorRT-LLM内部版本，输入1024token/输出2048token；此前测试为输入/输出各1024token；并发性MAX

计算精度：B200采用FP4，H100/H200采用FP8精度

与Hopper架构相比，Blackwell架构与TensorRT软件相结合可实现显著的推理性能提升。

英伟达表示，包括DeepSeek-R1、Llama3.1405B和Llama3.370B，运行TensorRT软件并使用FP4精度的DGXB200平台与DGXH200平台相比已经提供了3倍以上的推理吞吐量提升。

精度MMLUGSM8KAIME2024GPQADiamondMATH-500DeepSeekR1-FP890.8