新闻动态
你的位置:米乐体育M6官网 > 新闻动态 > 英伟达宣布创造满血 DeepSeek 推理世界纪录
英伟达宣布创造满血 DeepSeek 推理世界纪录
发布日期:2025-04-12 05:30    点击次数:201

IT之家3月19日消息,英伟达在今日举行的NVIDIAGTC2025上宣布其NVIDIABlackwellDGX系统创下DeepSeek-R1大模型推理性能的世界纪录。

据介绍,在搭载了八块BlackwellGPU的单个DGX系统上运行6710亿参数的满血DeepSeek-R1模型可实现每用户每秒超250token的响应速度,系统最高吞吐量突破每秒3万token。

英伟达表示,随着NVIDIA平台继续在最新的BlackwellUltraGPU和BlackwellGPU上突破推理极限,其性能将会继续不断提高。

单节点配置:DGXB200(8块GPU)与DGXH200(8块GPU)

测试参数:最新测试采用TensorRT-LLM内部版本,输入1024token/输出2048token;此前测试为输入/输出各1024token

计算精度:B200采用FP4,H100/H200采用FP8精度

英伟达表示,通过硬件和软件的结合,他们自2025年1月以来成功将DeepSeek-R1671B模型的吞吐量提高了约36倍。

节点配置:DGXB200(8块GPU)、DGXH200(8块GPU)、两个DGXH100(8块GPU)系统

测试参数:依然采用TensorRT-LLM内部版本,输入1024token/输出2048token;此前测试为输入/输出各1024token;并发性MAX

计算精度:B200采用FP4,H100/H200采用FP8精度

与Hopper架构相比,Blackwell架构与TensorRT软件相结合可实现显著的推理性能提升。

英伟达表示,包括DeepSeek-R1、Llama3.1405B和Llama3.370B,运行TensorRT软件并使用FP4精度的DGXB200平台与DGXH200平台相比已经提供了3倍以上的推理吞吐量提升。

精度MMLUGSM8KAIME2024GPQADiamondMATH-500DeepSeekR1-FP890.8