开云体育

腾讯太极团队实现DeepSeek模型业内H20最高性能15800+ toke开云APP下载nss

2025-07-13
浏览次数:
返回列表

  开云体育[永久网址:363050.com]成立于2022年在中国,是华人市场最大的线上娱乐服务供应商而且是亚洲最大的在线娱乐博彩公司之一。包括开云、开云棋牌、开云彩票、开云电竞、开云电子、全球各地赛事、动画直播、视频直播等服务。开云体育,开云体育官方,开云app下载,开云体育靠谱吗,开云官网,欢迎注册体验!

腾讯太极团队实现DeepSeek模型业内H20最高性能15800+ toke开云APP下载nss

  “太极AngelHCF推理极致优化”系列文章由太极Angel-HCF推理团队撰写,全面揭秘如何实现模型15800+ tokens/s的业内H20最高性能,本文将拆解DeepSeek全栈优化方法论:通过PD分离,Prefill和Decode使用不同的并行策略,多层MTP优化,并结合模型特点和Hopper架构特性,将多机推理性能推向极限。

  DeepSeek发布后司内AI应用流量持续上涨,对推理算力的需求呈指数级增长。与此同时,开源社区提供的vllm/sglang等推理引擎存在gpu利用率低、推理速度慢,并发度低等问题,导致同等数量推理卡可服务业务规模较低,导致业务对卡量需求过于庞大。太极Angel-HCF推理团队联合腾讯云云智能等团队针对DeepSeek进行专项优化,推出行业最高性价比的推理方案:

  ●核心目标:首字小于2s,单token生成耗时低于50ms的限制下,最大化吞吐(QPM);在保障用户体感基础上,最小化业务成本。

  :利用Hopper架构新特性深度优化(如TMA、WGMMA指令)(2)算法革新

  :框架优化、w4a8c8量化、MTP并行解码、PD分离调度、大EP、TBO等●优化成果

  :○ 测试数据集: 3000条业务脱敏数据集(最大输入16k,平均输入3.5k;最大输出32k, 平均输出1.2k)○ 测试机器:16卡 H20-96G

  考虑到新模型快速支持的需求, 也吸收参考了开源众多优秀的方案和设计,我们从纯C++框架转型到Python Runtime 加 C++ Kernel方案。 并花费3个月从框架、算子、量化压缩等方向全面优化, 取得了显著的成果。 本篇文章推理优化部分主要讲解我们在ADP、大EP、PD、多层MTP等方面的优化工作。

  ● 由于kv cache频繁存取,存在明显的访存瓶颈,主要采用DP + 大EP,尽可能增大batch size,同时减少单卡访存压力

  如果等到所有layer算完再进行发送,发送的数据量可能较大,占用较多SM算力,影响下一轮次forward step计算性能,因此根据实际情况设计layerwise传输。

  ● 层前向计算与层 KV Cache 传输 overlap,有效降低长seqlen 场景 cache 传输时耗

  ● 长文:ISL8k 时选择 Layerwise 传输;短文:ISL8k 时整体传输,避免大量小包,并做小包合并传输

  DeepSeek V3/R1包含256个路由专家,每一个token激活其中8个专家,具有很高的稀疏性,很容易导致各专家激活次数差异较大,采样分析各layer各expert激活次数统计分布如下,表现为。

  ● 部分layer存在明显热点专家,热点专家激活的次数可能是非热点专家的5倍以上,导致EP并行存在某个rank上计算耗时较长,其他rank需等待的局面

  ● 不同layer的热点专家分布不同,各layer的负载均衡可独立调度管理

  MTP可以提升推理性能的关键是一步可以预测多个token。因为DeepSeek只开源了一个MTP层,目前主流实现方式是多个MTP层共用同一层开源的weight。这样会导致除了第一层接受率比较高之外,后面的层接受率都偏低。

  比如真实对话场景下,MTP第一层的接受率约0.7,第二层接受率一般小于0.4.

  提升MTP接受率是提升MTP推理性能的关键。我们实验了多种方法来提升MTP接受率,包括训练多层MTP和优化模型的采样方法等。

  团队使用了两种方法来训练MTP层,第一种方法是保持和DeepSeek论文一致,训练5层独立的MTP权重。第二种方法同样训练5层MTP,但5层使用相同的权重,这样训练的好处是和当前推理框架兼容比较好,无需修改框架即可直接加载新训练的MTP层。

  我们使用Megatron-LLM训练MTP层,共享MTP层训练代码修改如下:

  以上是三种采样方法的主要原理,每种方法实际实现还包括首个拒绝token的采样方法。我们在上面三种采样方法基础上,通过尝试不同的超参数组合,draft和verify使用不同的采样方法(比如draft模型减少随机性),以及动态温度等。在模型精度基本不变的情况下。DeepSeek两层MTP平均接受率达到0.7左右。

搜索