“难题揭榜”第121期-计算领域难题第二期 完整题目整理
基础信息
- 发布日期:2025-05-19
- 最后更新:2025-06-04 17:31
- 浏览量:446次
- 出题组织:先进计算与存储实验室
- 反馈方式:董晓文 xiaowen.dong@huawei.com
难题1:多模态MoE专家负载预测和迁移
基本信息
- 题号:难题1
- 标题:多模态MoE专家负载预测和迁移
- 接口专家:张梦阳 zhangmengyang4@huawei.com;董永汉 dongyonghan@huawei.com
- 浏览量:1796次
技术背景
- MoE-LLaVA论文引入MoE提升模型准确度,提出热门专家问题会导致负载不均衡。
- Uni-MoE论文引入4+模态,提出热门专家问题会导致负载不均衡。
- 时间维度:训练前期专家负载有波动,后期逐渐稳定,相邻步专家负载接近;空间维度:第一个MoE层(Layer2)负载有波动,其它层相对稳定。
- Expert3成为热门专家,既擅长处理Text部分,也擅长处理Image,Expert2其次。
技术挑战
业界(GPT4o、Gemini1.5)和学术界(UniMoE、MoE-LLaVA)多模态模型引入了MoE框架,但存在和LLM类似的热门专家问题,不同多模态token有一定的规律,但相比纯文本预测难度大。实验表明,训练前期专家负载变化较快,均衡迁移效果差。
当前结果
- Uni-MoE模型在专家级、模态级和Token级视角下的工作流程表明,Uni-MoE已经学会了一种特定的模式,使得专家能够划分多模态任务。
- MoE-LLaVA分析了不同专家之间模态的分布,发现各专家有自己的偏好。比如文本和图像的路由分布高度相似,专家都能够同时处理文本标记和图像标记,并且在深层,文本和图片Token倾向于激活固定的两个专家,在浅层,激活的专家较为随机。
- 针对GPT3 350M模型,后续1000和2000步中预测专家负载比例的平均误差分别约为1.3%和1.8%;负载预测和迁移可将训练时间减少多达1.73倍。
- 已在昇腾+MindSpeed平台实现MoE负载预测和迁移,均衡效率和性能提升效果仍在优化。
技术诉求
- 基于昇腾+MindSpeed平台,提出一种面向多模态MoE(MoE-LLaVA、Uni-MoE等)的动态专家负载预测和迁移调度技术,支持Text、Image、audio、video至少2模态。
- 专家负载占比预测:训练场景支持在2000步内误差<5%(评估方法参考论文),加入预测模块时,训练时延劣化<20%。
- 热门专家迁移调度:针对>30B多模态MoE模型、>64卡集群、EP>8,支持热门专家迁移,实现专家负载均衡,端到端的训练时间降低70%(评估方法参考论文)。
参考文献
[1] Li J, Jiang Y, Zhu Y, et al. Accelerating distributed MoE training and inference with lina[C]//2023 USENIX Annual Technical Conference (USENIX ATC 23). 2023: 945-959.
[2] Cong P, Yuan A, Chen S, et al. Prediction Is All MoE Needs: Expert Load Distribution Goes from Fluctuating to Stabilizing[J]. arXiv preprint arXiv:2404.16914, 2024.
[3] Lin B, Tang Z, Ye Y, et al. MoE-llava: Mixture of experts for large vision-language models[J]. arXiv preprint arXiv:2401.15947, 2024.
[4] Li Y, Jiang S, Hu B, et al. Uni-moe: Scaling unified multimodal llms with mixture of experts[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2025.
难题2:生成式推荐Jagged零冗余均衡计算技术
基本信息
- 题号:难题2
- 标题:生成式推荐Jagged零冗余均衡计算技术
- 接口专家:丰泳翔 fengyongxiang1@huawei.com;王燕飞 wangyanfei31@huawei.com
- 浏览量:634次
技术背景
推荐是互联网的命脉业务,Meta提出基于行为序列建模&HSTU的新型生成式推荐架构GR,统一的生成式推荐被认为是下一代推荐的范式,但是推荐场景的天级高效训练、50ms超低延迟推理特性和Jagged序列,对计算系统提出了更高的挑战和需求,驱动芯片和系统架构的创新。
技术挑战
- 生成式推荐百亿级候选,依赖自回归串行解码无法满足K级候选20ms极低时延约束,需要创新推理范式;用户行为序列Prefill和候选Decode计算均为计算Bound特征,PD空间分离不适用。
- 推荐用户序列长度方差极大,GR模型序列并行架构下,现有Dense计算方法会引入极大的计算开销,Jagged计算形态对训练性能和显存占用优化显著,但会引入动态shape和负载不均衡问题。
当前结果
- 当前Jagged序列在分布式训练时引入快慢卡问题导致等待空泡,性能相比单卡劣化>40%,目前通过序列分档仅提升10%性能,难以达到极致性能。
- Meta利用Jagged的不规则特性,基于GPU设计实现Jagged融合算子消除计算冗余,目前未有昇腾亲和的实现导致计算效率较低。
技术诉求
基于昇腾+鲲鹏平台,构建Jagged Tensor的零冗余均衡计算技术,不限于通过行为序列分组均衡、零冗余并行Decode和细粒度动态切分等技术,实现计算通信均衡和零冗余计算(测试Baseline参考论文,序列稀疏度50%):
- GR训练均衡计算加速:0.1-1B模型参数下,1K-8K序列长度,GR精排模型分布式训练(>16卡)MFU提升10%(20%->30%)、线性度>0.9;GR精排推理性能加速1x,并行推理线性度>0.9(50ms SLA约束)。
- 高精度稀疏化:探索低精度和序列稀疏采样技术,GR模型精度无损或损失小于万分之一。
参考文献
[1] Zhai, Jiaqi, et al. “Actions Speak Louder Than Words: Trillion-Parameter Sequential Transformers for Generative Recommendations.” arXiv preprint arXiv:2402.17152 (2024).
[2] Lv, Xiao, et al. “MARM: Unlocking the Future of Recommendation Systems through Memory Augmentation and Scalable Complexity.” arXiv preprint arXiv:2411.09425 (2024).
难题3:NPU-PIM协同的大模型推理算子优化
基本信息
- 题号:难题3
- 标题:NPU-PIM协同的大模型推理算子优化
- 接口专家:陶冶 taoye38@huawei.com;黎高鹏 gaopeng.li@huawei.com
- 浏览量:1337次
- 状态:已揭榜
技术背景
- 大模型推理通常分为Prefill阶段和Decode阶段,Decode阶段是带宽瓶颈,主要的耗时在于模型权重的加载,通常引入PIM单元将待计算的数据传输到存储模型权重的存储单元进行存内计算,降低时延和能耗提高性价比。
- NPU和PIM单元亲和的数据排布方式存在差异,权重复用存在挑战。
- 当终端设备同时存在NPU和PIM两类设备时,在执行大模型推理服务时如何充分发挥两个硬件的能力特性,在利用PIM单元实现端侧大模型推理时延低功耗的前提下,避免占用过多存储容量等问题。
技术现状与挑战
- 为了利用PIM单元加速大模型Decode流程中的GEMV计算,大模型的模型权重在内存中的排布方式存在一定的限制,但在满足限制的前提下可以根据系统的需求对数据排布的方式进行一定程度的自定义涉及以实现最优性能。
- NPU设备的cube单元执行GEMM计算需要将权重数据在多级缓存加载的过程中转化为特定的数据格式(例如NZ、ZZ、ZN等)。
- 其中数据加载过程支持普通数据搬运、增强数据搬运、切片数据搬运以及随路格式转换,但不同的数据搬运方式带宽存在差异。若数据格式不适合cube单元使用且现有指令均无法高性能实现数据的变换,然后再交给cube处理。
技术诉求
- 算法设计:同时适用于NPU和PIM单元的数据排布格式及对应的NPU和PIM数据加载和计算方案。
- 性能优化:
- 相对只存在同规格NPU没有PIM单元的设备,2K序列长度下TBT时延降低80%,TTFT不增加,内存占用增加小于5%。
- 相对同设备下NPU和PIM单元不考虑存储约束的最低时延方案,2K序列长度下TTFT时延增加小于20ms,TBT不增加。
难题4:基于异构算力的端侧大模型复杂应用加速
基本信息
- 题号:难题4
- 标题:基于异构算力的端侧大模型复杂应用加速
- 接口专家:余恩宇 yuenyu@huawei.com;黎高鹏 gaopeng.li@huawei.com
- 浏览量:1718次
- 状态:已揭榜
技术背景
- 在RAG和Agent等复杂真实场景,多种数据源的知识库构建,检索和LLM Inference的组合导致多次检索和推理交叉,形成复杂工作流。
- 未来端侧算力底座可能由CPU-NPU-PIM异构算力组成,当前推理框架无法实现复杂工作流与异构算力最优匹配调度和并行,需结合端侧异构算力对应用端到端的Pipeline进行优化。
技术现状与挑战
- 在端侧RAG和Agent应用的复杂工作流中,一个请求包含多次检索和推理,当前端侧实现只是将各个模块组合起来,CPU和NPU串行执行,对每个模块单独进行优化,没有一个具备一定泛化性的自动应用Pipeline优化方案。
- 业界已有一些在云侧的应用端到端加速优化,但主要优化目标是系统的吞吐量,端侧很多是小batch应用,优化目标应该更多考虑端侧时延的影响。
技术诉求
- 典型端侧RAG和Agent应用的自动Pipeline优化:分析和优化端侧典型RAG/Agent应用场景的Pipeline,基于华为手机,实现典型RAG和Agent应用的自动Pipeline优化,在小batch场景端到端时延相对现有实现降低1.5倍以上。
- 基于端侧异构算力的RAG和Agent应用加速策略:针对优化后的端侧应用Pipeline、各个组件的负载和端侧异构算力(CPU/NPU/PIM),设计一套时延最优的负载分离部署、调度和无损加速策略;基于华为手机,典型RAG/Agent应用在小batch场景端到端时延相对现有实现降低3倍以上。
参考文献
[1] Lin C, Han Z, Zhang C, et al. Parrot: Efficient Serving of LLM-based Applications with Semantic Variable[C]//18th USENIX Symposium on Operating Systems Design and Implementation (OSDI 24). 2024: 929-945.
[2] Tan X, Jiang Y, Yang Y, et al. Teola: Towards end-to-end optimization of llm-based applications[J]. arXiv preprint arXiv:2407.00326, 2024.
难题5:状态空间模型和Transformer模型的等价性证明
基本信息
- 题号:难题5
- 标题:状态空间模型和Transformer模型的等价性证明
- 接口专家:王翔 wangxiang224@huawei.com;邹志强 zouzhiqiang@huawei.com
- 浏览量:1962次
- 状态:已揭榜
技术背景
Transformer模型中自注意力机制的计算量和存储量随序列长度增长,严重阻碍了大模型在长序列输入场景中的扩展能力,尤其在资源受限的端侧部署时更为明显。诸如Mamba等状态空间模型利用不断更新状态空间的原理替代自注意力机制,可实现常数级的计算量和存储量,更适配于端侧部署。因此,为指导状态空间模型的训练和开发,亟需从理论层面证明状态空间模型和Transformer模型的性能等价性。
技术挑战
自注意力机制利用存储过往KV的形式,在每一步推理时计算当前输入和过往所有输入的相关性;而状态空间模型将历史信息压缩到固定大小的状态空间,并采取迭代相加的形式依据当前输入更新状态。两者计算方式的差异增加了证明其等价性的难度。
当前结果
- Albert Gu 和 Tri Dao证明了纯线性的状态空间模型可以被看作是一种使用半可分离掩码矩阵实现的结构化线性注意力机制。但带有softmax非线性函数的自注意力机制还未被证明与任何形式的状态空间模型等价。
- 状态空间模型虽然在多个语言和视觉任务中展现出与Transformer相匹配甚至更好的性能,Samy Jelassi等人用理论和实验证明,在简单的复制和抓取任务中,Transformer的训练和测试性能优于任意状态空间模型。如何修改模型架构弥补差异仍待解决。
技术诉求
- 理论证明等价性:从数学原理上证明在特定任务下,状态空间模型与Transformer模型的等价性或不足。
- 提升状态空间模型性能的理论证明:基于理论证明,给予状态空间模型与Transformer等价的补偿方法,包括但不限于记忆模块,激活方式,架构改造等,并理论证明补偿后的模型计算复杂度低于原模型。
- 提升状态空间模型性能的实验证明:基于实验,证明提出的新状态空间模型在典型大模型任务上精度不低于同规模Transformer,并降低50%以上总计算量。
参考文献
[1] A Survey of Mamba. 2024
[2] Transformers are SSMs: Generalized Models and Efficient Algorithms Through Structured State Space Duality. ICML 2024
[3] Repeat After Me: Transformers are Better than State Space Models at Copying. 2024
以上为本期5道难题的完整信息整理,已覆盖所有正文内容、技术指标与参考文献。