信息存储系统教育部重点实验室 English Version

博士生明章强的论文被会议ICDE 2026录用

点击次数:发布时间:2025-10-21 17:27作者:明章强

分布式深度神经网络(DNN)训练系统已被广泛用于加速大型模型和数据集的训练。然而,工作节点间同步大量数据(即梯度张量)的通信开销成为性能瓶颈。为提升通信效率,通常采用两种关键技术:i) 张量融合,通过合并多个张量实现批量传输以降低通信启动开销;ii) 梯度稀疏化压缩,仅传输最大梯度元素以减少通信流量。最近的研究聚焦于张量融合与稀疏化的结合:直接方法是在融合前对每个张量进行稀疏化(单张量稀疏化),但会产生显著的稀疏化开销;另一种方案是先合并多个张量(即融合),再对其进行稀疏化以减少开销(多张量稀疏化)。然而我们发现,多张量稀疏化会导致大量张量缺失,显著降低收敛性能。

实验室博士生明章强,在胡燏翀教授的指导下,针对以上问题,重新审视无张量缺失的单张量稀疏化方案,并提出针对融合张量的新型选择性稀疏化机制,称之为SSFusion。该机制战略性地筛选融合张量子集:选定部分张量进行独立稀疏化处理,其余张量保持原状。该设计既实现了低稀疏化开销(通过选择性稀疏化),又保持了高收敛性能(无张量缺失)。在此基础上,进一步提出高效的稀疏化卸载方案,将基于GPU的梯度稀疏化卸载至CPU以进一步加速处理,并采用交错通信方案通过融合分离机制提升通信效率。在本地和云集群上的实验表明,SSFusion在保持与非稀疏化基准大致相同的收敛性能的同时,将训练吞吐量提高了27.5%-106.7%,优于最先进的方法。

本文实现了SSFusion原型系统,在本地和云集群上进行的实验表明,与最先进的张量融合方案相比,SSFusion将训练吞吐量提高了27.5%-106.7%,同时保持了与非稀疏压缩基线几乎相同的收敛性能。

不同训练任务上的训练吞吐量对比

不同训练任务上的收敛性能对比

该研究成果以“SSFusion: Tensor Fusion with Selective Sparsification for Efficient Distributed DNN Training”为题,被ICDE 2026 Regular Research Paper全文录用。该研究工作得到了国家自然科学基金面上项目(No. 62272185),深圳市科技计划项目(No. JCYJ20220530161006015)和信息存储系统教育部重点实验室的支持。

Top