信息存储系统教育部重点实验室 English Version

博士生明章强的论文被会议DAC 2026录用

点击次数:发布时间:2026-02-24 20:47作者:明章强

大型语言模型(LLM)通常在分布式系统上进行训练,是众多不同领域应用不可或缺的一部分。然而,LLM训练系统的分布式特性(通常涉及多个节点和较长的训练周期)导致故障频发,因此需要强大的故障恢复机制。传统的检查点机制会定期将模型状态保存到持久存储(例如磁盘)中,但这可能会造成显著的延迟,从而减慢训练进度。目前最先进的方法采用基于分区的流水线式检查点机制,将检查点分割成多个分区,并在训练过程中以流水线方式并发处理这些分区。然而,现有的流水线式检查点机制通常依赖于固定的分区大小,这对于LLM训练而言并非最优:较大的固定分区大小经常会导致前向传播过程中的带宽阻塞,而较小的固定分区大小则会在反向传播过程中产生大量的启动开销。

实验室博士生明章强,在胡燏翀教授的指导下,针对以上问题,提出了一种名为AsymCheck的非对称分区检查点机制,该机制会根据训练效率调整分区大小,在前向传播过程中使用较小的分区,在反向传播过程中使用较大的分区。AsymCheck还融合了两项关键技术:i)选择性分区压缩方案,可在低压缩开销下减小检查点大小;ii)批量刷新机制,可最大限度地降低持久化延迟。在包含16个节点64个NVIDA A100 GPUs的云集群实验环境下评估结果表明,与现有最先进的分区流水线检查点方案相比,AsymCheck可将训练时间缩短20.1%-48.2%,将检查点时间缩短62.9%-80.1%,在保持较高检查点创建频率的同时,实现了与无检查点方案相当的训练效率。

不同训练任务上的训练时间对比

不同训练任务上的检查点时间和检查点频率对比

该研究成果以“AsymCheck: Asymmetric Partitioned Checkpointing for Efficient Large Language Model Training”为题,被DAC 2026 Regular Research Paper全文录用。该研究工作得到了国家自然科学基金面上项目(No.62272185),国家重点研发计划项目(No. 2022YFB4501300)和信息存储系统教育部重点实验室的支持。

Top