在人工智能快速发展的今天,深度神经网络(DNN)已成为图像识别、自动驾驶、自然语言处理等领域的核心技术。然而,随着数据集规模从TB级扩展到PB级,训练过程中存储系统的I/O延迟逐渐成为主要瓶颈,常常占据训练时间的30%–90%。尽管GPU等加速器的算力持续提升,但数据加载速度却难以跟上,导致大量计算资源处于空闲状态。传统缓存策略如LRU、LFU在随机采样场景下命中率极低,难以发挥效果。
针对这一难题,实验室博士生王泽松在王芳教授,方鹏博士后的指导下提出了一种全新的语义感知缓存系统——SpiderCache。与以往仅依赖损失函数的局部采样方法不同,SpiderCache 首次引入基于图结构的全局重要性采样算法,利用样本的嵌入特征刻画语义关系,精准识别对模型训练最关键的样本。系统设计了双层缓存机制:一方面通过“重要性缓存”保留高价值数据,另一方面利用“同质性缓存”用相似样本进行替代,从而在不降低精度的前提下显著提升缓存命中率。同时,SpiderCache 配备了弹性缓存管理器,可根据训练阶段和性能目标动态调整缓存比例,实现效率与准确性的平衡。
实验结果表明,SpiderCache 在ImageNet 等主流数据集上均取得突破性进展,缓存命中率最高提升 8.5 倍,整体训练加速最高可达 2.33 倍,并在多GPU环境下展现了良好的扩展性。这一成果不仅在学术研究中具有重要意义,也为工业界的AI训练平台提供了高效的系统优化方案。

SpiderCache 架构图

不同方法缓存命中率对比表现

端到端训练对比
该研究成果以“SpiderCache: Semantic-Aware Caching Strategy for DNN Training”为题,已在54th International Conference on Parallel Processing (ICPP2025)(CCF B类国际会议)上发表。该研究工作得到了国家重点研发计划项目(No. 2023YFB4502801),国家自然科学基金项目(U22A2027和62402187);中国博士后科学基金资助项目(No. GZB20240243和2024M751009),湖北省博士后资助项目(No.2024HBBHCXA024)的支持。