信息存储系统教育部重点实验室 English Version

博士生郭柯磊的论文被会议SIGMOD 2026录用

点击次数:发布时间:2026-03-20 20:04作者:郭柯磊

随着Transformer架构发展,大规模推荐模型(LRM)已广泛应用于实际业务。这类系统既要处理海量用户行为序列,又会产生大量KV缓存,给底层存储带来点读、范围扫描、低延迟读取和高效写入等混合负载挑战。现有存储系统难以同时满足性能、成本与在线服务稳定性要求,已成为制约相关应用发展的关键瓶颈。

实验室博士生郭柯磊在方鹏博士后、王芳教授、冯丹教授指导下,联合字节跳动公司提出面向大规模推荐模型全生命周期的统一存储引擎TokaDB,通过混合访问优化的数据组织、协同I/O和优先级资源管理,实现用户行为序列与KV缓存的统一管理,并在字节跳动生产环境部署验证。实验表明,TokaDB HBaseDoris等系统端到端性能提升4-10倍;在同等约束下,QPS提升30%P99读取延迟下降70%

1 TokaDB系统结构示意图

2 端到端耗时对比实验结果

该研究成果题为“TokaDB: A Unified Storage Engine for Training-Serving Data Management in Large Recommendation Models”的论文被2026年 ACM SIGMOD 会议(SIGMOD 2026,CCF-A,录用率约24%)录用。该研究工作得到了国家重点研发计划项目(No. 2023YFB4502801)、国家自然科学基金项目(No. 62402187 和 No. U22A2027)、中国博士后科学基金资助项目(No. GZB20240243 和 No. 2024M751009)以及湖北省博士后资助项目(No. 2024HBBHCXA024)的支持。

Top