信息存储系统教育部重点实验室 English Version

毕业生张健顺和博士生邓迅的论文被会议VLDB 2026录用

点击次数:发布时间:2026-03-11 22:27作者:邓迅

随着大规模数据密集型应用的快速发展,基于日志结构合并树(LSM-tree)的键值存储系统凭借其接口简单、写入吞吐高等特性,已在现代存储系统中被广泛采用。但是,LSM-Tree存在显著的写放大问题,键值分离(Key-Value Separation)能够缓解这一问题,代价是引入更高的空间开销。为提升成本效率与资源弹性,现代存储系统逐渐开始向存算分离架构演进,通过将计算节点与存储节点解耦并独立部署,实现资源弹性调度与独立扩展。然而,存算分离会增加数据访问的网络开销,降低写入性能;垃圾回收过程的延长导致垃圾数据占用空间难以及时回收,进而提高键值分离 LSM‑tree 的空间成本。如何在存算分离架构下优化键值分离LSM-tree的数据布局与存储空间管理,平衡性能与成本,是构建高效存算分离LSM-tree 系统面临的关键问题之一。

实验室博士生张健顺、邓迅(共同一作),在方鹏博士后、王芳教授、冯丹教授的指导下,联合字节跳动公司,针对以上问题,提出了存算分离的键值存储系统 Terark-DS。Terark‑DS 兼具高性能与高存储效率,采用三项关键技术:(1)基于文件访问特征的差异化冗余策略,降低存储和网络通信成本的同时不影响读性能;(2)自适应双模日志写入策略,根据负载特征动态切换日志写入模式,充分利用远端存储带宽加速前台写入;(3)网络高效的垃圾回收机制,结合按需加载值数据、本地化的批量有效性检查和自适应预读策略,加速空间回收并减少网络开销。实验表明,Terark‑DS 相比现有存算分离LSM‑tree写性能提升20.4%-63.9%,同时总体成本降低22.7%–58.6%。

图1 Terark-DS键值存储系统架构

图2 自适应双模日志写入示意图

图3 YCSB负载下的写性能评估结果

该研究成果题目“Terark-DS: A High-Performance and Storage-Efficient Key-Value Separation Storage Engine on Disaggregated Storage”,被中国计算机学会推荐的A类国际学术会议52nd International Conference on Very Large Data Bases (VLDB 2026)录用。该研究工作得到了国家重点研发计划项目(No.2022YFB4501300),国家自然科学基金项目(No. U22A2027 和 No. 61821003),中国博士后科学基金资助项目(No. GZB20240243和2024M751009),湖北省博士后资助项目(No.2024HBBHCXA024)的支持。

Top