分布式存储系统作为人工智能、大数据技术的核心支撑,其性能直接影响上层应用效率。随着存储集群规模扩大、架构日趋复杂,系统可调参数迅猛增长且交互复杂。加之工作负载动态多变,传统调优方案面临三大难题:参数空间探索不充分、调优速度与稳定性难以平衡、跨集群知识无法复用,严重制约系统扩展性与响应速度。

图1 KGQW架构图
针对这一问题,信息存储系统教育部重点实验室博士生张望在施展副教授的指导下,提出了一个框架KGQW,首次将分布式存储自动参数调优建模为知识图谱查询问题。该框架以知识图谱为核心,将工作负载特征、系统参数建模为顶点,性能指标编码为边,通过轻量化测试构建初始图谱;结合时间感知特征融合MLP与贝叶斯优化实现图谱增量扩展,同时通过交互感知剪枝剔除无效参数;在线调优时快速查询适配当前负载的最优配置;跨集群场景下仅需少量实测样本即可复用已有知识,大幅降低迁移成本。
实验结果显示,KGQW实现1.7-1.9秒级调优延迟,较传统方案(数小时级)提升三个数量级;PUT/DEL操作吞吐量较最优对比方案提升2.4-3.96倍,延迟显著降低,且在动态负载下性能稳定,跨集群适配性优异。
该研究工作题为“Rethinking Parameter Tuning in Distributed Storage Systems via Knowledge Graph Query”,已被国际顶级期刊IEEE Transactions on Parallel and Distributed Systems(IEEE TPDS)录用。IEEE TPDS 是并行与分布式系统领域的权威期刊,为中国计算机学会(CCF)推荐的A类期刊。该研究工作得到了国家重点研发计划(No.2023YFB4502701)和国家自然科学基金(No.U22A2027)等项目的资助。