信息存储系统教育部重点实验室 English Version

博士生王霖等的论文被会议HPCA 2026录用

点击次数:发布时间:2025-12-04 11:04作者:王霖

随着 AI 服务的蓬勃发展,预测服务系统(PSS)在抢占式实例(Spot Instances)上部署可大幅降低 GPU 计算成本,但频繁抢占导致编码计算(CC)面临高昂解码开销和尾延迟问题,现有方案难以兼顾成本与服务质量。

华中科技大学信息存储及应用实验室博士生王霖(第一作者)、硕士生段梓羚、博士生李茗畦等同学,在胡燏翀教授(通讯作者)等的指导下,提出 SpotCC1)基于局部性的波动性识别方案(SpotCC-L),利用区域内抢占局部性快速标记易抢占区域;2)细粒度波动性识别方案(SpotCC-F),通过跨可用区相关性分析缓解原始任务拥堵;3)自适应剖析引导超时方案(SpotCC-A),基于 Q-learning 动态优化阈值,最小化解码操作。

实验团队基于 NVIDIA Triton 推理服务器上实现了 SpotCC原型系统。阿里云实验表明,与现有方案相比,SpotCC P99 尾延迟最高降低 83.9%,同时保持超低部署成本,实现成本与性能的高效平衡。

该研究被 HPCA’26CCF-A,录取率19.8%)录用,题目为:“SpotCC: Facilitating Coded Computation for Prediction Serving Systems on Spot Instances”。相关成果为 AI 预测服务的低成本高可用部署提供了新思路,得到了国家重点研发计划(No.2022YFB4501300)、国家自然科学基金(No.62272185)和教育部信息存储系统重点实验室的支持。

Top