如今各种软件离不开云的支持,保证云的可靠性是重要的研究课题。云上的容错机制保证了故障发生时云的可靠性,但是目前的容错机制都是针对粗粒度的故障所设计的。新的故障类型Fail-slow硬件表现出的细粒度特征在云上造成了严重的系统错误。
为了减少Fail-slow硬件导致的云系统错误,信息存储与光显示功能实验室博士生董根在华宇教授的指导下,总结了Fail-slow硬件导致的云系统错误的特征并深入地分析了这类错误发生的根本原因。在实际系统中,我们发现Fail-slow硬件容易导致云系统上的同步和超时机制出现错误。基于对这一观察,提出了Fail-slow故障注入测试框架,即Sieve。Sieve分析了常见的同步和超时机制找到故障注入点,并实现了组粒度和上下文敏感的探索策略,最终有效的找了六个由Fail-slow故障所导致的云系统错误,其中有两个已经被开发人员所确认。
这项研究工作题为”Understanding and Detecting Fail-Slow Hardware Failure Bugs in Cloud Systems”,被中国计算机学会推荐的A类国际学术会议USENIX Annual Technical Conference (USENIX ATC)2025录用。研究工作得到了国家自然科学基金项目(No.62125202和No. U22B2022)的支持。

图 1 Sieve流程图

表 1 Sieve所检测到的云系统错误