信息存储系统教育部重点实验室 English Version

博士生张铭的论文被期刊TOS录用

点击次数:发布时间:2023-03-02 14:33作者:

现代数据中心采用内存分离架构(memory disaggregation),将内存和计算资源从传统整机架构(monolithic architecture)中解耦出来,构建独立可扩展的计算池和内存池,有利于提高资源利用率、降低成本。持久内存(persistent memory)设备具备接近DRAM的读写延迟和非易失性,具有广泛应用前景,可用于内存池中,构建分离式持久内存池。为了向应用提供内存池数据访问的原子性和强一致性,需要采用分布式事务,其中,计算池运行大量coordinator执行事务逻辑,而用户数据的主备副本均存储在远程PM池,并且计算池与内存池之间使用高速RDMA网络连接。在此场景下,如何降低分布式事务处理过程中的网络开销,同时高效利用PM硬件特性,是一个关键问题。

实验室博士生张铭,在华宇教授的指导下,针对分离式持久内存架构设计了一种全单边RDMA的分布式事务处理系统FORD。为了减少网络往返,FORD对于读写集合的数据,将其上锁和读取操作打包在一个请求中,避免使用额外的网络往返进行上锁操作。为了加速版本验证,FORD将热数据的版本缓存在计算池的本地cache中,该cache是单写多读模式,允许多个coordinator在提交之前查看数据版本是否被其他事务修改,减少远程版本读取操作。此外,为了加速事务提交,FORD使用同时提交技术,在单个网络往返时延内对数据的所有主备副本进行原地更新。相比DRAM,PM的带宽有限,为避免coordinator将所有请求都发往主副本,使得主副本上PM成为瓶颈,在使用同时提交技术的前提下,FORD允许备份副本提供只读服务,即coordinator可从备份副本的原位中读取最新提交的数据,以缓解主副本上的数据访问压力。最后,在使用远程PM时,需要保证数据的远程持久化以达成一致性,即确保写往远程PM的数据从网卡刷写到PM设备。FORD采用选择性远程刷写技术,只对发往备份副本的最后一个写请求之后使用一次远程刷写操作,这样即使主副本发生故障,备份副本也可提供新值恢复,避免丢失事务更新。大量实验结果表明,相比现有基于RDMA的分布式事务系统,FORD有效提升了事务的吞吐,并且降低了第50分位和第99分位的延迟。

图1 FORD系统架构概览

图2 不同系统在TATP负载下的事务吞吐与延迟对比

该研究成果以“Localized Validation Accelerates Distributed Transactions on Disaggregated Persistent Memory”为题于2023年1月发表在ACM Transactions on Storage (TOS)。ACM TOS是计算机存储系统领域重要的国际期刊。

Top