如今GPU已被广泛运用于各种领域,如人工智能应用、数据库和科学计算。高效地管理海量数据对于GPU应用十分重要。然而,GPU应用需要借助CPU来管理数据,会导致高昂的数据传输开销。具有持久内存的GPU系统(GPM)允许GPU应用直接以字节粒度访问持久内存。哈希索引具有常数级的单点查询性能,因此被广泛用于实现高效的数据管理。然而,现有的哈希索引由于对线程束(warp)无感知、高开销的一致性保证以及GPU和持久内存巨大的带宽差距,并不适用于GPM系统。
为了减少GPU应用的数据管理开销,信息存储与光显示功能实验室博士生陈梦雷在华宇教授的指导下,提出了一种高效的GPM哈希索引,即GPHash。GPHash采用了对GPU感知且对持久内存友好的哈希表结构,并实现了无锁无日志的并发控制,同时采用了基于冻结机制的缓存来存储热哈希桶。大量实验结果表明,相比现有的依靠CPU的GPU数据管理方式以及简单的GPM哈希索引,GPHash有效提升了吞吐率并降低了延迟。
这项研究工作题为“GPHash: An Efficient Hash Index for GPU with Byte-Granularity Persistent Memory”,被中国计算机学会推荐的A类国际学术会议The 23rd USENIX Conference on File and Storage Technologies (FAST’25)录用。研究工作得到了国家自然科学基金项目(No. 62125202和No. U22B2022)的支持。
图 1 GPHash的哈希表结构图
图 2 不同索引结构执行索引操作的性能