近日,CCF A类顶会ACM SIGMOD2026国际会议录用结果揭晓,我院蒋从锋教授指导的2022级博士生王嘉豪为第一作者、杭州电子科技大学为第一署名单位的论文“From Prefix Cache to Fusion RAG Cache: Accelerating LLM Inference in Retrieval-Augmented Generation”录用为大会长文。该论文由杭州电子科技大学、清华大学、趋境科技联合完成。
论文“From Prefix Cache to Fusion RAG Cache: Accelerating LLM Inference in Retrieval-Augmented Generation”提出了一个新颖的推理框架,通过优化RAG系统中KVCache的离线预处理和在线重计算两个阶段来加速LLM推理。在离线阶段,该方法利用检索文本间的语义相似性,通过相似性引导的预处理阶段在相似文本块之间进行跨文本块注意力计算,将成本高昂的在线计算转移到离线阶段进行摊销;在在线阶段,引入查询引导的选择机制,基于用户问题与检索文本的相关性来识别关键token,并有选择性地重计算其KVCache,避免了位置偏差的影响。此外,FusionRAG通过引入替代路径机制来提高缓存命中率,设计异步KVCache调度器以重叠I/O和计算操作,以及优化稀疏注意力算子以支持高效批量解码,从而在保持生成质量的同时实现了显著的推理加速。
