【喜报】计算机学院六项研究成果被CCF A类会议 CVPR 2026 录用

发布者：吴燕萍发布时间：2026-03-02浏览次数：123

近日，IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR) 2026公布了论文的评审结果，计算机学院共六项研究成果被该会议录用。CVPR是计算机视觉领域三大顶级学术会议，也是中国计算机学会推荐的人工智能方向的CCF-A类会议，该会2026年在美国丹佛召开。

成果一：Linguistic Priors for Visual Decoupling: Towards Symmetric Vision-Brain Alignment,该成果提出了一种基于语言先验引导的视觉解耦方法，旨在解决大脑视觉解码中因信息不对称带来的挑战。由于自然图像包含复杂的视觉场景，但对应的脑信号往往只反映对前景对象的聚焦注意，并混杂大量神经噪声，因此直接对齐视觉与脑表征的方法效果有限。为此，论文引入面向对象的文本描述作为语义引导，将图像中的前景对象与复杂背景进行显式解耦，从而实现从非对称特征对齐到语义对称对齐的转变。该方法不仅能自动聚焦于任务相关的视觉概念，还能有效滤除脑信号中的无关噪声。在多个公开数据集上的实验结果表明，该方法在零样本脑到图像检索任务中取得了新的最佳性能。论文第一作者为学院刘栋军博士研究生，第一教师作者为戴玮辰副研究员，通讯作者为孔万增教授。

成果二： REALM: An MLLM-Agent Framework for Open World 3D Reasoning Segmentation and Editing on Gaussian Splatting。该成果是首个实现多模态大模型与三维场景表征深度耦合的交互式智能体系统。该系统突破了传统视觉语言模型仅限于 2D 图像理解的局限，凭借 3D Gaussian Splatting 高效且显式的空间表达能力，REALM 实现了从语义到几何空间的精准映射，从而支持对三维场景进行细粒度的空间定位、物体级的几何变换及风格迁移。此外，本文提出了大规模 3D 推理评测基准REALM-3D，为三维多模态智能体的未来演进提供了标准化的衡量尺度。该成果由施昌岳（22级本科生）、毛怡萍（24级本科生）、杨初晓（23级本科生）、胡鑫园（23级本科生）在陈铭浩、丁佳骏、余宙老师的共同指导下完成。

成果三：EReCu: Pseudo-label Evolution Fusion and Refinement with Multi-Cue Learning for Unsupervised Camouflage Detection，针对无监督伪装物体检测中，伪标签修正与特征学习之间割裂导致的噪声累积及细节丢失这两大挑战，EReCu通过多线索原生感知缓解特征歧义，结合伪标签进化实现师生协同去噪，并借助注意力多样性进行局部优化与细节恢复，提升了对伪装物体内在纹理与边界细节的感知能力。该方法有助于提升系统在无标注条件下的自主学习能力与环境适应能力，降低人工标注成本，提高智能安防与生态监测等复杂场景下的部署效率。该成果由蒋硕（23级本科生）、张高嘉（23级本科生）在谭敏、尹宇飞、潘纲（浙江大学）老师共同指导下完成。

成果四：HERO: Hierarchical Embedding-Refinement for Open-Vocabulary Temporal Sentence Grounding in Videos。该成果针对视频时序句子定位（TSGV）现有方法局限于封闭词汇、泛化能力弱的问题，首次提出开放词汇视频时序句子定位（OV‑TSGV）新任务，面向真实场景中的新颖语言表达与多样化描述。构建首个专用开放词汇基准数据集Charades‑OV 和 ActivityNet‑OV，用于评估模型跨概念泛化能力。提出层次化语义嵌入与并行跨模态优化框架HERO，在开放词汇设定下显著超越现有方法，验证了任务与方法的有效性。该成果由韩婷婷、陶鑫松（24级研究生）、尹宇飞、谭敏、赵思成（清华大学）、余宙共同合作完成。

成果五：VideoARM: Agentic Reasoning over Hierarchical Memory for Long-Form Video Understanding，该成果提出了 VideoARM 范式，通过构建一个分层多模态记忆系统，实现了对长视频内容的动态存储与检索。它摒弃了传统的静态预处理，采用自适应的“观察-思考-行动-记忆”循环，由控制器自主调度工具集进行由粗到细的推理，从而精准捕捉视频中的关键信息。实验表明，VideoARM 在 Video-MME 等多个主流基准测试中达到了 SOTA 性能，且其 Token 消耗量仅为 DVD 等前沿方法的 1/50，显著提升了长视频理解的效率与经济性。该成果由尹宇飞、孟乾轲（24级硕士生）、陈铭浩、丁佳骏、邵镇炜（23级博士生）、余宙共同合作完成。

成果六：FedAFD: Multimodal Federated Learning via Adversarial Fusion and Distillation，该成果通过构建双重对抗对齐机制与粒度感知特征融合模块，缓解了联邦学习中模态与任务差异以及本地个性化受限的问题；引入了相似性引导的集成蒸馏策略，通过自适应的知识聚合机制将知识迁移至全局模型，解决了模型异构性问题。为现实世界的多模态联邦学习提供了一种可扩展且高效的解决方案。该成果谭敏、马俊超（24级硕士生）、冯银付（阿里巴巴）、丁佳骏、潘文雯、韩婷婷、郑乾（浙江大学）、匡振中、余宙共同合作完成。

近年来学院每年都有在该会议发表的学术论文成果，且数量逐年增张，这次的论文录用量创近年来的新高。高水平学术论文成果的不断提升是学院学科建设成效的体现，也是推动计算机学科向更高级别迈进的坚强基石。