近日,计算机视觉领域CCF A类顶级会议ICCV 2025公布了论文的接收结果,杭州电子科技大学计算机学院媒体智能(MIL)实验室以杭电为第一单位、研究生为第一作者的2篇论文被录用,彰显了我校在研究生学术创新能力培养方面的成效。ICCV(International Conference on Computer Vision)是计算机视觉领域的国际顶级学术会议,也是中国计算机学会(CCF)推荐的A类国际学术会议,今年计划于10月19日至10月25日在美国夏威夷召开。本届ICCV会议共有11,239篇有效投稿,录用2698篇,录取率为 24%。
论文《Growing a Twig to Accelerate Large Vision-Language Models》聚焦于多模态大模型(LVLM)的推理加速方法。LVLM的推理加速是大模型时代一个较新颖的研究热点,近期研究主要聚焦在视觉token剪枝策略,这些方法存在剪枝token选择不准确、长文本生成时加速不显著这两方面的局限。本文提出了一种TwigVLM的新方法,通过在现有LVLM主干上额外训练一个轻量级的“嫩枝”(twig)模块,分别作用在大模型推理过程的prefilling和decoding阶段,同时解决了上述两方面的挑战。TwigVLM在精度保持和生成加速两项指标上均显著超越已有的方法。论文第一作者为实验室博士生邵镇炜,通讯作者是余宙教授,由媒体智能实验室和理想汽车合作完成。
论文《What We Need is Explicit Controllability: Training 3D Gaze Estimator Using Only Facial Images》聚焦无监督三维视线估计任务,提出了一种“合成学习”方案,通过模拟数据训练视线预测模型。现有方法在视线标注精度和眼部图像真实性方面存在局限。本文基于3D高斯-网格显式表征构建人脸三维结构,从而实现对眼球运动的精准控制,并引入光照建模、眼球旋转对称先验及面向眼部区域的几何和外观监督损失,提升重建眼部的真实性和结构性。通过控制三维眼球对齐虚拟屏幕目标,生成带有精准伪视线标注的人脸图像。大量实验证明,本文提出的方法在无监督视线预测精度和眼部图像质量上均超越现有方法。论文第一作者为实验室硕士生李廷玮,通讯作者是匡振中教授。
杭电计算机学院媒体智能实验室成立于2014年,专注于“多媒体+人工智能”的理论与应用研究。实验室有专任教师12人,国家级人才2人、省部级人才4人,现有在读博士、硕士研究生近100人。实验室主持国家重点研发计划、国家自然科学基金杰青、重点、优青、浙江省尖兵计划课题、省杰青、重大等项目30余项,与百度、阿里、人民日报、理想汽车等头部企业开展紧密合作。近年来,在T-PAMI、IJCV、CVPR、ICCV、ACM Multimedia等CCF A类会议、IEEE/ACM Trans论文60余篇,获得IEEE旗下权威期刊/会议最佳论文奖5次,获浙江省自然科学一等奖、教育自然科学二等奖,指导本科生、研究生获得“互联网+”国赛金奖1项、多次领域国际权威挑战赛冠亚军、实时排行榜第一名等。