热烈祝贺媒体智能计算研究所2项成果被CCF-A类会议ICML 2026录用

发布者:吴燕萍发布时间:2026-05-06浏览次数:10

近日,International Conference on Machine LearningICML2026公布了论文的评审结果,杭州电子科技大学计算机学院媒体智能实验室(MIL)的2项研究成果被该会议录用。ICML是机器学习领域三大顶级学术会议之一,也是中国计算机学会推荐的人工智能方向CCF-A类会议,2026年将于韩国首尔举办。

成果一:AutoRPA: Efficient GUI Automation through LLM-Driven Code Synthesis from Interactions。该成果面向图形用户界面(GUI)中大量重复性操作任务,提出了 AutoRPA 框架,实现了从大语言模型智能体交互轨迹到可复用 RPA 自动化函数的自动合成。不同于传统 RPA 依赖人工编写脚本、维护成本高,也不同于ReActGUI 智能体每次执行都需反复调用大模型推理,AutoRPA通过“探索—翻译—构建—验证修复”的自动化流程,将智能体的逐步决策逻辑蒸馏为稳定、低成本、可迁移的代码函数。该方法提出Translator-Builder 双智能体管线,将硬编码点击、输入等操作转化为可适应界面变化的软编码过程,并结合树结构轨迹检索与混合修复机制,在代码验证失败时自动调用ReAct智能体从断点继续探索并反哺代码优化。实验表明,AutoRPAAndroidWorldWebArena MiniWoB++等多个 GUI自动化基准上保持或超过现有大模型GUI智能体的任务成功率,同时最高减少 96% Token消耗,显著提升了大模型智能体在重复性办公、移动端操作和网页自动化场景中的运行效率与实际部署价值。该成果由陈铭浩副教授、胡欣怡(23级研究生)、余宙教授(通讯作者)、尹宇飞副研究员共同完成。

 

成果 Mitigating Noise-Induced Layout Priors for Object Counting in Diffusion Models该成果聚焦解决文生图扩散模型领域的核心难题,实现了指定数量物体的精准生成。该研发现,始噪声是空间布局形成的主要决定因素,而早期交叉注意力是关键机制,可引导噪声生成的结构在整个去噪过程中持续传递演化。这一现象定义为噪声诱导布局先验Noise-Induced Layout Prior基于这一见解,该研究提出一种新颖的免训练框架,用于扩散模型中的物体计数。该框架包含两大核心模块:(1)计数感知噪声调整策略Count-Aware Noise Adjustment Strategy:通过显式操控初始潜在噪声,使生成布局与目标物体数量精准匹配;(2)注意力引导布局一致性策略Attention-Guided Layout Consistency Strategy:在推理阶段对早期交叉注意力进行优化,进一步稳定去噪过程中的布局形成。在单类别与多类别公开基准数据集上的大量实验表明,方法在计数准确率与图像生成质量上,均优于强扩散基线模型及当前最优的物体计数控制方法。该成果由顾晓玲副教授、李学龙(22级研究生)、吴圣琪(23级研究生)、Yongkang Wong (新加坡国立大学)、吴子朝副教授、李环(浙江大学)、余宙教授(通讯作者)、Mohan KankanhalliIEEE Fellow,新加坡国立大学)共同完成。

媒体智能计算研究所由余宙教授牵头,现有专任教师16人,国家级人才2人,省部级人才4人。研究所专注于人工智能、多媒体与多模态计算、大模型轻量化与智能体等方面的理论和应用研究。近年来主持国家重点研发计划、国家杰青、优青、重点、省杰青等重要项目20余项,发表CCF-A类期刊会议、IEEE/ACM Trans论文100余篇,获浙江省自然科学一等奖、教育部自然科学二等奖,获CVPRICCV挑战赛冠亚军4次,获IEEE旗下期刊、会议最佳论文奖4次。

 

 


联系我们
地址:地址: 第一教学楼南楼307
电话:0571-86919113
邮箱:computer@hdu.edu.cn
Copyright © 2025 计算机学院. All rights reserved.