近日,International Conference on Machine Learning(ICML)2026公布了论文的评审结果,杭州电子科技大学计算机学院媒体智能实验室(MIL)的2项研究成果被该会议录用。ICML是机器学习领域三大顶级学术会议之一,也是中国计算机学会推荐的人工智能方向CCF-A类会议,2026年将于韩国首尔举办。
成果一:AutoRPA: Efficient GUI Automation through LLM-Driven Code Synthesis from Interactions。该成果面向图形用户界面(GUI)中大量重复性操作任务,提出了 AutoRPA 框架,实现了从大语言模型智能体交互轨迹到可复用 RPA 自动化函数的自动合成。不同于传统 RPA 依赖人工编写脚本、维护成本高,也不同于ReAct式 GUI 智能体每次执行都需反复调用大模型推理,AutoRPA通过“探索—翻译—构建—验证修复”的自动化流程,将智能体的逐步决策逻辑蒸馏为稳定、低成本、可迁移的代码函数。该方法提出Translator-Builder 双智能体管线,将硬编码点击、输入等操作转化为可适应界面变化的软编码过程,并结合树结构轨迹检索与混合修复机制,在代码验证失败时自动调用ReAct智能体从断点继续探索并反哺代码优化。实验表明,AutoRPA在AndroidWorld、WebArena 和 MiniWoB++等多个 GUI自动化基准上保持或超过现有大模型GUI智能体的任务成功率,同时最高减少 96% 的 Token消耗,显著提升了大模型智能体在重复性办公、移动端操作和网页自动化场景中的运行效率与实际部署价值。该成果由陈铭浩副教授、胡欣怡(23级研究生)、余宙教授(通讯作者)、尹宇飞副研究员共同完成。

成果二: Mitigating Noise-Induced Layout Priors for Object Counting in Diffusion Models。该成果聚焦解决文生图扩散模型领域的核心难题,实现了指定数量物体的精准生成。该研究发现,初始噪声是空间布局形成的主要决定因素,而早期交叉注意力则是关键机制,可引导噪声生成的结构在整个去噪过程中持续传递演化。这一现象被定义为噪声诱导布局先验(Noise-Induced Layout Prior)。基于这一见解,该研究提出一种新颖的免训练框架,用于扩散模型中的物体计数。该框架包含两大核心模块:(1)计数感知的噪声调整策略(Count-Aware Noise Adjustment Strategy):通过显式操控初始潜在噪声,使生成布局与目标物体数量精准匹配;(2)注意力引导的布局一致性策略(Attention-Guided Layout Consistency Strategy):在推理阶段对早期交叉注意力进行优化,进一步稳定去噪过程中的布局形成。在单类别与多类别公开基准数据集上的大量实验表明,该方法在计数准确率与图像生成质量上,均优于强扩散基线模型及当前最优的物体计数控制方法。该成果由顾晓玲副教授、李学龙(22级研究生)、吴圣琪(23级研究生)、Yongkang Wong (新加坡国立大学)、吴子朝副教授、李环(浙江大学)、余宙教授(通讯作者)、Mohan Kankanhalli(IEEE Fellow,新加坡国立大学)共同完成。

媒体智能计算研究所由余宙教授牵头,现有专任教师16人,国家级人才2人,省部级人才4人。研究所专注于人工智能、多媒体与多模态计算、大模型轻量化与智能体等方面的理论和应用研究。近年来主持国家重点研发计划、国家杰青、优青、重点、省杰青等重要项目20余项,发表CCF-A类期刊会议、IEEE/ACM Trans论文100余篇,获浙江省自然科学一等奖、教育部自然科学二等奖,获CVPR、ICCV挑战赛冠亚军4次,获IEEE旗下期刊、会议最佳论文奖4次。
