热烈祝贺媒体智能计算研究所2项成果被CCF-A类会议ICML 2026录用

发布者：吴燕萍发布时间：2026-05-06浏览次数：10

近日，International Conference on Machine Learning（ICML）2026公布了论文的评审结果，杭州电子科技大学计算机学院媒体智能实验室（MIL）的2项研究成果被该会议录用。ICML是机器学习领域三大顶级学术会议之一，也是中国计算机学会推荐的人工智能方向CCF-A类会议，2026年将于韩国首尔举办。

成果一：AutoRPA: Efficient GUI Automation through LLM-Driven Code Synthesis from Interactions。该成果面向图形用户界面（GUI）中大量重复性操作任务，提出了 AutoRPA 框架，实现了从大语言模型智能体交互轨迹到可复用 RPA 自动化函数的自动合成。不同于传统 RPA 依赖人工编写脚本、维护成本高，也不同于ReAct式 GUI 智能体每次执行都需反复调用大模型推理，AutoRPA通过“探索—翻译—构建—验证修复”的自动化流程，将智能体的逐步决策逻辑蒸馏为稳定、低成本、可迁移的代码函数。该方法提出Translator-Builder 双智能体管线，将硬编码点击、输入等操作转化为可适应界面变化的软编码过程，并结合树结构轨迹检索与混合修复机制，在代码验证失败时自动调用ReAct智能体从断点继续探索并反哺代码优化。实验表明，AutoRPA在AndroidWorld、WebArena 和 MiniWoB++等多个 GUI自动化基准上保持或超过现有大模型GUI智能体的任务成功率，同时最高减少 96% 的 Token消耗，显著提升了大模型智能体在重复性办公、移动端操作和网页自动化场景中的运行效率与实际部署价值。该成果由陈铭浩副教授、胡欣怡（23级研究生）、余宙教授（通讯作者）、尹宇飞副研究员共同完成。

成果二： Mitigating Noise-Induced Layout Priors for Object Counting in Diffusion Models。该成果聚焦解决文生图扩散模型领域的核心难题，实现了指定数量物体的精准生成。该研究发现，初始噪声是空间布局形成的主要决定因素，而早期交叉注意力则是关键机制，可引导噪声生成的结构在整个去噪过程中持续传递演化。这一现象被定义为噪声诱导布局先验（Noise-Induced Layout Prior）。基于这一见解，该研究提出一种新颖的免训练框架，用于扩散模型中的物体计数。该框架包含两大核心模块：（1）计数感知的噪声调整策略（Count-Aware Noise Adjustment Strategy）：通过显式操控初始潜在噪声，使生成布局与目标物体数量精准匹配；（2）注意力引导的布局一致性策略（Attention-Guided Layout Consistency Strategy）：在推理阶段对早期交叉注意力进行优化，进一步稳定去噪过程中的布局形成。在单类别与多类别公开基准数据集上的大量实验表明，该方法在计数准确率与图像生成质量上，均优于强扩散基线模型及当前最优的物体计数控制方法。该成果由顾晓玲副教授、李学龙（22级研究生）、吴圣琪（23级研究生）、Yongkang Wong （新加坡国立大学）、吴子朝副教授、李环（浙江大学）、余宙教授（通讯作者）、Mohan Kankanhalli（IEEE Fellow，新加坡国立大学）共同完成。

媒体智能计算研究所由余宙教授牵头，现有专任教师16人，国家级人才2人，省部级人才4人。研究所专注于人工智能、多媒体与多模态计算、大模型轻量化与智能体等方面的理论和应用研究。近年来主持国家重点研发计划、国家杰青、优青、重点、省杰青等重要项目20余项，发表CCF-A类期刊会议、IEEE/ACM Trans论文100余篇，获浙江省自然科学一等奖、教育部自然科学二等奖，获CVPR、ICCV挑战赛冠亚军4次，获IEEE旗下期刊、会议最佳论文奖4次。