微软亮剑智能办公:解决“知行不一”难题,让 AI 替你干活、老板还夸你效率高

2025-11-18 发布 · 浏览15次 · 点赞0次 · 收藏0次

11 月 18 日消息,微软亚洲研究院于 11 月 16 日发布博文,介绍了名为 UI-Evol 的新组件,旨在解决计算机使用 AI 智能体(computer-use AI agents)因软件界面频繁变更而导致的准确性与可靠性不足问题。

援引博文介绍,计算机使用智能体是一种新兴的人工智能系统,它能像人类一样通过图形用户界面(GUI)自主操作各类软件,以完成填写表单、管理工作流等复杂任务。

尽管前景广阔,这类智能体在实际应用中却表现不佳。它们通常依赖从网络获取的外部知识,来理解屏幕内容并执行操作,但常常无法将这些知识成功转化为行动,这一难题被称为“知识-行动鸿沟”(knowledge-action gap)。

微软援引的一项研究凸显了该问题的严重性:即便 AI 智能体获得了高达 90% 的正确指令,其任务的最终成功率也仅有 41%。

此外,这些 AI 智能体的行为难以预测,每次执行相同任务时都可能采用不同的方式,表现出极大的不稳定性,这严重阻碍了它们在实际场景中的应用。

图 1:上图展示了正确的外部知识在实际应用中仍然无法发挥作用。下图展示了 UI-Evol 如何通过将知识与软件环境相结合来缩小这一差距,从而实现更可靠的性能。

微软亚洲研究院为解决这一核心挑战,开发了一款名为 UI-Evol 的即用型组件。该组件能无缝集成到智能体的工作流程中,其设计思路并非仅仅依赖外部的静态知识,而是让智能体直接从真实的软件界面中获取指导。

UI-Evol 能够持续更新和优化其对界面的理解,通过将知识与软件环境动态对齐,帮助智能体更准确、更可靠地完成任务,从而有效弥合理论知识与实际操作之间的差距。这项研究成果已被 ICML 2025 计算机使用智能体研讨会接收。

UI-Evol 的工作原理分为两个关键阶段。第一阶段是“回溯”(retrace),系统会精确记录下智能体为完成某项任务所执行的每一步操作,包括所有的点击、按键等具体行为,从而捕获一套完整的、可验证的行动轨迹。

图 2:UI-Evol 的两个阶段通过智能体的实际行为来完善外部指令,从而产生在实践中有效的指导。

第二阶段是“审校”(critique),系统会将这套实际行动轨迹与外部指令进行比对。一旦发现不匹配之处,UI-Evol 便会调整知识库,使其反映真正在软件中行之有效的操作步骤。通过这两个阶段的循环,外部的通用指令被逐步演化为经过实践检验的、高度可靠的智能体行动指南。

研究团队在顶尖水平的计算机使用智能体 Agent S2 上,使用 OSWorld 基准测试对 UI-Evol 进行了评估。OSWorld 专为评测多模态智能体在真实软件和工作流中的开放式任务而设计。

结果表明,UI-Evol 不仅显著提升了任务成功率,还解决了一个长期存在的难题 ——“高行为标准差”,即智能体在执行相同任务时行为不一致的问题。集成 UI-Evol 后,基于 GPT-4o 等先进大语言模型的智能体表现出更高的稳定性与可预测性。

OSWorld 上的实验结果。“SR”表示成功率。结果表明,计算机用户智能体的行为通常难以预测。采用 UI-Evol 后,性能得到提升,其行为也变得更加稳定。

以上图源:微软亚洲研究院

附上参考地址

微软亮剑智能办公:解决“知行不一”难题,让 AI 替你干活、老板还夸你效率高 - AI 资讯 - 资讯 - AI 中文社区

声明:本文转载自IT 之家,转载目的在于传递更多信息,并不代表本社区赞同其观点和对其真实性负责,本文只提供参考并不构成任何建议,若有版权等问题,点击这里。本站拥有对此声明的最终解释权。如涉及作品内容、版权和其它问题,请联系我们删除,我方收到通知后第一时间删除内容。

点赞(0) 收藏(0)
0条评论
珍惜第一个评论,它能得到比较好的回应。
评论

游客
登录后再评论
  • 鸟过留鸣,人过留评。
  • 和谐社区,和谐点评。