谷歌研究人员揭示真正让AI智能体高效工作方法

发布时间:2025-12-17 11:00

12月17日,据外媒报道,2025年本应是AI智能体之年。但随着今年接近尾声,显然科技供应商的这些预测过于乐观了。一些公司已开始使用AI智能体,但大多数公司还没有,尤其是在全公司范围内部署。

麦肯锡上月发布的“AI现状”调查发现,大多数企业尚未开始使用AI智能体,而40%的企业表示正在尝试。不到四分之一的受访者表示已在至少一个用例中大规模部署了AI智能体;当这家咨询公司询问人们是否在营销与销售或人力资源等具体职能中使用AI时,结果更糟。在任何这些领域中,表示AI智能体“已全面规模化”或“正在规模化”的受访者不超过10%。智能体规模化应用最多的职能是IT(通常用于自动解决服务单或为员工安装软件),但即便如此,也只有2%的受访者表示“已全面规模化”,另有8%表示“正在规模化”。

问题的一大关键在于,为AI智能体设计工作流以确保其产出可靠结果,被证明是困难的。即使当今能力最强的AI模型也处在一个奇怪的边界上??能像人类一样出色地完成工作流中的某些任务,但无法完成其他任务。涉及从多个来源收集数据、在多步骤中使用软件工具的复杂任务尤其具有挑战性。工作流越长,流程早期步骤出错的风险就越大,从而导致失败的结果。

此外,最强大的AI模型规模化使用成本可能很高,特别是如果工作流涉及智能体需要进行大量规划和推理。许多公司试图通过设计“多智能体工作流”来解决这些问题,即创建不同的智能体,每个只负责工作流中的一个离散步骤,有时还包括使用一个智能体来检查另一个智能体的工作。这可以提高性能,但也可能最终变得成本高昂,有时甚至高到让自动化该工作流变得不值得。

现在,谷歌的一个研究团队进行了一项研究,旨在为企业提供一个良好的评估标准,以决定何时使用单一智能体更好,何时应构建多智能体工作流,以及何种类型的多智能体工作流最适合特定任务。研究人员使用来自谷歌、OpenAI和Anthropic的AI模型进行了180项对照实验。他们针对四个不同的AI智能体基准进行了测试,这些基准涵盖了多样化的目标:从多个网站检索信息;在《我的世界》游戏环境中进行规划;为完成常见业务任务(如回复电子邮件、安排会议和使用项目管理软件)进行规划和使用工具;以及一个金融智能体基准。该金融测试要求智能体从美国证券交易委员会文件中检索信息并进行基本分析,例如将实际结果与管理层上一季度的预测进行比较,找出特定产品部门的收入随时间的变化情况,或者计算一家公司可能有多少现金可用于并购活动。

过去一年,普遍观点认为多智能体工作流能产生更可靠的结果。但谷歌研究人员发现,这种普遍观点是否成立,在很大程度上取决于具体的任务是什么。单一智能体擅长串行步骤,并行步骤则表现较差如果任务是串行的,就像许多《我的世界》基准任务中的情况,那么结果表明,只要单一AI智能体执行任务的准确率至少达到45%,那么部署单一智能体效果更好。使用多智能体,无论采用何种配置,都会大幅降低整体性能,降低幅度在39%到70%之间。

根据研究人员的说法,原因是如果公司完成整个任务的token预算有限,那么多个智能体试图弄清楚如何使用不同工具的需求会很快耗尽预算。但是,如果任务涉及的步骤可以并行执行,就像许多金融分析任务那样,那么多智能体系统就能带来巨大优势。更重要的是,研究人员发现,智能体之间如何配置协作方式也至关重要。对于金融分析任务,集中的多智能体系统,即单个协调器智能体指导并监督多个子智能体的活动,所有通信都通过协调器进行,产生了最佳结果。该系统的表现比单一智能体好80%。与此同时,独立的多智能体系统(没有协调器,每个智能体只被分配一个狭窄的角色并行完成任务)仅比单一智能体好57%。

此类研究应能帮助企业找到配置AI智能体的最佳方法,使这项技术最终能够兑现去年的承诺。对于那些销售AI智能体技术的公司来说,迟到总比不到好。对于那些在使用AI智能体的企业工作的人们,我们将不得不观察这些智能体对劳动力市场产生的影响。这是我们在迈向2026年之际将密切关注的事。