关闭广告

智能体系统如何「边做边学」?斯坦福团队探索在线优化的新范式

机器之心Pro4294人阅读



如何让智能体进行复杂推理与工具调用?传统方法主要有两类:训练单一的大语言模型,使其同时承担思考与工具调用的任务;要么依赖静态提示词驱动的 training-free 智能体系统。

然而,前者在长链推理、工具多样化与动态环境反馈下训练常变得不稳定,缺乏可扩展性(scalability);后者则缺少学习与适应能力,难以应对复杂场景。

为此,斯坦福大学联合德州农工大学(Texas A&M)、加州大学圣地亚哥分校(UC San Diego)和 Lambda 的研究团队提出了 AgentFlow 框架,通过多个独立 Agent 模块协作,并且提出 Flow-GRPO 算法用于训练。在评测中,AgentFlow 在搜索、代理、数学与科学任务上均取得显著提升,即便是 3B 模型,也能超越 405B 的 Llama-3.1 和 200B 的 GPT-4o。

阅读全文
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

刚刚,全球首个GB300巨兽救场!一年烧光70亿,OpenAI内斗GPU惨烈

新智元 浏览 4476

媒体:国足21年首进亚洲大赛四强 是触底反弹的信号弹

新民晚报 浏览 7515

美媒:美方仍在追截第三艘涉委内瑞拉油轮

上观新闻 浏览 3610

内塔尼亚胡:加沙地带停火将很快进入下一阶段

环球网资讯 浏览 3777

又赢了!19岁国乒黑马绝杀日本后势不可挡 高情商发言存大将之风

颜小白的篮球梦 浏览 4016

香波特:讨厌在尼克斯&骑士打3D 到了国王才感觉解放

直播吧 浏览 5064

西伯利亚神经网络公司推出革命性单元测试评估模型

科技行者 浏览 3174

琼瑶女神摘下假牙,撕碎的是流量滤镜

大龄女一晓彤 浏览 4501

大师赛赵心童5-3领先赛点,决胜局选择逆转

百态中的情感起伏 浏览 3287

曝奔驰考虑与长城汽车共享南非工厂

盖世汽车 浏览 2587

ESPN:德容已与巴萨就续约达成协议,他的薪水将降低

懂球帝 浏览 4407

伊朗未爆弹药爆炸 革命卫队14人死亡

新华社 浏览 1145

曾经的环球小姐冠军,却一手好牌打得稀烂

历来纵横 浏览 4415

美军2架F-18战机飞入委内瑞拉领空 停留至少40分钟

界面新闻 浏览 3906

葡媒:被换下后发生争执,卢克巴吉奥已经向穆帅和全队道歉

懂球帝 浏览 1384

大量iPhone 17系列新机无法激活 苹果客服回应

界面新闻 浏览 9309

越级空间 长安启源A06上市售10.99万元起

网易汽车 浏览 4113

媒体:日本出口护卫舰 不能和中国出口武器混为一谈

新民周刊 浏览 34369

上任仅一周,苏农银行80后行长携两副行长增持!合计金额不低于180万

时代周报 浏览 4170

营收147亿的半导体资产遭冻结 闻泰科技:坚决反对

21世纪经济报道 浏览 4494

京东首款汽车定了!埃安UT迎泼天流量,能否逆天改命?

雷科技 浏览 4422
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1