关闭广告

智能体系统如何「边做边学」?斯坦福团队探索在线优化的新范式

机器之心Pro4449人阅读



如何让智能体进行复杂推理与工具调用?传统方法主要有两类:训练单一的大语言模型,使其同时承担思考与工具调用的任务;要么依赖静态提示词驱动的 training-free 智能体系统。

然而,前者在长链推理、工具多样化与动态环境反馈下训练常变得不稳定,缺乏可扩展性(scalability);后者则缺少学习与适应能力,难以应对复杂场景。

为此,斯坦福大学联合德州农工大学(Texas A&M)、加州大学圣地亚哥分校(UC San Diego)和 Lambda 的研究团队提出了 AgentFlow 框架,通过多个独立 Agent 模块协作,并且提出 Flow-GRPO 算法用于训练。在评测中,AgentFlow 在搜索、代理、数学与科学任务上均取得显著提升,即便是 3B 模型,也能超越 405B 的 Llama-3.1 和 200B 的 GPT-4o。

阅读全文
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

5年内在英国推出10款新车 吉利EX5伦敦上市售3.199万英镑起

网易汽车 浏览 4532

挪威队主帅:我们和阿森纳达成协议,厄德高不会在世预赛出场

懂球帝 浏览 4474

登顶全球第一后,这家中国公司把“具身大脑”开源了!

华尔街见闻官方 浏览 3518

独立研究者破解扩散模型的最佳预测目标之谜

科技行者 浏览 3307

智驾研发迎分水岭?小鹏第二代VLA直奔L4, 何小鹏:完全自动驾驶将在未来1-3年内完全到来

时代财经 浏览 2771

京粤沪专家齐聚,2026“人工智能+”教育行动在深外举行

南方都市报 浏览 1491

官方确认:宝马X4已停产

IT之家 浏览 3498

爱泼斯坦"自缢"后照片公开:脖子有血色勒痕

大风新闻 浏览 102377

大疆最大对手,要IPO

投资家 浏览 3507

AI里的明争暗斗:马斯克的甜言蜜语,和我们20%的胜率

一点财经 浏览 2987

看完《蜜语纪》里的“穷人”生活,对不起我给穷人拖后腿了

娱乐圈笔娱君 浏览 1705

蒙特利尔大学团队发现让AI"分段思考"的惊人秘密

科技行者 浏览 4315

中央考核巡查组连续发问 现场人员支支吾吾

新京报 浏览 8947

今年春夏最火的3个穿搭思路,普通人可以直接照搬吗?

黎贝卡的异想世界 浏览 1216

夜读体验史诗级提升:苹果 M5 iPad Pro 屏幕亮度最低为 1 尼特

IT之家 浏览 4636

内外设计焕新 大众朗逸Pro将于11月17日上市

车质网 浏览 4287

TA:皇马正与苹果合作开发VR项目,但一切处于非常早期的阶段

懂球帝 浏览 4499

首个有期徒刑正式宣判,恒大、中植“关键人”一个都跑不了!

深蓝财经 浏览 4352

记者:原梅州客家主帅里斯蒂奇将接任李霄鹏,执教青岛海牛

懂球帝 浏览 3957

湖人胜勇士!里弗斯后场发动机,八村垒艾顿齐爆,拉拉维亚辣眼

篮球资讯达人 浏览 4729

DeepSeek连发两篇论文背后,原来藏着一场学术接力

机器之心Pro 浏览 3582
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1