关闭广告

智能体系统如何「边做边学」?斯坦福团队探索在线优化的新范式

机器之心Pro4290人阅读



如何让智能体进行复杂推理与工具调用?传统方法主要有两类:训练单一的大语言模型,使其同时承担思考与工具调用的任务;要么依赖静态提示词驱动的 training-free 智能体系统。

然而,前者在长链推理、工具多样化与动态环境反馈下训练常变得不稳定,缺乏可扩展性(scalability);后者则缺少学习与适应能力,难以应对复杂场景。

为此,斯坦福大学联合德州农工大学(Texas A&M)、加州大学圣地亚哥分校(UC San Diego)和 Lambda 的研究团队提出了 AgentFlow 框架,通过多个独立 Agent 模块协作,并且提出 Flow-GRPO 算法用于训练。在评测中,AgentFlow 在搜索、代理、数学与科学任务上均取得显著提升,即便是 3B 模型,也能超越 405B 的 Llama-3.1 和 200B 的 GPT-4o。

阅读全文
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

与宾利添越是"亲兄弟" 大众途锐3.0TSI锐臻版上市

隔壁说车老王 浏览 3287

苏格兰11月世预赛大名单:麦克托米奈、罗伯逊领衔

懂球帝 浏览 4163

消息称6.3英寸小屏机或为OPPO Find X9s,将搭载双2亿镜头

IT之家 浏览 3540

智能体系统如何「边做边学」?斯坦福团队探索在线优化的新范式

机器之心Pro 浏览 4291

《时代》周刊2025年度人物公布:“AI建设者”

IT之家 浏览 3861

可能被“没收”一半股权,谷歌创始人逃离硅谷

字母榜 浏览 3422

雷佳音回应作品太多惹人烦,自己新剧也牵涉其中

手工制作阿歼 浏览 4535

其实,零百加速5秒的新规才是利好车企

速度计 浏览 4032

苹果天气App昨晚出现宕机,目前异常已修复

三言科技 浏览 1358

比起辣妹风,早秋这样穿的女生才是高段位吧!

Yuki女人故事 浏览 6607

杭州男子家中一斤黄金消失找了两天后报警 结局太意外

环球网资讯 浏览 34396

没有商业模式--DeepSeek最坚固的“护城河”

华尔街见闻官方 浏览 3356

波切蒂诺爆料:姆巴佩和梅西在巴黎踢不到一块去

体坛周报 浏览 1191

日企从中国进口稀土被要求提供经销商信息 中方回应

财联社 浏览 19973

钟欣潼前夫被曝婚变,第三任妻子删光合照

树娃 浏览 4276

政务大模型部署,重磅文件印发

智东西 浏览 3671

变阵冲决赛!U23国足VS越南首发:狂换6人 向余望先发王钰栋替补

我爱英超 浏览 3442

“私募一哥”A股清零,大恒科技再临十字路口

每日资本论 浏览 4706

媒体:泰军缴获柬军中国制造反坦克导弹 有人阴阳怪气

新民周刊 浏览 14370

以方袭击后 美副总统表态:加沙停火协议仍在维持

国际在线 浏览 4268

“中国机构是迪拜金融中心发展的关键力量”

国际金融报 浏览 4460
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1