关闭广告

智能体系统如何「边做边学」?斯坦福团队探索在线优化的新范式

机器之心Pro2661人阅读



如何让智能体进行复杂推理与工具调用?传统方法主要有两类:训练单一的大语言模型,使其同时承担思考与工具调用的任务;要么依赖静态提示词驱动的 training-free 智能体系统。

然而,前者在长链推理、工具多样化与动态环境反馈下训练常变得不稳定,缺乏可扩展性(scalability);后者则缺少学习与适应能力,难以应对复杂场景。

为此,斯坦福大学联合德州农工大学(Texas A&M)、加州大学圣地亚哥分校(UC San Diego)和 Lambda 的研究团队提出了 AgentFlow 框架,通过多个独立 Agent 模块协作,并且提出 Flow-GRPO 算法用于训练。在评测中,AgentFlow 在搜索、代理、数学与科学任务上均取得显著提升,即便是 3B 模型,也能超越 405B 的 Llama-3.1 和 200B 的 GPT-4o。

阅读全文
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

卷上天的新能源厂商,销量却被燃油车背刺了

虎嗅APP 浏览 2833

刚刚,全球首个GB300巨兽救场!一年烧光70亿,OpenAI内斗GPU惨烈

新智元 浏览 2816

新款腾势Z9GT申报图曝光 续航大增/似推单电机版本

网易汽车 浏览 1689

美国发射洲际弹道导弹 俄方回应

央视新闻客户端 浏览 2486

想年前用3周“刷新”好状态?做第一点就够

黎贝卡的异想世界 浏览 1418

德转为金球奖竞争评级:登贝莱最被看好,亚马尔为最大竞争对手

直播吧 浏览 3677

售16.59万元起 改款奥迪A3家族正式上市

网易汽车 浏览 2584

《一路繁花2》要封神?5位综艺强者登场,预告连刷4遍不过瘾

娱乐圈笔娱君 浏览 2773

《小城大事》:那么宏大,却又那么儿戏,我还是弃剧了

娱乐圈笔娱君 浏览 1612

卢伟冰公布小米17 Ultra手机首张样片

IT之家 浏览 1973

这些才是适合普通人的穿搭!搭配腰带、多穿牛仔裤,简单舒适

静儿时尚达人 浏览 683

E句话| 女星放弃抢救病危丈夫,儿子当场质问?

仙女事件簿 浏览 1405

利空突袭!暴跌50%!

券商中国 浏览 1789

WTT重庆冠军赛:莫雷加德3-0横扫丹麦猛将,即将迎战国乒温瑞博

乒谈 浏览 706

美联储的“十字路口”

21世纪经济报道 浏览 3476

iPhone手机半夜“自动给陌生人打电话” 苹果客服回应

极目新闻 浏览 13775

国产新能源还在内讧,福特CEO已经吓破胆了:能让我们全军覆没

小李车评李建红 浏览 2464

斯坦福大学等发布:AI助手在企业政策执行上"偏科"得如此严重

科技行者 浏览 1731

中国“十五五”:未来五年,世界剧变!

宋鸿兵 浏览 2700

豪华装饰,卢卡斯为家中置办一座4米高举起世界杯的金刚雕像

懂球帝 浏览 943

风电龙头明阳智能拟跨界太空光伏

北京商报 浏览 1632
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1