关闭广告

智能体系统如何「边做边学」?斯坦福团队探索在线优化的新范式

机器之心Pro896人阅读



如何让智能体进行复杂推理与工具调用?传统方法主要有两类:训练单一的大语言模型,使其同时承担思考与工具调用的任务;要么依赖静态提示词驱动的 training-free 智能体系统。

然而,前者在长链推理、工具多样化与动态环境反馈下训练常变得不稳定,缺乏可扩展性(scalability);后者则缺少学习与适应能力,难以应对复杂场景。

为此,斯坦福大学联合德州农工大学(Texas A&M)、加州大学圣地亚哥分校(UC San Diego)和 Lambda 的研究团队提出了 AgentFlow 框架,通过多个独立 Agent 模块协作,并且提出 Flow-GRPO 算法用于训练。在评测中,AgentFlow 在搜索、代理、数学与科学任务上均取得显著提升,即便是 3B 模型,也能超越 405B 的 Llama-3.1 和 200B 的 GPT-4o。

阅读全文
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

足球报:亚泰外援卡米洛参加全队合练,但还没达到比赛状态

懂球帝 浏览 982

货拉拉涉事司机父亲:我儿子人老实前房东和邻居也发声,具体是怎么说的?

趣看热点 浏览 144018

声称永远不会嫁富豪 她是时尚界的Billie Eilish

下水道男孩 浏览 16892

电商链的诺基亚时刻

斑马消费 浏览 14821

重庆工厂被曝16.2亿出售,北京现代正加速新能源转型

时代周报 浏览 12725

汽车街冲刺港股:年营收4.7亿同比降30% 腾讯与京东是股东

雷递 浏览 15726

基金经理任期内亏损近40%,还让人“抄作业”

财通社 浏览 832

好莱坞恶魔制片人被判146年 受害女警作证后意外身亡

大风新闻 浏览 7436

半裙搭配帆布鞋,初夏这样穿不出错

春菇凉时尚穿搭记 浏览 19123

7月2日外媒科学网站摘要:蚊子是否嗜血取决于它体内激素

网易科技报道 浏览 10659

中国女排0比3不敌意大利队 世界排名被日本女排超越

澎湃新闻 浏览 67638

牛弹琴:中国人过春节时 世界发生了10件大事

上观新闻 浏览 81305

疑华谊二公子袭警获刑 私照曝光为23岁美籍硕士

网易娱乐 浏览 26802

深埋江门地下,捕捉“幽灵粒子”的巨型实验装置预计明年运行

南方都市报 浏览 11301

破亿品牌数增长,3万品牌成交翻倍,今年双11的商业变革悄然开始

一点财经 浏览 883

小鹏将推出长途增程混合动力X9,单次续航1600公里

MOTO 浏览 1767

董洁直播走红,成小红书电商全村希望?

Tech星球 浏览 19571

华为鸿蒙智行下半场的战略之变

汽车K线 浏览 1487

技术路线图3.0,中国汽车2040年这么干

帮宁工作室 浏览 873

王家卫凉凉!开会支持《繁花》副导演精日言论,网友让他滚出中国

萌神木木 浏览 683

前三季度海洋生产总值7.9万亿元 同比增长5.6%

央视财经 浏览 732
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1