关闭广告

智能体系统如何「边做边学」?斯坦福团队探索在线优化的新范式

机器之心Pro4090人阅读



如何让智能体进行复杂推理与工具调用?传统方法主要有两类:训练单一的大语言模型,使其同时承担思考与工具调用的任务;要么依赖静态提示词驱动的 training-free 智能体系统。

然而,前者在长链推理、工具多样化与动态环境反馈下训练常变得不稳定,缺乏可扩展性(scalability);后者则缺少学习与适应能力,难以应对复杂场景。

为此,斯坦福大学联合德州农工大学(Texas A&M)、加州大学圣地亚哥分校(UC San Diego)和 Lambda 的研究团队提出了 AgentFlow 框架,通过多个独立 Agent 模块协作,并且提出 Flow-GRPO 算法用于训练。在评测中,AgentFlow 在搜索、代理、数学与科学任务上均取得显著提升,即便是 3B 模型,也能超越 405B 的 Llama-3.1 和 200B 的 GPT-4o。

阅读全文
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

理想汽车材料科技研发分享会:真自研非“字研”

网易汽车 浏览 3458

任泽平发声回应但斌“认错”:理性讨论比对错更重要

财视传播 浏览 3133

燃烧等离子体国际科学计划项目启动及研究计划发布

中安在线 浏览 3638

落地为王:谁在用AI引领百亿价值跃迁?

虎嗅APP 浏览 3606

397场,凯尔-沃克追平英超历史边后卫首发次数纪录

懂球帝 浏览 4103

斯塔默告诉特朗普:对北约盟国加征关税 错了

新京报 浏览 7647

岚图追光L/别克至境世家领衔 12月上市新车汇总

太平洋汽车 浏览 3714

欣旺达更新港股招股书:去年前9个月净赚14亿,动力电池业务进入全球前十

车东西 浏览 2914

曼联警告球迷:唱“切尔西租男”可能会被警方逮捕

直播吧 浏览 4933

卷首语|这届年轻人,全员渡劫奥德赛

时尚COSMO 浏览 961

荣耀“既Pro又Air”新机设计线稿首曝

IT之家 浏览 3232

NBA战报:雷霆94-91险胜掘金,沃特森15分

懂球帝 浏览 4189

张元英又作大死?香港相关言论炸锅了

小徐讲八卦 浏览 3399

间谍入住海景民宿拍军港敏感画面 被民宿店主识破上报

央视新闻客户端 浏览 10479

她被骂“文盲”影后,如今搭档黄轩交出满意答卷

仙味少女心 浏览 4117

《阿凡达3》预测票房仅仅11亿,口碑翻车

娱乐圈笔娱君 浏览 3443

以总理:将确保哈马斯解除武装

国际在线 浏览 4161

推广|| 用完立马复购!百元get大牌肤感

黎贝卡的异想世界 浏览 3406

尼克斯112-100力克湖人豪取6连胜,东契奇30分,詹姆斯22分

懂球帝 浏览 2884

美伊冲突两个月尘埃未定 伊朗或仍保留约70%导弹库存

看看新闻Knews 浏览 32236

加州大学欧文分校发明"内部监控器":让大模型自己识别胡说八道

科技行者 浏览 2867
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1