关闭广告

智能体系统如何「边做边学」?斯坦福团队探索在线优化的新范式

机器之心Pro888人阅读



如何让智能体进行复杂推理与工具调用?传统方法主要有两类:训练单一的大语言模型,使其同时承担思考与工具调用的任务;要么依赖静态提示词驱动的 training-free 智能体系统。

然而,前者在长链推理、工具多样化与动态环境反馈下训练常变得不稳定,缺乏可扩展性(scalability);后者则缺少学习与适应能力,难以应对复杂场景。

为此,斯坦福大学联合德州农工大学(Texas A&M)、加州大学圣地亚哥分校(UC San Diego)和 Lambda 的研究团队提出了 AgentFlow 框架,通过多个独立 Agent 模块协作,并且提出 Flow-GRPO 算法用于训练。在评测中,AgentFlow 在搜索、代理、数学与科学任务上均取得显著提升,即便是 3B 模型,也能超越 405B 的 Llama-3.1 和 200B 的 GPT-4o。

阅读全文
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

今秋要穿这15条裙子!上身绝美,太撩人了!

Yuki女人故事 浏览 1029

带着理想出发:理想汽车携手易烊千玺为时代青年发声

三言科技 浏览 1559

高市早苗当选首相的"助攻手" 重点提携了"汉奸"石平

极目新闻 浏览 6036

威少绝杀篮网,奇才最后12秒完成惊天逆转

趣看热点 浏览 25752

弗利克:这是一场艰苦的胜利 我们要捍卫榜首位置

体坛周报 浏览 1459

刘诗诗、杨幂、宋佳最近太美了!40岁的她们比20岁更迷人

LinkFashion 浏览 11706

俄方:乌方有时会肢解外国雇佣兵尸体 试图掩盖其身份

环球时报国际 浏览 95386

连升三级,董宇辉要休长假了

市界 浏览 13096

中企在非洲因环境问题引争议 遭800亿美元天价索赔

澎湃新闻 浏览 37301

她是半个娱乐圈的“妈”,丈夫与她相爱40年

说历史的老牢 浏览 1497

长安林肯航海家燃油 SUV 新增“启航版”上市,24.59 万元

IT之家 浏览 1478

美今夏发卫星欲跟踪中俄航天器?专家解读

环球网资讯 浏览 16470

这一季的《花儿与少年》终于正常了!

伊周潮流 浏览 13418

妈妈辈也能轻松穿出高级感:3个实用穿搭法则,优雅不费力

静儿时尚达人 浏览 814

海外骗子用AI合成泰勒·斯威夫特声音,伪造"厨具免费送"广告

IT之家 浏览 12713

俄沃罗涅日州起火油储基地内两个油罐发生泄漏

环球网资讯 浏览 15510

​柳岩香港随拍照片曝光 穿白色印花裙赏夜景

蜜蜂会穿搭 浏览 14973

雷军、余承东等车圈顶流热议破卷 玩流量的高手在乎的不只流量

道哥说车 浏览 11193

柬媒:正式接班洪森的第一天 洪玛奈早起送孩子上学

中国新闻周刊 浏览 88445

女人别放弃打扮,看看国外气质奶奶的搭配,依旧美得有气场

静儿时尚达人 浏览 12919

女主明明很漂亮却让人不想追剧 问题出在哪?

不八卦会死星人 浏览 16572
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1