关闭广告

智能体系统如何「边做边学」?斯坦福团队探索在线优化的新范式

机器之心Pro4288人阅读



如何让智能体进行复杂推理与工具调用?传统方法主要有两类:训练单一的大语言模型,使其同时承担思考与工具调用的任务;要么依赖静态提示词驱动的 training-free 智能体系统。

然而,前者在长链推理、工具多样化与动态环境反馈下训练常变得不稳定,缺乏可扩展性(scalability);后者则缺少学习与适应能力,难以应对复杂场景。

为此,斯坦福大学联合德州农工大学(Texas A&M)、加州大学圣地亚哥分校(UC San Diego)和 Lambda 的研究团队提出了 AgentFlow 框架,通过多个独立 Agent 模块协作,并且提出 Flow-GRPO 算法用于训练。在评测中,AgentFlow 在搜索、代理、数学与科学任务上均取得显著提升,即便是 3B 模型,也能超越 405B 的 Llama-3.1 和 200B 的 GPT-4o。

阅读全文
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

90分钟战报:埃弗顿1-1桑德兰,詹姆斯-加纳点射绝平

懂球帝 浏览 2836

巴菲特大举买入谷歌,股神为何爱上科技股?

郭施亮 浏览 4092

魏晨一家三口合体,妻子抱着儿子看他演唱会

柠檬有娱乐 浏览 4107

苹果天气App昨晚出现宕机,目前异常已修复

三言科技 浏览 1357

紫光展锐发布端边AI芯片平台N9系列:4nm工艺,Arm v9.2 CPU

IT之家 浏览 1153

为“打击贩毒” 美军调派“福特”号航母至加勒比海

央视新闻客户端 浏览 3117

瓜帅:利物浦和阿森纳都在争冠;英超风格的改变?我会接受

懂球帝 浏览 4357

本赛季英超后卫失误致丢球排行:范赫克4次居首,范戴克等人2次

懂球帝 浏览 569

印欧达成自由贸易协定

国际金融报 浏览 3265

质疑公牛集团广告语存误导被索赔420万 涉事公司反诉

澎湃新闻 浏览 21460

中企在拉美花22个月建成的铜矿无法投产:总统换人了

每日经济新闻 浏览 10793

42岁刘翔近况曝光

姩姩有娱 浏览 4125

全面战胜ReAct!斯坦福全新智能体推理框架,性能提升112.5%

新智元 浏览 4019

郑爽近照曝光星味全无,家中装修豪华惊现儿童玩具,日子并不可怜

不八卦会死星人 浏览 3438

张本智和惨遭逆转!痛失4个赛点+连丢3局,无缘法国冠军赛男单8强

乒谈 浏览 4320

赵丽颖好事将近?闺蜜给她的生日祝福好微妙,被怀疑恋情有新进展

萌神木木 浏览 4361

贵=好用?这个刚需我们试了一堆才选到合适的

黎贝卡的异想世界 浏览 4483

一句话,干掉586亿

深蓝财经 浏览 5206

陈坤儿子的生母,早在14年前就公开了?

归史 浏览 4917

全国首个!华为、联通把5G-A上行速率飚到1Gbps

快科技 浏览 3200

笔在手中,镜头是新墨水

上观新闻 浏览 3388
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1