关闭广告

智能体系统如何「边做边学」?斯坦福团队探索在线优化的新范式

机器之心Pro4447人阅读



如何让智能体进行复杂推理与工具调用?传统方法主要有两类:训练单一的大语言模型,使其同时承担思考与工具调用的任务;要么依赖静态提示词驱动的 training-free 智能体系统。

然而,前者在长链推理、工具多样化与动态环境反馈下训练常变得不稳定,缺乏可扩展性(scalability);后者则缺少学习与适应能力,难以应对复杂场景。

为此,斯坦福大学联合德州农工大学(Texas A&M)、加州大学圣地亚哥分校(UC San Diego)和 Lambda 的研究团队提出了 AgentFlow 框架,通过多个独立 Agent 模块协作,并且提出 Flow-GRPO 算法用于训练。在评测中,AgentFlow 在搜索、代理、数学与科学任务上均取得显著提升,即便是 3B 模型,也能超越 405B 的 Llama-3.1 和 200B 的 GPT-4o。

阅读全文
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

剧版《西虹市首富》首波口碑出炉了!观众打分评价都“一针见血”

娱乐圈笔娱君 浏览 3363

吴京《镖人》官宣,谢霆锋李连杰甘愿作配,票房能否破50亿?

娱乐圈笔娱君 浏览 4317

委内瑞拉代总统:我“受够了”来自华盛顿的命令

扬子晚报 浏览 7953

图卢兹vs梅斯:雷斯特、西迪贝首发,巴洛-图雷、哈比卜-迪亚洛出战

懂球帝 浏览 4544

巴总理称"将7架印战机炸成残骸" 印方激烈反驳

澎湃新闻 浏览 6487

上海双雄克星!艾曼3战独造5球,助攻双响后被队友“擦鞋”

奥拜尔 浏览 4253

吴速玲曝儿子Joe是恋爱脑

韩小娱 浏览 3577

周柏豪相隔7年回港开唱!揭见面会惊喜

TVB资讯台 浏览 3500

3岁女童16楼走道坠亡 父母起诉开发商、物业索赔51万

红星新闻 浏览 17032

达成停火18天后战火再起 以总理下令袭击加沙

国际在线 浏览 4360

1.2亿辆车被召回,超半数源于监管调查,车企自查缺陷就这么难?

DearAuto 浏览 4373

国乒多人离队 总教练秦志戬回应

乒乓世界 浏览 13144

自动驾驶激战CES:黄仁勋硬刚马斯克,中国军团已默默量产破局

电车通 浏览 3502

今年冬天最火的靴子,越“皱”越时髦!

LinkFashion 浏览 3939

萧美琴在欧洲议会大楼参加会议并讲话 外交部回应

澎湃新闻 浏览 9862

A股总市值接近109万亿元,2026年开启全面牛市需要具备哪些条件?

郭施亮 浏览 3423

7万级方盒子,后独悬+Flyme Auto,吉利牛仔不讲武德

盖世汽车 浏览 576

希勒:B费奖杯少无法列入曼联传奇行列,但这不是他的问题

懂球帝 浏览 1356

微软研究院突破:让AI真正读懂多种语言的文化密码

科技行者 浏览 4520

宗馥莉的两大心腹疑似离职,“宏胜系”权力大洗牌

财通社 浏览 4521

联通三季报:宽移用户净增规模创新高,首次披露云收入数字

南方都市报 浏览 4654
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1