关闭广告

智能体系统如何「边做边学」?斯坦福团队探索在线优化的新范式

机器之心Pro2669人阅读



如何让智能体进行复杂推理与工具调用?传统方法主要有两类:训练单一的大语言模型,使其同时承担思考与工具调用的任务;要么依赖静态提示词驱动的 training-free 智能体系统。

然而,前者在长链推理、工具多样化与动态环境反馈下训练常变得不稳定,缺乏可扩展性(scalability);后者则缺少学习与适应能力,难以应对复杂场景。

为此,斯坦福大学联合德州农工大学(Texas A&M)、加州大学圣地亚哥分校(UC San Diego)和 Lambda 的研究团队提出了 AgentFlow 框架,通过多个独立 Agent 模块协作,并且提出 Flow-GRPO 算法用于训练。在评测中,AgentFlow 在搜索、代理、数学与科学任务上均取得显著提升,即便是 3B 模型,也能超越 405B 的 Llama-3.1 和 200B 的 GPT-4o。

阅读全文
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

以军一天内93次袭击加沙致70人死亡

国际在线 浏览 2847

国信策略:抢占科技发展制高点

网易财经 浏览 2718

今年流行的“新老钱风”,优雅又时髦,太适合春天了!

LinkFashion 浏览 861

杨紫扛剧女王不是白叫的,顶流胡歌也得给她作配

大黑爱旅游 浏览 1563

独栋别墅被拆除业主原地偷建 城管局:他"打游击"施工

扬子晚报 浏览 11850

"多管局局长"拍市政问题火了 网友:只有深圳包容他

中国新闻周刊 浏览 12988

2026 春节档终极 PK!沈腾周星驰二次交手

第一娱记 浏览 1658

小米SU7凌晨突发撞击事故 车辆爆燃施救人员未打开车门

网易汽车 浏览 2824

业主私挖300平地下室 同楼住户:家里没一面墙是完整的

新民周刊 浏览 7858

智能早报丨黄仁勋造访台积电3nm产线索取产能;万华化学突破机器人“仿生皮肤”材料

观察者网 浏览 2494

最高补贴1.5万元!深蓝、小米、蔚来等车企“兜底”新能源车购置税差额

红星资本局 浏览 2713

秦PLUS DM-i加推128KM进取型 全系限时6.98万元起

网易汽车 浏览 3261

被演唱会上的叶倩文惊艳

喵喵娱乐团 浏览 2900

美乌柏林两日会谈后 特朗普、泽连斯基同日发声

环球时报国际 浏览 16961

以军称袭击黎巴嫩真主党多个军事目标

极目新闻 浏览 2370

苹果M4款iPad Air亮相,3月11日开启发售!

IT之家 浏览 869

亚洲最美面孔,还是救不了这片

独立鱼 浏览 2315

AI快速生成抗体设计图,大卫·贝克最新研究或改变传染病应对模式

DeepTech深科技 浏览 2477

Space X的护城河

华尔街见闻官方 浏览 2019

全运会男足:上海U20 3-2新疆U20,刘诚宇、蒯纪闻破门,李新翔绝杀

懂球帝 浏览 2412

泰柬边境冲突已致19名柬埔寨平民死亡

国际在线 浏览 1948
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1