关闭广告

智能体系统如何「边做边学」?斯坦福团队探索在线优化的新范式

机器之心Pro4293人阅读



如何让智能体进行复杂推理与工具调用?传统方法主要有两类:训练单一的大语言模型,使其同时承担思考与工具调用的任务;要么依赖静态提示词驱动的 training-free 智能体系统。

然而,前者在长链推理、工具多样化与动态环境反馈下训练常变得不稳定,缺乏可扩展性(scalability);后者则缺少学习与适应能力,难以应对复杂场景。

为此,斯坦福大学联合德州农工大学(Texas A&M)、加州大学圣地亚哥分校(UC San Diego)和 Lambda 的研究团队提出了 AgentFlow 框架,通过多个独立 Agent 模块协作,并且提出 Flow-GRPO 算法用于训练。在评测中,AgentFlow 在搜索、代理、数学与科学任务上均取得显著提升,即便是 3B 模型,也能超越 405B 的 Llama-3.1 和 200B 的 GPT-4o。

阅读全文
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

成都天府国际空港综合保税区通过验收

央视财经 浏览 3375

飞天茅台批价首次跌破1700元,机构称“白酒需求仍在磨底阶段”

YOUNG财经 浏览 4260

《御赐小仵作2》空降续集开播!最新口碑出炉,观众评价一针见血

娱乐圈笔娱君 浏览 3493

曝尊界明年将推6款新车 超豪汽车市场要变天了?

正在说车 浏览 3149

福建发布人工智能扶持新政:拟对企业年度算力购买最高补助50%

观察者网 浏览 4146

买 CPU 送 PS5?实测英特尔第三代 Ultra ,核显强得不像话

爱范儿 浏览 3132

“恐龙院士”徐星:在朝阳,孩子们可以近距离与化石对话

新华社 浏览 4594

英法宣布牵头霍尔木兹海峡安全通航行动

澎湃新闻 浏览 1574

iPhone17来了!华强北最新实探

中国基金报 浏览 5111

《音乐缘计划2》优秀!各路大咖齐集

你我话娱乐 浏览 4380

清华姚班大神陈立杰,联手00后逆向破局!颠覆50年计算机难题

新智元 浏览 3914

图宾根大学等机构突破:AI实现模块化人体动作分解与合成

科技行者 浏览 3273

日本民众举行集会 抗议高市政权扩军修宪

国际在线 浏览 1124

微软秘密武器亮相,英伟达CUDA护城河遭遇直接冲击

IT之家 浏览 4347

“短大衣”今年冬天又火了,这4件怎么搭都好看!

LinkFashion 浏览 2715

中国海警舰艇编队在钓鱼岛巡航

界面新闻 浏览 3256

Melody对“难搞的客人”做澄清:不记得发生过,请不要刻意抹黑

素素娱乐 浏览 3187

美防长下令从德国撤出5000名驻军

国际在线 浏览 1200

1499元飞天茅台上线“秒空”,茅台金融属性退潮是伪命题吗?

郭施亮 浏览 3509

妙可蓝多创始人柴琇遭免职,并被提起仲裁

YOUNG财经 浏览 3298

牛弹琴:欧洲终于开骂了 特朗普可能会气到咆哮

北京日报客户端 浏览 7755
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1