关闭广告

清华大学团队NeurIPS 2025文章分析 RL 与 SFT 泛化性差异

机器之心Pro4722人阅读



在具身智能领域,视觉 - 语言 - 动作(VLA)大模型正展现出巨大潜力,但仍面临一个关键挑战:当前主流的有监督微调(SFT)训练方式,往往让模型在遇到新环境或任务时容易出错,难以真正做到类人般的泛化。但在大语言模型(LLM/VLM)领域,强化学习(RL)已被证明能显著提升模型的泛化能力。RL 究竟能为 VLA 带来哪些独特的泛化优势?与 SFT 相比,它们的优劣势分别体现在哪里?

来自清华大学的研究团队在 NeurIPS 2025 发表文章,首次系统性地揭示了强化学习(RL)在提升 VLA 泛化能力上的独特优势,并带来了一套全面的评测基准和高效训练方法。通讯作者是清华大学教授汪玉和博士后于超。


版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

不止本田遭遇“冰雹”,这些跨国车企如何找回“春天”?

禾颜阅车 浏览 2328

全球食品和饮料巨头宣布:计划裁员16000人

环球网资讯 浏览 4437

预售权益价10.69万元起 东风日产N6将上市

网易汽车 浏览 4030

CBA疯狂一夜!争冠形势大乱:北京送广东首败,助攻广厦升至第一

侃球熊弟 浏览 3594

张维伊把婚房订成三人间,董璇直接傻了眼

烟云过眼 浏览 4763

兰帕德有能,考文垂队史首次取得单赛季联赛六连胜

懂球帝 浏览 4321

特朗普涉俄乌冲突再次表态:有时候必须让他们打到底

鲁中晨报 浏览 9252

甲骨文盘中涨超6%,华尔街"抄底派"料股价有望反弹90%

华尔街见闻官方 浏览 3978

拜仁官方:后卫斯塔尼希奇今日回归合练

懂球帝 浏览 4427

王楚钦横扫帕尔采访!太久没打直呼生疏,亲承中国是最好办赛环境

篮球资讯达人 浏览 3155

张继科与女友张蕊被拍 被传隐婚生子?

达达哥 浏览 3859

搭第四代MBUX系统 奔驰纯电GLC亮相2026 CES

车质网 浏览 3429

五一档三部电影扑街,《10间》格外尴尬

阿裤趣闻君 浏览 1226

邹市明两亿家产被败光,冉莹颖深夜哭诉?

苏甩甩 浏览 3893

马里兰大学与英特尔:AI视频字幕自动评分系统

科技行者 浏览 4372

博尔达拉斯:巧妇难为无米之炊,我不该承受这赛季所遭受的一切

懂球帝 浏览 3366

聚焦进博|一个巴西律师的“新上海故事”

国际金融报 浏览 4149

释永信老照片流出 21岁的他推师傅看病看起来老实本分

火山詩话 浏览 53284

为新能源再投10亿,苹果为何还不造车?

BT财经 浏览 4604

蔚来四季度盈利的底气,到底是什么?

21世纪经济报道 浏览 4381

美团、京东外卖、淘宝闪购集体声明:自愿执行

中新经纬 浏览 3075
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1