关闭广告

清华大学团队NeurIPS 2025文章分析 RL 与 SFT 泛化性差异

机器之心Pro4722人阅读

在具身智能领域，视觉 - 语言 - 动作（VLA）大模型正展现出巨大潜力，但仍面临一个关键挑战：当前主流的有监督微调（SFT）训练方式，往往让模型在遇到新环境或任务时容易出错，难以真正做到类人般的泛化。但在大语言模型（LLM/VLM）领域，强化学习（RL）已被证明能显著提升模型的泛化能力。RL 究竟能为 VLA 带来哪些独特的泛化优势？与 SFT 相比，它们的优劣势分别体现在哪里？

来自清华大学的研究团队在 NeurIPS 2025 发表文章，首次系统性地揭示了强化学习（RL）在提升 VLA 泛化能力上的独特优势，并带来了一套全面的评测基准和高效训练方法。通讯作者是清华大学教授汪玉和博士后于超。

版权与免责声明：本文内容转载自其他媒体，目的在于传递更多信息，不代表本网观点或立场，不承担此类作品侵权行为的自己责任及连带责任。

猜你喜欢

相关阅读

美元走弱对亚洲市场意味着什么？经济学家：警惕“非常态”贬值的市场剧震

第一财经资讯浏览 3275

前三季度GDP增速暂居全国首位，湖北挑战“中部第一省”

时代周报浏览 4215

Nature｜尺寸与光电转换效率创世界纪录，上海科学家团队携手龙头企业突破大尺寸钙钛矿光伏模组产业化关键技术

上观新闻浏览 4482

精彩推荐

不止本田遭遇“冰雹”，这些跨国车企如何找回“春天”？

禾颜阅车浏览 2328

全球食品和饮料巨头宣布：计划裁员16000人

环球网资讯浏览 4437

预售权益价10.69万元起东风日产N6将上市

网易汽车浏览 4030

CBA疯狂一夜！争冠形势大乱：北京送广东首败，助攻广厦升至第一

侃球熊弟浏览 3594

张维伊把婚房订成三人间，董璇直接傻了眼

烟云过眼浏览 4763

兰帕德有能，考文垂队史首次取得单赛季联赛六连胜

懂球帝浏览 4321

特朗普涉俄乌冲突再次表态：有时候必须让他们打到底

鲁中晨报浏览 9252

甲骨文盘中涨超6%，华尔街"抄底派"料股价有望反弹90%

华尔街见闻官方浏览 3978

拜仁官方：后卫斯塔尼希奇今日回归合练

懂球帝浏览 4427

王楚钦横扫帕尔采访！太久没打直呼生疏，亲承中国是最好办赛环境

篮球资讯达人浏览 3155

张继科与女友张蕊被拍被传隐婚生子？

达达哥浏览 3859

搭第四代MBUX系统奔驰纯电GLC亮相2026 CES

车质网浏览 3429

五一档三部电影扑街，《10间》格外尴尬

阿裤趣闻君浏览 1226

邹市明两亿家产被败光，冉莹颖深夜哭诉？

苏甩甩浏览 3893

马里兰大学与英特尔：AI视频字幕自动评分系统

科技行者浏览 4372

博尔达拉斯：巧妇难为无米之炊，我不该承受这赛季所遭受的一切

懂球帝浏览 3366

聚焦进博｜一个巴西律师的“新上海故事”

国际金融报浏览 4149

释永信老照片流出 21岁的他推师傅看病看起来老实本分

火山詩话浏览 53284

为新能源再投10亿，苹果为何还不造车？

BT财经浏览 4604

蔚来四季度盈利的底气，到底是什么？

21世纪经济报道浏览 4381

美团、京东外卖、淘宝闪购集体声明：自愿执行

中新经纬浏览 3075

本站所有信息收集于互联网，如本站收集信息侵权，请联系我们及时删除
沪ICP备20017958号-1