关闭广告

清华大学团队NeurIPS 2025文章分析 RL 与 SFT 泛化性差异

机器之心Pro4717人阅读



在具身智能领域,视觉 - 语言 - 动作(VLA)大模型正展现出巨大潜力,但仍面临一个关键挑战:当前主流的有监督微调(SFT)训练方式,往往让模型在遇到新环境或任务时容易出错,难以真正做到类人般的泛化。但在大语言模型(LLM/VLM)领域,强化学习(RL)已被证明能显著提升模型的泛化能力。RL 究竟能为 VLA 带来哪些独特的泛化优势?与 SFT 相比,它们的优劣势分别体现在哪里?

来自清华大学的研究团队在 NeurIPS 2025 发表文章,首次系统性地揭示了强化学习(RL)在提升 VLA 泛化能力上的独特优势,并带来了一套全面的评测基准和高效训练方法。通讯作者是清华大学教授汪玉和博士后于超。


版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

守护行人安全 四川省人大代表韩华亮建议:制定管理细则,提高电动车违法成本|代表在这里

封面新闻 浏览 3178

新款红旗HS5曝光,内外设计大改,或推插混车型,半年内上市!

车讯简报 浏览 3291

上海AI实验室团队首创视频驱动交互网页重建基准

科技行者 浏览 4272

桑托斯3-1科林蒂安,罗埃塞点射破门,巴雷亚尔传射

懂球帝 浏览 4653

五月天力捧台独艺人惹争议!

萌神木木 浏览 4395

普京:俄方已无兴趣等待乌从其占领区撤出

每日经济新闻 浏览 3587

AI数据中心太火,美商务部长被盯上了,民主党议员发函敦促调查利益冲突

华尔街见闻官方 浏览 3651

乐道汽车全年累计交付破10万台 成交均价升至25万+

网易汽车 浏览 3709

外交部回应"APEC会议期间中美元首是否举行会晤"

界面新闻 浏览 8750

全时区・强流动性|ACCM 助力投资人把握贵金属时代红利

商业观察杂志社 浏览 1780

特朗普提出将美国军费提升至1.5万亿美元

澎湃新闻 浏览 3445

NBA新赛季大前锋TOP10:字母一枝独秀 浓眉盼健康

体坛周报 浏览 4387

程强:缩量反弹,关注宏观事件密集落地

首席经济学家论坛 浏览 4390

李禹熹公开和荣梓杉聊天记录!​开房都不舍花钱,还拿私密照威胁

萌神木木 浏览 4501

娃哈哈精密机械公司启动解散清算,员工称已收到终止劳动合同通知

红星资本局 浏览 2722

或命名为瑞虎3L 奇瑞瑞虎T13T谍照曝光

车质网 浏览 3074

库克将正式卸任苹果CEO:创造4万亿帝国 访华达20次

澎湃新闻 浏览 31184

维尔茨:能庆祝自己的成就时很不错,我喜欢在安菲尔德踢球

懂球帝 浏览 3064

"韩国顶流"被追缴200亿韩元税款:至少赚了1000亿韩元

新民周刊 浏览 4521

临危受命18个月,横琴人寿董事长或“功成身退”!

独角金融 浏览 3142

学者:欧洲想实现核心发展目标 除了中国没有其他选择

澎湃新闻 浏览 8032
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1