关闭广告

清华大学团队NeurIPS 2025文章分析 RL 与 SFT 泛化性差异

机器之心Pro4721人阅读

在具身智能领域，视觉 - 语言 - 动作（VLA）大模型正展现出巨大潜力，但仍面临一个关键挑战：当前主流的有监督微调（SFT）训练方式，往往让模型在遇到新环境或任务时容易出错，难以真正做到类人般的泛化。但在大语言模型（LLM/VLM）领域，强化学习（RL）已被证明能显著提升模型的泛化能力。RL 究竟能为 VLA 带来哪些独特的泛化优势？与 SFT 相比，它们的优劣势分别体现在哪里？

来自清华大学的研究团队在 NeurIPS 2025 发表文章，首次系统性地揭示了强化学习（RL）在提升 VLA 泛化能力上的独特优势，并带来了一套全面的评测基准和高效训练方法。通讯作者是清华大学教授汪玉和博士后于超。

版权与免责声明：本文内容转载自其他媒体，目的在于传递更多信息，不代表本网观点或立场，不承担此类作品侵权行为的自己责任及连带责任。

猜你喜欢

相关阅读

小米通报与“大熊”合作处理结果：辞退涉事经办人员

三言科技浏览 3488

燃油A级SUV再进化瑞虎7双车上市限时6.99万起

网易汽车浏览 1775

半个娱乐圈为肖战包场，《得闲谨制》票房走俏，侯鸿亮鞠躬致谢

娱乐圈笔娱君浏览 3804

精彩推荐

四川舰海试中方捷报频传美破防咬定中国有8艘＂航母＂

空天力量浏览 34134

美陆军部长抵达阿联酋首都与俄“秘密会谈”

环球网资讯浏览 3969

37岁高叶演“恶女”，连面相都变了？

娱乐圈笔娱君浏览 4275

增持回购潮背后的A股信心

北京商报浏览 3981

葡媒：被换下后发生争执，卢克巴吉奥已经向穆帅和全队道歉

懂球帝浏览 1381

日媒：中国U23仿佛在球场筑起万里长城，完成了数据上不可能的奇迹

懂球帝浏览 3237

今日热点：李庚希空降粉丝群抵制代拍；荷兰弟复工拍摄《蜘蛛侠4》……

伊周潮流浏览 3797

40岁的他，是世界徒手攀岩第一人，也是风险管理大师｜中企荐读

中国企业家杂志浏览 3247

北京105-74终结广东8连胜，曾凡博回归18分，徐杰伤退，萨姆纳35分

懂球帝浏览 3622

武契奇称＂无法保证不制裁俄罗斯＂俄方回应

参考消息网浏览 9208

我国建成全球最大可再生能源体系，十年来风光发电新增装机占六成

IT之家浏览 4332

拉齐奥新闻 / 拉特科夫缺乏出场机会，因莫比莱谈离队：早间新闻汇总

绿茵情报局浏览 1822

“装了周杰伦”的机器狗？巨星传奇把6000台卖给了谁？

野马财经浏览 4094

台陆军运输群车队两辆军用卡车相撞画面披露

环球网资讯浏览 4180

又破新纪录零跑5月交付超8万台全新C10、C11、C16即将上市

网易汽车浏览 437

全新A6L领衔一汽奥迪2026年新车预览

网易汽车浏览 2816

不愧是舒淇，好“生猛”的一部剧

时尚COSMO 浏览 3678

＂10岁男孩被烟花炸伤头部身亡＂案二审开庭被告拒担责

极目新闻浏览 9701

AI重塑就业版图专项政策护航转型之路

北京商报浏览 3207

刷游戏像刷视频，这个AI游戏版TikTok火了

智东西浏览 1704

限时19.68万元起比亚迪2026款夏上市

网易汽车浏览 4187

本站所有信息收集于互联网，如本站收集信息侵权，请联系我们及时删除
沪ICP备20017958号-1