关闭广告

清华大学团队NeurIPS 2025文章分析 RL 与 SFT 泛化性差异

机器之心Pro4858人阅读



在具身智能领域,视觉 - 语言 - 动作(VLA)大模型正展现出巨大潜力,但仍面临一个关键挑战:当前主流的有监督微调(SFT)训练方式,往往让模型在遇到新环境或任务时容易出错,难以真正做到类人般的泛化。但在大语言模型(LLM/VLM)领域,强化学习(RL)已被证明能显著提升模型的泛化能力。RL 究竟能为 VLA 带来哪些独特的泛化优势?与 SFT 相比,它们的优劣势分别体现在哪里?

来自清华大学的研究团队在 NeurIPS 2025 发表文章,首次系统性地揭示了强化学习(RL)在提升 VLA 泛化能力上的独特优势,并带来了一套全面的评测基准和高效训练方法。通讯作者是清华大学教授汪玉和博士后于超。


版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

连奕名为老婆过46岁生日 杨若兮素颜照惹争议

小徐讲八卦 浏览 3794

暴跌超70%!"扫地机器人鼻祖"破产 中国债主或接盘

华尔街见闻官方 浏览 3796

电商助力 四川会东石榴从深山走向全国市场

封面新闻 浏览 5176

直播|| 春夏百元级首饰,最爱逛的一定有他家!

黎贝卡的异想世界 浏览 1934

微信不敢加的功能,腾讯把它塞进了这个新App里。

差评XPIN 浏览 3415

直言“薪资不及预期”!上任仅3个月,上市公司财务负责人“闪辞”

红星资本局 浏览 2004

针对“美式讹诈”:中国为何率先发动反制?

浏览 8196

科技氛围浓郁 全新奥迪Q5L内饰正式公布

车质网 浏览 4064

纯电续航超400km ID.ERA 9X将于4月正式上市

车质网 浏览 3364

aespa治好了我的黑眼圈焦虑

时尚COSMO 浏览 556

关系藏不住了?小S二女儿被曝恋情

小梊搞笑解说 浏览 4620

澳海滩枪案致16死 中国亲历者:流传还有"第三名枪手"

红星新闻 浏览 9597

长安启源2025年全年销量突破40万辆

IT之家 浏览 3714

钟欣潼前夫被曝婚变,第三任妻子删光合照

树娃 浏览 4410

红果年度男演员排名出炉,刘萧旭碾压登顶

洲洲影视娱评 浏览 3557

春天穿衣真的很简单!衬衫配裙子、塑造留白,显瘦提气质

静儿时尚达人 浏览 1464

乌方公布视频:无人机命中俄方两架安-26运输机

环球网资讯 浏览 4421

猛龙109-97逆转老鹰,英格拉姆20分,巴雷特19+5+4

懂球帝 浏览 4198

从美国到东南亚,TikTok电商重心转移

虎嗅APP 浏览 5315

伊姐周日热推:电视剧《重案解密》;电视剧《21世纪大君夫人》......

伊周潮流 浏览 1522

纯电续航达550km 吉利银河A7 EV官图发布

车质网 浏览 1975
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1