关闭广告

清华大学团队NeurIPS 2025文章分析 RL 与 SFT 泛化性差异

机器之心Pro4516人阅读



在具身智能领域,视觉 - 语言 - 动作(VLA)大模型正展现出巨大潜力,但仍面临一个关键挑战:当前主流的有监督微调(SFT)训练方式,往往让模型在遇到新环境或任务时容易出错,难以真正做到类人般的泛化。但在大语言模型(LLM/VLM)领域,强化学习(RL)已被证明能显著提升模型的泛化能力。RL 究竟能为 VLA 带来哪些独特的泛化优势?与 SFT 相比,它们的优劣势分别体现在哪里?

来自清华大学的研究团队在 NeurIPS 2025 发表文章,首次系统性地揭示了强化学习(RL)在提升 VLA 泛化能力上的独特优势,并带来了一套全面的评测基准和高效训练方法。通讯作者是清华大学教授汪玉和博士后于超。


版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

曝大S骨灰做成7条项链,范玮琪演唱会上疑似佩戴

扒虾侃娱 浏览 4079

李羲承退出ENHYPEN,组合未来将以六人形式活动

精彩背后的故事 浏览 2313

至高享价值48800元限时购车礼 猛士M817 Hero售30.19万

网易汽车 浏览 3837

德媒:训练中被约纳坦-塔踩到脚的斯塔尼希奇并未受重伤

懂球帝 浏览 2997

智能设备迭代更新 酒泉将精准“跟拍”神舟回家影像

环球网资讯 浏览 261

高市早苗APEC会议期间与台湾地区人员会面 国台办回应

澎湃新闻 浏览 9335

中国女选手参加"世界扇耳光大赛" 被对手扇成"猪头"

中国新闻周刊 浏览 8703

东风计划2026年将欧洲销量提升至8万辆

盖世汽车 浏览 4759

营收大增1332.52%,牛散出手增持!下周6股解禁比例超50%

数据宝 浏览 4295

三幅字画涉刑被拍卖 其中徐悲鸿"奔马图"起拍价4762万

极目新闻 浏览 9911

锡安复出生涯首次替补18+6 鹈鹕送公牛9战第8败吉迪11+7+5

醉卧浮生 浏览 3459

雷克萨斯NX绝色限定版上市 售价30.96万起

车质网 浏览 3090

1.86亿,压垮王健林的最后一根稻草?

功夫财经 浏览 4107

男子为救人按断女子6根肋骨 女方丈夫:认他为异姓兄弟

潇湘晨报 浏览 23271

俄称挫败乌军空降行动

上观新闻 浏览 3245

一句话点评9月纯电车型:小米YU7反超SU7,下一步追赶Model Y?

汽车公社 浏览 4315

美伊陷入互相封锁僵局

环球网资讯 浏览 1035

全国人大代表梁伟:用AI打通中国芯片弯道超车的 “任督二脉”|代表在这里

封面新闻 浏览 2375

张之臻冲开门红失利白卓璇弥补遗憾,女单最大冷门成就土耳其历史

网球之家 浏览 3088

车长超5米 比亚迪海狮08/海豹08配高阶智驾

网易汽车 浏览 3248

外媒:马克龙在最后一刻加入反对阵营 "背叛"了默茨

澎湃新闻 浏览 9160
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1