关闭广告

清华大学团队NeurIPS 2025文章分析 RL 与 SFT 泛化性差异

机器之心Pro2969人阅读



在具身智能领域,视觉 - 语言 - 动作(VLA)大模型正展现出巨大潜力,但仍面临一个关键挑战:当前主流的有监督微调(SFT)训练方式,往往让模型在遇到新环境或任务时容易出错,难以真正做到类人般的泛化。但在大语言模型(LLM/VLM)领域,强化学习(RL)已被证明能显著提升模型的泛化能力。RL 究竟能为 VLA 带来哪些独特的泛化优势?与 SFT 相比,它们的优劣势分别体现在哪里?

来自清华大学的研究团队在 NeurIPS 2025 发表文章,首次系统性地揭示了强化学习(RL)在提升 VLA 泛化能力上的独特优势,并带来了一套全面的评测基准和高效训练方法。通讯作者是清华大学教授汪玉和博士后于超。


版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

二排有大屏还有高阶辅助驾驶 风云T9L明年一季度上市

网易汽车 浏览 1962

美方被指仍在追截第三艘油轮 并拟增派力量强行登船

环球网 浏览 1836

阿门:我之前一直是詹姆斯、威少和沃尔球迷,后来我喜欢隆多

懂球帝 浏览 2091

谢霆锋、王宝强、吴京要掀起新一波票房高潮

皮皮电影 浏览 1587

谁在重塑中国财富格局?AI前十强企业合计价值超1.8万亿,暴涨207%

时代周报 浏览 1594

旅行焕新价8.39万起 BJ30旅行家正式上市 新增7座布局

网易汽车 浏览 3263

比亚迪连续4个季度超越特斯拉

大象新闻 浏览 2740

周末重磅!特朗普关税突发,中美经贸磋商进展,下周三大事件

看财经show 浏览 2620

情报显示以军内部有证据表明其可能构成战争罪

北青网-北京青年报 浏览 2475

美媒披露:美空军8天内向中东地区调派至少42架重型运输机

环球网 浏览 1469

首发搭Momenta最强模型 上汽大众ID.ERA 9X突围9系红海

上海汽车报 浏览 508

我国建成全球最大可再生能源体系,十年来风光发电新增装机占六成

IT之家 浏览 2685

明年新能源汽车销量将超2000万辆

大象新闻 浏览 2032

AI改变金融系统,周小川、肖远企发声

中国基金报 浏览 2632

4月10日将举办技术发布会 蔚来ES9将在二季度上市

网易汽车 浏览 1674

图片报:格雷罗恢复训练并有机会出战霍村,莱默尔尚未参加

懂球帝 浏览 1390

连赢王曼昱+陈熠 42岁华裔掀翻世界第2+结束5连败 球迷:想念莎莎

风过乡 浏览 1700

40岁C罗确认:美加墨世界杯将是生涯最后1届!或2年后在沙特退役

我爱英超 浏览 2386

环球:荷兰不要低估中方维护正当权益的决心与能力

环球网资讯 浏览 6793

下一部新剧被曝又是大女主!杨紫真要拍不过来了

星寒新影视 浏览 1969

前TVB男星回应拒演电影《寻秦记》传闻

TVB剧评社 浏览 1607
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1