关闭广告

清华大学团队NeurIPS 2025文章分析 RL 与 SFT 泛化性差异

机器之心Pro2977人阅读



在具身智能领域,视觉 - 语言 - 动作(VLA)大模型正展现出巨大潜力,但仍面临一个关键挑战:当前主流的有监督微调(SFT)训练方式,往往让模型在遇到新环境或任务时容易出错,难以真正做到类人般的泛化。但在大语言模型(LLM/VLM)领域,强化学习(RL)已被证明能显著提升模型的泛化能力。RL 究竟能为 VLA 带来哪些独特的泛化优势?与 SFT 相比,它们的优劣势分别体现在哪里?

来自清华大学的研究团队在 NeurIPS 2025 发表文章,首次系统性地揭示了强化学习(RL)在提升 VLA 泛化能力上的独特优势,并带来了一套全面的评测基准和高效训练方法。通讯作者是清华大学教授汪玉和博士后于超。


版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

“安我股保”假保险的真骗局 传销式推广暗藏陷阱

北京商报 浏览 2228

马竞重新投入训练备战贝蒂斯,卡多佐是唯一缺席训练的球员

懂球帝 浏览 2639

三代蔚来ES8最让车主感到遗憾的事情,就是砍掉老款的75kwh电池包

大志聊车 浏览 1522

铜梁融媒:U16国足已抵达重庆备战,全力冲刺U17亚洲杯预选赛

懂球帝 浏览 2492

E句话| 这俩的婚纱照,还挺甜?

仙女事件簿 浏览 2775

涪陵榨菜的创业者们陆续退场

斑马消费 浏览 3125

泰晤士报:阿森纳关注卢克巴和利夫拉门托;贝尔塔想清理冗员

懂球帝 浏览 534

重磅 | 2025中国消费年度智能创新名录揭晓:揭开消费增长的“虚与实”

第一财经商业数据中心 浏览 1526

黄金价格回调ETF热度不减 不同跟踪标的下黄金ETF涨跌区别在哪儿?

金证研 浏览 2582

赫斯基:斯洛特应该调整战术体系,将萨拉赫撤出首发

懂球帝 浏览 2702

明年上市 金标大众首款轿车 与众07申报信息发布

网易汽车 浏览 2845

朱孝天方回应被踢出F4,刚合体时就挺不合群,如今开公司当老板

萌神木木 浏览 2474

普通人如何“偷偷”变美?她的4个微习惯很好抄

黎贝卡的异想世界 浏览 1498

皇马巴萨决裂:佛爷&拉波尔塔取消午餐会 卡瓦哈尔愤怒约谈亚马尔

风过乡 浏览 2649

三人伪装"外卖员""钓鱼佬"窃取军事秘密 详情公布

扬子晚报 浏览 3562

独栋别墅被拆除业主原地偷建 城管局:他"打游击"施工

扬子晚报 浏览 11851

阿里达摩院推出电商智能体全面测试基准

科技行者 浏览 1748

宋伊人新剧被传谣,是要逼人“剖腹取粉”吗?

麻辣婊 浏览 2378

唐嫣客串新剧遭群嘲!戴假发被吐槽像女装大佬,疑和马思纯抢番位

萌神木木 浏览 1868

别这样P图了,真的好假!

Yuki女人故事 浏览 1948

特斯拉2025年交付量跌逾8%至164万辆

澎湃新闻 浏览 1760
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1