关闭广告

LLM 仅靠自身就能增强推理?SePT 给出简洁在线自训练范式

机器之心Pro1574人阅读



本文第一作者李梦琦为香港中文大学(深圳)计算机科学专业博士生。本项研究是与上海交通大学赵磊老师、香港中文大学苏文藻老师合作,并在香港中文大学(深圳)孙若愚老师与李肖老师的共同指导下完成。

在推理后训练里,多数方法仍依赖奖励模型、验证器或额外教师信号。如果不依赖这些外部信号,只使用模型自身生成的答案进行自训练,是否仍然能够提升推理能力?是的!SePT(Self-evolving Post-Training)给出肯定答案,简洁的自训练方法,可在数学推理任务准确率直升10个点!



版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

日本新一代货运飞船 HTV-X 首飞,为国际空间站送“快递”

IT之家 浏览 4445

谁说何老师老了?!

时尚COSMO 浏览 4244

土耳其对内塔尼亚胡等人发出逮捕令 以色列回应

环球网资讯 浏览 4048

‍曼联向韦伯投诉裁判误判!曝阿莫林将用442,赛季成败在此一举

罗米的曼联博客 浏览 3821

中际旭创大股东拟高位减持22亿,机构持仓已提前“释压”

第一财经资讯 浏览 5023

卡什:阿卡辛纳这样“双马竞争”对网坛来说不是健康的事

网球之家 浏览 3439

会是后手奇兵吗?本届U23亚洲杯外场球员中仅毛伟杰还未出场

懂球帝 浏览 3311

荣耀MagicOS 10系统第四批内测招募开启,截至11月19日

IT之家 浏览 4295

北京105-74终结广东8连胜,曾凡博回归18分,徐杰伤退,萨姆纳35分

懂球帝 浏览 3621

一家6口迪拜旅游被滞留 3个老人患病降压药得掰一半吃

大象新闻 浏览 38116

洪秀柱警告日本别惹事:小日本不要太嚣张

北京日报 浏览 2666

记者:法比安-鲁伊斯因左膝伤势将会继续缺席巴黎与纽卡的比赛

懂球帝 浏览 3164

2027款AMG CLE63敞篷亮相 换装V8发动机

太平洋汽车 浏览 2790

特斯拉第三季度财报亮点:交付创新高,能源业务强势领跑

不看车bukanche 浏览 4192

P图只用一句话,小米超级小爱AI大模型“随心修图”上线

IT之家 浏览 4070

他们是“追逐声音的人”

上游新闻 浏览 4400

邮报:罗塞尼尔邀请麦克法兰加入切尔西一线队教练组

懂球帝 浏览 3374

张家界荒野求生热门选手退赛 连下一周雨致腿部冻伤

极目新闻 浏览 15981

每体:特尔施特根已进行轻度训练,但还需至少1个月康复

懂球帝 浏览 4264

暴跌超70%!"扫地机器人鼻祖"破产 中国债主或接盘

华尔街见闻官方 浏览 3650

法国宣布推出M51.3潜射弹道导弹 称其为“重大里程碑”

环球网资讯 浏览 4249
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1