关闭广告

LLM 仅靠自身就能增强推理?SePT 给出简洁在线自训练范式

机器之心Pro1352人阅读



本文第一作者李梦琦为香港中文大学(深圳)计算机科学专业博士生。本项研究是与上海交通大学赵磊老师、香港中文大学苏文藻老师合作,并在香港中文大学(深圳)孙若愚老师与李肖老师的共同指导下完成。

在推理后训练里,多数方法仍依赖奖励模型、验证器或额外教师信号。如果不依赖这些外部信号,只使用模型自身生成的答案进行自训练,是否仍然能够提升推理能力?是的!SePT(Self-evolving Post-Training)给出肯定答案,简洁的自训练方法,可在数学推理任务准确率直升10个点!



版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

硅谷的「十万大裁员」:Meta按代码量裁员

新智元 浏览 4171

被记者询问涉移民言论 德国总理回呛"问你们女儿去吧"

环球时报国际 浏览 11729

秋天怎么穿出时尚感?避开老气的着装方式,美得自然又大方

静儿时尚达人 浏览 3883

雷军:第一代小米SU7已停售!

大象新闻 浏览 2925

以色列允许部分学校复课 继续扩大黎南部地面行动

国际在线 浏览 2233

马克龙警告美国:侵犯格陵兰岛将引发"前所未有后果"

环球网资讯 浏览 14531

冲刺“开门红” 有银行理财公司0费率抢市场

中国商报 浏览 3128

蜜雪冰城开卖啤酒:价格5.9元至14.9元不等 只能外带

极目新闻 浏览 8351

弗兰克:球队的进攻还需要提升;希望在所有赛事都具有竞争力

懂球帝 浏览 4232

一家6口迪拜旅游被滞留 3个老人患病降压药得掰一半吃

大象新闻 浏览 37926

百年固特异的中国未来

网易汽车 浏览 3351

台大与中研院突破:新型防御技术实现AI深度内容遗忘

科技行者 浏览 3193

特朗普称取消与普京会晤并对俄实施新制裁 普京回应

每日经济新闻 浏览 7291

澳网最具看点女单比赛来了!莱巴金娜谈迎战斯瓦泰克:保持进攻

网球之家 浏览 3028

目送阿卡大满贯全四强,德米纳尔第七次卡八!

网球之家 浏览 3095

戴维斯被视为活塞头号目标 梭哈年轻资产仍存疑虑

体坛周报 浏览 3503

出海容易融入难:中国品牌出海的公关挑战与破局

金角财经 浏览 3079

郑爽近照曝光星味全无,家中装修豪华惊现儿童玩具,日子并不可怜

不八卦会死星人 浏览 3248

已获海港等队邀约,茹子楠表态站好梅州这班岗:拼到最后一秒

懂球帝 浏览 3853

开拓者7人上双114-95轻取篮网,阿夫迪亚18+6+5,克林根14+11

懂球帝 浏览 2212

“精准”归来:戴尔正式宣布推出"Pro Precision"工作站产品线

IT之家 浏览 2256
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1