关闭广告

LLM 仅靠自身就能增强推理?SePT 给出简洁在线自训练范式

机器之心Pro1711人阅读



本文第一作者李梦琦为香港中文大学(深圳)计算机科学专业博士生。本项研究是与上海交通大学赵磊老师、香港中文大学苏文藻老师合作,并在香港中文大学(深圳)孙若愚老师与李肖老师的共同指导下完成。

在推理后训练里,多数方法仍依赖奖励模型、验证器或额外教师信号。如果不依赖这些外部信号,只使用模型自身生成的答案进行自训练,是否仍然能够提升推理能力?是的!SePT(Self-evolving Post-Training)给出肯定答案,简洁的自训练方法,可在数学推理任务准确率直升10个点!



版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

英国正为乌克兰研发新型导弹:可深入打击俄境内目标

环球网资讯 浏览 3500

零下30度,续航1500公里!奇瑞固态电池车要来了

象视汽车 浏览 3289

机密报记者:苏契奇因纪律问题落选国王杯大名单

懂球帝 浏览 3980

49岁舒淇终于承认不孕,备孕9年无果一度抑郁

小娱乐悠悠 浏览 4188

视频丨俄称战场进展迅速 乌称面临严峻挑战

国际在线 浏览 3830

绿色+棕色,今年秋天最美配色!

LinkFashion 浏览 6733

一夜之间,矛盾又升级了!

米筐投资 浏览 4525

比阔腿裤还时髦?今年夏天一定要有“这条裤子”,减龄又松弛

LinkFashion 浏览 1485

iPhone17在中国卖爆,苹果成为全球手机出货第一

观察者网 浏览 3489

伊称3天内完成核协议草案 美最大核动力航母进入地中海

环球网资讯 浏览 2895

官方:亚美尼亚和格鲁吉亚将联合举办2029年U20世界杯

懂球帝 浏览 1535

在这里,我们拍到了雪原上的一抹瑞红

时尚COSMO 浏览 2848

活塞125-107大胜篮网豪取5连胜,坎宁安34+10,杜伦30分

懂球帝 浏览 4335

偶像的力量!锡安:普尔最爱艾弗森 他的突破有AI的影子

仰卧撑FTUer 浏览 4530

记者:切尔西已经向塞门约经纪团队进行了初步询价

懂球帝 浏览 3769

美国政府效率部提前解散

北京商报 浏览 4011

乌武装部队总参谋部通报:乌俄一天交战近250次

环球网资讯 浏览 4286

面相变了!看活动上“挂脸”的杨幂,才懂林永健对她的评价

娱乐圈笔娱君 浏览 4510

理发店主阻拦城管撕广告 冲突中被1名胖城管咬伤手指

大风新闻 浏览 6682

能把埃尔法打下神坛?智界V9申报图曝光 定价50万左右

网易汽车 浏览 3562

3天破24.3亿中美观众不买账,《哪吒2》年冠稳了

靠谱电影君 浏览 3736
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1