关闭广告

LLM 仅靠自身就能增强推理?SePT 给出简洁在线自训练范式

机器之心Pro1355人阅读



本文第一作者李梦琦为香港中文大学(深圳)计算机科学专业博士生。本项研究是与上海交通大学赵磊老师、香港中文大学苏文藻老师合作,并在香港中文大学(深圳)孙若愚老师与李肖老师的共同指导下完成。

在推理后训练里,多数方法仍依赖奖励模型、验证器或额外教师信号。如果不依赖这些外部信号,只使用模型自身生成的答案进行自训练,是否仍然能够提升推理能力?是的!SePT(Self-evolving Post-Training)给出肯定答案,简洁的自训练方法,可在数学推理任务准确率直升10个点!



版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

格列兹曼:媒体曾报道梅西对我不满,但比赛中他主动让点给我

懂球帝 浏览 4336

高校通报"食堂花生米黄曲霉毒素超标11倍":学生未食用

大风新闻 浏览 7531

房贷年利率从3.8变8.7 客户还款5年才发现猫腻

南京零距离 浏览 57409

AI设计出可杀灭细菌的功能性病毒,专家呼吁谨慎推进

IT之家 浏览 5106

窦骁何超莲国外被偶遇!女方冲浪心情大好,窦骁喝咖啡满脸愁容

萌神木木 浏览 3935

零跑D19定档10月16日,旗舰SUV全球首秀

网易汽车 浏览 5080

罗永浩被禁言后首亮相 现身B站颁奖典礼获年度新人奖

扬子晚报 浏览 7668

库克将正式卸任苹果CEO:创造4万亿帝国 访华达20次

澎湃新闻 浏览 30926

不好看的普通女生,如何让人误以为是美女?

Yuki女人故事 浏览 4479

卢浮宫一件被盗文物被发现已损毁 疑为欧仁妮皇后皇冠

极目新闻 浏览 8568

Altman放话:2028年,超级智能将超越人类

钛媒体APP 浏览 2530

50+妈妈冬季穿搭范本:“短羽绒服+阔腿裤”,保暖时髦不费力

静儿时尚达人 浏览 2983

尤文旧将阿莫鲁索:不能让伊尔迪兹独自承担赢球责任

懂球帝 浏览 4762

Nuralogix智能镜亮相CES,可看脸提供“长寿评分”

IT之家 浏览 3302

江苏省委省政府成立调查组 对南京博物院开展全面调查

北京日报客户端 浏览 31832

除了UGG,冬天还能穿什么?

时尚COSMO 浏览 2816

奥迪A8L和雷克萨斯LS或无后续全尺寸轿车接班!

凡兮说 浏览 4039

三星Galaxy Ring 2智能戒指爆料:续航突破9天、佩戴更舒适

IT之家 浏览 961

精锋医疗明日上市:募资12亿港元 腾讯与中东资本加持

雷递 浏览 3222

东北大妈140亿“黑金”豪门,彻底覆灭了

大猫财经Pro 浏览 3100

《不期而遇的生活》大结局:最圈粉的不是程心

潇洒的怂熊 浏览 3175
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1