关闭广告

LLM 仅靠自身就能增强推理?SePT 给出简洁在线自训练范式

机器之心Pro1576人阅读



本文第一作者李梦琦为香港中文大学(深圳)计算机科学专业博士生。本项研究是与上海交通大学赵磊老师、香港中文大学苏文藻老师合作,并在香港中文大学(深圳)孙若愚老师与李肖老师的共同指导下完成。

在推理后训练里,多数方法仍依赖奖励模型、验证器或额外教师信号。如果不依赖这些外部信号,只使用模型自身生成的答案进行自训练,是否仍然能够提升推理能力?是的!SePT(Self-evolving Post-Training)给出肯定答案,简洁的自训练方法,可在数学推理任务准确率直升10个点!



版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

限时先享价25.98万元 吉利银河M9黑金智曜版上市

网易汽车 浏览 1375

上汽销量反超比亚迪,真实“含金量”如何

经济观察报 浏览 4477

男生眼中最好看的女生排行榜TOP1

Yuki女人故事 浏览 4370

联合国官员:加沙教育系统状况是灾难性的

北青网-北京青年报 浏览 4398

福建籍女网红流落柬埔寨街头 毒品检测呈阳性

中国新闻周刊 浏览 7009

股价暴涨!又一超级风口来了?

财经锐眼 浏览 3353

美国务卿:希望泰柬下周停火

新华社 浏览 3652

奇才120-103尼克斯,巴格利18+11,亚布塞莱11分,克拉克森12分

懂球帝 浏览 4377

白山云霍涛:智能体时代,信任是比体验更高的「生死壁垒」

节点财经 浏览 3336

中企在非洲因环境问题引争议 遭800亿美元天价索赔

澎湃新闻 浏览 41861

多只明星基金减仓茅台,为啥茅台不被资本欢迎了?

江瀚视野 浏览 1160

女星陈匡怡怒斥台媒毁人名节,自曝写了遗书,拒绝富商追求遭抹黑

萌神木木 浏览 2996

多基金公司接到股债恒定ETF系统改造要求 新产品最快或于11月上报

财联社 浏览 4846

2天票房3亿,看完《疯狂动物城2》,我想说:好莱坞大片赌对了

娱乐圈笔娱君 浏览 3950

美媒:中美之间一个变化正在显现 欧盟总部相当纠结

环球时报国际 浏览 13759

沙溢自曝曾吃了狗吃过的面发烧三天

青杉依旧啊啊 浏览 3657

宝马iX3增9款涂装 国产长轴距版或年底上市

车质网 浏览 366

新加坡主权基金起诉蔚来,股价迎中、美、新“三国杀”!

野马财经 浏览 4382

纪念戴安基顿,伍迪艾伦最高杰作告别放映❤️

幕味儿 浏览 3339

5人违规穿越鳌太线3人遇难:为规避罚款手机调飞行模式

极目新闻 浏览 8268

王祖贤隐退真相曝光!王晶坦言两点

妙知 浏览 4375
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1