关闭广告

o1之后下一个范式?隐式CoT大突破,让推理不再「碎碎念」

机器之心Pro3373人阅读



魏熙林为本篇文章第一作者。魏熙林是复旦大学博士生,师从林达华教授,研究兴趣主要集中在 multi-modal LLMs 和 efficient AI。目前在上海人工智能实验室实习,指导 mentor 是臧宇航、王佳琦。

今天推荐一个 Implicit Chain-of-Thought(隐式推理) 的最新进展 ——SIM-CoT(Supervised Implicit Chain-of-Thought)。它直击隐式 CoT 一直「扶不起来」的核心痛点:隐式 token 一旦 scale 上去,训练就容易塌缩到同质化的 latent 状态,推理语义直接丢失。

SIM-CoT 的关键招式是一个 plug-and-play 的 step-level 监督模块:训练时用辅助解码器把每个 latent token「拉回」到可对齐的推理步骤上,既稳住优化、避免 collapse,又让隐式推理第一次真正可解释 —— 你甚至能把每个 latent token 解码成人类可读的中间推理步骤。

更爽的是:推理阶段零额外开销(辅助解码器训练完就丢),但效果却很猛:在 GPT-2 上相

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

媒体:俄乌战场“飞出”的无人机 为何让欧洲如此忧惧

极目新闻 浏览 6527

Robotaxi发生伤人事故 哈啰出行自动驾驶业务暂停运营

界面新闻 浏览 21675

秋天衣服没有必要买太多!这三款单品提前备好,百搭又不挑人

静儿时尚达人 浏览 4646

死磕影像十一年:vivo探索另一种可能

远川研究所 浏览 4545

推广中奖名单-更新至2025年10月25日推广

黎贝卡的异想世界 浏览 4350

记者:津门虎0-5埃尔切,下半场替补战对方几乎全主力连失5球

懂球帝 浏览 3262

国投瑞银被起诉背后

时代周报 浏览 3469

蔚来乐道L60马到成功版上市:专属主题豪华内饰、车机,21.89万元

IT之家 浏览 3440

球迷态度:CBA第一阶段结束,你对你的主队表现满意吗?

懂球帝 浏览 3334

以2.5吨白银建造的湖南“永兴银楼”被拍卖,其中1.75吨纯银折算1204.7万元,每克仅6.88元“白菜价”,委托方回应

极目新闻 浏览 3390

首个有期徒刑正式宣判,恒大、中植“关键人”一个都跑不了!

深蓝财经 浏览 4353

皮尔斯:如果我和詹姆斯年纪相同,他绝对不可能拿到4座冠军

懂球帝 浏览 4540

增持回购潮背后的A股信心

北京商报 浏览 4120

83亿港元“互持”,顺丰与极兔的双向奔赴能否实现1+1>2?

征探财经 浏览 3494

2026年春晚分会场官宣 周深肖战刘宇宁令人期待

你我话娱乐 浏览 2962

事业单位招考2名临聘人员进面试 网友质疑是"萝卜岗"

潇湘晨报 浏览 13497

快手“午夜惊魂”,4亿用户信任一夜崩塌

深蓝财经 浏览 3833

薛鹤翔:马士基开舱偏低,打乱旺季预期节奏

首席经济学家论坛 浏览 4320

中国对稀土相关技术实施出口管制

财联社 浏览 20713

这些韩系穿搭最适合普通人!多穿深色、衣服基础,简洁耐看

静儿时尚达人 浏览 3414

清华大学团队NeurIPS 2025文章分析 RL 与 SFT 泛化性差异

机器之心Pro 浏览 4864
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1