关闭广告

港科大广州校区突破大模型训练瓶颈:让AI学习像数学考试高效

科技行者3120人阅读


这项由香港科技大学广州校区xLeaF实验室团队完成的研究于2026年2月发表在预印本平台,论文编号为arXiv:2601.23000v1。研究团队提出了一种名为Mano的全新优化器,能够大幅提升大型语言模型的训练效率,同时显著降低计算成本和内存消耗。

训练大型语言模型就像是在教授一个拥有数千亿个参数的超级大脑学习语言,这个过程需要消耗巨额的计算资源和电力。现有的训练方法就好比让学生用最笨拙的方式学习数学——要么只看到局部信息而忽视整体结构,要么过度追求完美而丢失了重要细节。当前最流行的AdamW优化器就像一个只会逐个检查每道题目的老师,完全忽略了题目之间的内在联系和整体规律。而另一种叫做Muon的优化器虽然能够统一处理所有维度的信息,但在这个过程中却丢失了宝贵的曲率信息,就像为了保持答题速度一致而忽略了题目的难易程度。

研究团队从一个全新的角度来思考这个问题。他们发现,传统的流形优化方法虽然在数学理论上很优美,但在实际的大模型训练中表现很差,这让很多研究者对这类方法失去了信心。然而,港科大的研究团队没有放弃,而是创新性地改造了这些方法。

他们的核心洞察是这样的

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

“这顶帽子”太火了,今年流行的风格都离不开它

LinkFashion 浏览 3234

男子租车遇划痕被车主索赔900元 报警后赔偿立减400元

大风新闻 浏览 36702

以后请叫甄子丹为超级丹

港剧叔 浏览 4617

MSC咨询合伙人金霞:可持续发展+AI,重构商业增长范式

南方都市报 浏览 4208

伊朗军官:美以不再能随心所欲结束战争

央视新闻客户端 浏览 2515

让“死嘴”会说多说,不太好听又如何

时尚COSMO 浏览 4145

五月天力捧台独艺人惹争议!

萌神木木 浏览 4397

辽宁舰正常演训 日本为何炒作所谓“雷达照射”问题

澎湃新闻 浏览 3751

新年资金入市!超450亿公募资金到位,“万亿活水”在路上

券商中国 浏览 3404

46岁董璇被曝怀二胎,本人现身机场脱外套辟谣,小腹平坦状态超好

扒虾侃娱 浏览 4360

新角色?詹姆斯复出后或成湖人老三 变身加强版追梦更利好紫金军

罗说NBA 浏览 4300

小萨博尼斯适合勇士吗? 三大缺点阻碍他加盟

仰卧撑FTUer 浏览 3634

业余球手夺一球致胜冠军!高芙贡献名面,周杰伦球都没碰到就出局

网球之家 浏览 3355

76岁欢喜哥去世!众星悼念

查尔菲的笔记 浏览 4281

涉中国电动汽车,美交通部长称“加拿大会后悔”,外国网友回怼:该后悔的是美国吧!

海外网 浏览 3265

特朗普称印度将"购买委内瑞拉石油" 印度国内反应强烈

环球时报国际 浏览 6671

米兰冬奥中国体育代表团领奖装备亮相,藏着李宁的奥运“双胜”叙事

时代周报 浏览 4481

米体:伊尔迪兹想加薪,最起码薪水要和乔纳森-戴维接近

懂球帝 浏览 4539

柬埔寨"太子集团"资产又遭冻结 豪车公寓总值超35亿元

红星新闻 浏览 15980

TA:曼联今夏额外借贷1.05亿镑用于引援,目前总债务6.37亿镑

直播吧 浏览 5136

5年20款新50万辆野心:现代汽车在内卷中寻找"确定性"

网易汽车 浏览 1343
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1