关闭广告

港科大广州校区突破大模型训练瓶颈:让AI学习像数学考试高效

科技行者3115人阅读


这项由香港科技大学广州校区xLeaF实验室团队完成的研究于2026年2月发表在预印本平台,论文编号为arXiv:2601.23000v1。研究团队提出了一种名为Mano的全新优化器,能够大幅提升大型语言模型的训练效率,同时显著降低计算成本和内存消耗。

训练大型语言模型就像是在教授一个拥有数千亿个参数的超级大脑学习语言,这个过程需要消耗巨额的计算资源和电力。现有的训练方法就好比让学生用最笨拙的方式学习数学——要么只看到局部信息而忽视整体结构,要么过度追求完美而丢失了重要细节。当前最流行的AdamW优化器就像一个只会逐个检查每道题目的老师,完全忽略了题目之间的内在联系和整体规律。而另一种叫做Muon的优化器虽然能够统一处理所有维度的信息,但在这个过程中却丢失了宝贵的曲率信息,就像为了保持答题速度一致而忽略了题目的难易程度。

研究团队从一个全新的角度来思考这个问题。他们发现,传统的流形优化方法虽然在数学理论上很优美,但在实际的大模型训练中表现很差,这让很多研究者对这类方法失去了信心。然而,港科大的研究团队没有放弃,而是创新性地改造了这些方法。

他们的核心洞察是这样的

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

1月销量环比暴跌超20%!雷军:一季度本就是汽车销售淡季,且初代SU7已停售

商用车头条 浏览 3193

同比大涨 奕派科技2026年1月销量突破2.1万辆

网易汽车 浏览 3157

南部战区:中方参演部队已从军港出征

政知新媒体 浏览 4463

短剧女神郭宇欣让多少白幼瘦女星脸红?

娱乐圈笔娱君 浏览 4362

预售35万起 小鹏X9增程版终结MPV续航焦虑

网易汽车 浏览 4223

马筱梅首次公开孕肚!自曝生产全都自己安排,暗示对汪小菲失望

萌神木木 浏览 3426

国内油价今年第七涨重返9元时代 国际油价居高不下

上观新闻 浏览 91945

瓷器店里的蛮牛?非也! 兰博基尼在华20年成长路

网易汽车 浏览 4379

过了40岁才发现,衣柜里的“基础款”只要搭对了,简约又高级

静儿时尚达人 浏览 3244

驱动绿色智算 筑牢AIDC基石:华为携液冷热管理控制器TMU亮相2025CDCC大会

环球网资讯 浏览 3935

净利润暴增503倍!310亿“零食大王”,冲刺港股IPO

侃见财经 浏览 4519

【年度爱用】她们2025年买得最值的,是这些

黎贝卡的异想世界 浏览 3437

商竣程击败阿古特排名重返TOP300,袁悦输球后笑容被指输也是赢

网球之家 浏览 3319

继弯刀裤,阔腿裤之后,“围裹式长裤”突然大火!

LinkFashion 浏览 1633

澳网公布创纪录奖金池,史上最大奖金提升引发热议

网球之家 浏览 3575

晚点独家丨理想调整基座模型业务:詹锟接手,VLA 研发整合

晚点LatePost 浏览 3449

精致智能代步车 零跑A10还有激光雷达

网易汽车 浏览 3407

唐一军16年敛财1.37亿获无期 曾通过妻子大搞权钱交易

界面新闻 浏览 9288

10月汽车召回盘点|召回合计19.6万辆,以自主品牌召回

大象新闻 浏览 4149

兹维列夫脚踝受伤遭横扫,严重肿胀紧急求医,总决赛征程蒙上阴影

网球之家 浏览 4310

佘诗曼《新闻女王2》首波口碑出炉了!现场观众的评价一针见血

娱乐圈笔娱君 浏览 4181
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1