关闭广告

港科大广州校区突破大模型训练瓶颈:让AI学习像数学考试高效

科技行者3114人阅读


这项由香港科技大学广州校区xLeaF实验室团队完成的研究于2026年2月发表在预印本平台,论文编号为arXiv:2601.23000v1。研究团队提出了一种名为Mano的全新优化器,能够大幅提升大型语言模型的训练效率,同时显著降低计算成本和内存消耗。

训练大型语言模型就像是在教授一个拥有数千亿个参数的超级大脑学习语言,这个过程需要消耗巨额的计算资源和电力。现有的训练方法就好比让学生用最笨拙的方式学习数学——要么只看到局部信息而忽视整体结构,要么过度追求完美而丢失了重要细节。当前最流行的AdamW优化器就像一个只会逐个检查每道题目的老师,完全忽略了题目之间的内在联系和整体规律。而另一种叫做Muon的优化器虽然能够统一处理所有维度的信息,但在这个过程中却丢失了宝贵的曲率信息,就像为了保持答题速度一致而忽略了题目的难易程度。

研究团队从一个全新的角度来思考这个问题。他们发现,传统的流形优化方法虽然在数学理论上很优美,但在实际的大模型训练中表现很差,这让很多研究者对这类方法失去了信心。然而,港科大的研究团队没有放弃,而是创新性地改造了这些方法。

他们的核心洞察是这样的

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

希金斯晋级斯诺克北爱赛八强

体坛周报 浏览 4323

王心凌吴克群暧昧19年爆热恋1年内飞4地约会

小霍霍 浏览 3186

高市早苗当选首相的"助攻手" 重点提携了"汉奸"石平

极目新闻 浏览 9374

恒瑞前董事长周云曙履新先声药业,曾在恒瑞工作超25年

YOUNG财经 浏览 3507

郑丽文再称"大陆是我们的亲人" 民进党直接跳脚

扬子晚报 浏览 9399

女鞋巨头,集体“脱鞋”谋变

斑马消费 浏览 3348

175款智慧康养机器人产品将亮相成都!记者提前探馆带你体验

红星新闻 浏览 4444

有大梁更能装也智能 奇瑞威麟R08 EV上市12.78万起

网易汽车 浏览 3202

自称窦骁前女友发声!内涵他目的性极强爱交富家女,很理解何超莲

萌神木木 浏览 4237

王健林“限高”已取消,万达知情人士最新回应

红星资本局 浏览 4846

伊朗一间谍组织被瓦解 其主要成员曾多次前往以色列

极目新闻 浏览 3250

配置提升 2026款丰田铂智3X将于今日上市

车质网 浏览 1181

新规在路上!基金销售要“变天”?

国际金融报 浏览 3758

17个街道年投入逾亿元 资质错配、服务动力不足何解?

南方都市报 浏览 3761

烂!58岁邹兆龙翻拍《怒火重案》,擦边卖肉制作粗糙,票房仅65万

靠谱电影君 浏览 3399

标杆的智能化进阶 试驾一汽-大众全新速腾L

车质网 浏览 4441

深圳“禁摩令”再续三年,至2028年

机车网 浏览 3774

AI抢产能、车厂抢内存,这场博弈中国车企如何破局?

百姓评车 浏览 3201

中国留学生在德国遭袭反击致对方受伤 警方认定"防卫"

红星新闻 浏览 6850

郭碧婷自曝和向佐两地分居

萌神木木 浏览 3745

跨年档12部新片来袭!没有大片全是情怀,55岁古天乐对打71岁成龙

萌神木木 浏览 3605
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1