关闭广告

NYU研究揭示:模型宽度与能力非线性相关

科技行者4064人阅读


当我们使用ChatGPT或其他大语言模型时,可能很少想过这样一个问题:这些模型内部那些看似强大的组件,真的在高效地工作吗?就像一家大公司虽然员工众多,但可能存在大量的"摸鱼"现象一样,人工智能模型内部也可能存在类似的资源浪费问题。

纽约大学的研究团队Nandan Kumar Jha和Brandon Reagen在2025年10月发表的这项研究,就像给大语言模型做了一次"内部审计",专门检查模型中一个关键组件——前馈网络的工作效率。这项发表在arXiv预印本平台的研究(论文编号:arXiv:2510.00537v1),首次系统性地揭示了一个令人意外的现象:当我们让这些网络变得更宽时,新增的容量大多数都被浪费了。

这就好比一个餐厅的厨房,老板以为增加更多的炉灶就能提高出菜效率,但实际情况却是新增的炉灶大多数时间都在闲置,真正发挥作用的仍然是那几个核心炉灶。研究团队通过一套巧妙的"检测工具",发现了大语言模型中存在的这种"不对称浪费"现象,这个发现可能会彻底改变我们设计和优化人工智能模型的方式。

一、什么是前馈网络,为什么它如此重要?

阅读全文
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

《太平年》演员演技排名,朱亚文第6,梅婷第3,第1众望所归

娱乐圈笔娱君 浏览 3090

贺娇龙被安葬在父亲身边 昭苏居民:她对昭苏功不可没

潇湘晨报 浏览 12677

蔡少芬结婚18周年,与张晋过二人世界

侦探娱乐 浏览 3201

男子凌晨打车嫌98元车费太贵 和的哥在派出所耗到天亮

环球网资讯 浏览 8675

每体:老佛爷想立即解雇阿隆索,但身边人士说服他不让其下课

懂球帝 浏览 3507

央视《老舅》播1天,全国收视第一,不愧是我苦苦盼了2年的年代剧

娱乐圈笔娱君 浏览 3505

又见借媒体之手维权,事后要求删稿…

深蓝财经 浏览 3047

上市1月破发20%!“空调屠夫”奥克斯,对不起基石投资者

深蓝财经 浏览 4268

票房破13亿,只是个开始

皮皮电影 浏览 4558

冬季的“松弛感”,怎么穿?

Yuki女人故事 浏览 3898

尘埃落定!全部划归国资!许家印的“御用包工头”被掏空家底

壹只灰鸽子 浏览 4321

14岁少年强奸杀害女同学被判无期 奶奶受刺激闭门不出

潇湘晨报 浏览 31126

田中碧:日本球员水平在提升,想知道与巴西的差距就得比一场

懂球帝 浏览 4385

内讧了,郭昊文&赵柏清刚开场就激情对喷,随后双双被DNP

懂球帝 浏览 2191

辽宁加时95-82江苏,赵继伟16+7+8,威尔斯21分

懂球帝 浏览 2952

不一样的温子仁,最后时刻大反转!

电影最TOP 浏览 3248

中国男排主帅海宁现身全运会,称需建立不同于女排的培养体系

懂球帝 浏览 3939

持续烧钱的大模型,阻挡不了AI行业的热情

蓝鲸新闻 浏览 3408

11国将承认巴勒斯坦国之际 美国追加60亿美元对以军售

界面新闻 浏览 22224

帽子选对,风格翻倍!冬日造型点睛术

Yuki女人故事 浏览 3065

伊朗竖起巨幅宣传画:一艘美军航母被炸

每日经济新闻 浏览 3047
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1