关闭广告

NYU研究揭示:模型宽度与能力非线性相关

科技行者4248人阅读


当我们使用ChatGPT或其他大语言模型时,可能很少想过这样一个问题:这些模型内部那些看似强大的组件,真的在高效地工作吗?就像一家大公司虽然员工众多,但可能存在大量的"摸鱼"现象一样,人工智能模型内部也可能存在类似的资源浪费问题。

纽约大学的研究团队Nandan Kumar Jha和Brandon Reagen在2025年10月发表的这项研究,就像给大语言模型做了一次"内部审计",专门检查模型中一个关键组件——前馈网络的工作效率。这项发表在arXiv预印本平台的研究(论文编号:arXiv:2510.00537v1),首次系统性地揭示了一个令人意外的现象:当我们让这些网络变得更宽时,新增的容量大多数都被浪费了。

这就好比一个餐厅的厨房,老板以为增加更多的炉灶就能提高出菜效率,但实际情况却是新增的炉灶大多数时间都在闲置,真正发挥作用的仍然是那几个核心炉灶。研究团队通过一套巧妙的"检测工具",发现了大语言模型中存在的这种"不对称浪费"现象,这个发现可能会彻底改变我们设计和优化人工智能模型的方式。

一、什么是前馈网络,为什么它如此重要?

阅读全文
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

林子烨:被粉丝捧成“小张凌赫”,一场活动就塌房?

八卦三缺一 浏览 1586

梅克斯:多梅内克执教法国队时,根据球员的星座来排首发

懂球帝 浏览 4413

《人之初》大结局,重排演员演技:萨日娜第五,徐百慧第二

娱乐圈笔娱君 浏览 3466

今年夏天最流行的衣服竟然是它?高级又好看!

LinkFashion 浏览 526

山西没张宁真不行!首节本土挂0,诺威尔无法激发,进攻极不流畅

篮球资讯达人 浏览 3382

终结5连败!鲍威尔24分热火力克篮网 热巴8+17小波特28分

醉卧浮生 浏览 3589

470场,格列兹曼追平科利亚尔并列马竞队史出场榜第5名

懂球帝 浏览 3728

特朗普称让美国大型石油公司进入委内瑞拉

界面新闻 浏览 3492

杠上了!皇马与西甲争议盘点:点球未判、突遭药检、首轮延期被拒

直播吧 浏览 5090

多只宠物中毒死亡11人提起刑附民诉讼 投毒者获刑4年

红星新闻 浏览 8694

AI是繁荣还是泡沫?哈佛学者剖析OpenAI千亿交易背后的风险

硅星人 浏览 4504

中美两军在夏威夷见面 中方当场划下两条"红线"

看看新闻Knews 浏览 51560

铜梁龙李镇全谈冲超:有这么多人支持我们,为什么不能冲超?

懂球帝 浏览 4160

牵手长安汽车,京东、宁德时代继续拓新

观察者网 浏览 4525

从一季报看赛力斯的价值密码

锦缎研究院 浏览 1187

《阿凡达3》不及预期,3个小时全是野人乱跑,排片降了不被看好

萌神木木 浏览 3625

媒体:泰军缴获柬军中国制造反坦克导弹 有人阴阳怪气

新民周刊 浏览 14370

守护行人安全 四川省人大代表韩华亮建议:制定管理细则,提高电动车违法成本|代表在这里

封面新闻 浏览 3179

李立群回应三个孩子都没结婚

大眼妹妹 浏览 4020

郑丽文上任3天《人民日报》发文促统 郑丽文判断没错

时时有聊 浏览 9730

美乌代表:佛州会谈"富有成效和建设性"

上观新闻 浏览 3697
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1