关闭广告

NYU研究揭示:模型宽度与能力非线性相关

科技行者808人阅读


当我们使用ChatGPT或其他大语言模型时,可能很少想过这样一个问题:这些模型内部那些看似强大的组件,真的在高效地工作吗?就像一家大公司虽然员工众多,但可能存在大量的"摸鱼"现象一样,人工智能模型内部也可能存在类似的资源浪费问题。

纽约大学的研究团队Nandan Kumar Jha和Brandon Reagen在2025年10月发表的这项研究,就像给大语言模型做了一次"内部审计",专门检查模型中一个关键组件——前馈网络的工作效率。这项发表在arXiv预印本平台的研究(论文编号:arXiv:2510.00537v1),首次系统性地揭示了一个令人意外的现象:当我们让这些网络变得更宽时,新增的容量大多数都被浪费了。

这就好比一个餐厅的厨房,老板以为增加更多的炉灶就能提高出菜效率,但实际情况却是新增的炉灶大多数时间都在闲置,真正发挥作用的仍然是那几个核心炉灶。研究团队通过一套巧妙的"检测工具",发现了大语言模型中存在的这种"不对称浪费"现象,这个发现可能会彻底改变我们设计和优化人工智能模型的方式。

一、什么是前馈网络,为什么它如此重要?

阅读全文
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

马苏重提为帮李小璐陷事业瓶颈:感谢难忘的经历

樱桃说 浏览 19310

张伟丽不在状态被ko了_张伟丽被对手罗斯抓住机会

趣看热点 浏览 26097

官宣:vivo成为杭州亚运会官方手机

网易科技报道 浏览 16507

香港女星晒海外大别墅,不拍戏专注内地当网红

扒圈818 浏览 19332

以军一天内93次袭击加沙致70人死亡

国际在线 浏览 1032

美联储如期暂停加息 暗示还会再加两次

网易财经 浏览 16143

被许家印坑得最惨的大佬,资产清零了

大猫财经Pro 浏览 723

陈建州晒家人住院照喊话要平安,不惧大牙指控

盖饭娱乐官方号 浏览 14993

收下这份巨显脸小的法式发型指南,时髦又好打理

In风尚 浏览 16007

五角大楼被指欲购书供美军飞行员学习 名单现中国兵书

环球网资讯 浏览 68069

中纪委评论你好李焕英具体是怎么说的?

趣看热点 浏览 26289

暗指特斯拉?保时捷称电动汽车单踏板驾驶效率不高

智车情报局 浏览 19632

娃哈哈饮用水公司从宏胜系手中拿回桶装水销售权

澎湃新闻 浏览 1063

孙铭徽赛季总助攻307次继续领跑国内球员榜 赵继伟居次&高诗岩第3

直播吧 浏览 19441

英国肯辛顿宫首次发布术后的凯特官方照 王妃神采奕奕

译言 浏览 69938

俄乌双方表示击落对方多架无人机

海外网 浏览 14426

多只宠物中毒死亡11人提起刑附民诉讼 投毒者获刑4年

红星新闻 浏览 5011

马祖拉:没人能防住东欧 他们一定会得分的 要把比赛看作一个整体

直播吧 浏览 10705

西芒杜铁矿石准备装船,榨取中国钢企利益的时代该结束了

北向财经 浏览 721

报道称明年AI芯片产量拟提高两倍,寒武纪尾盘拉升,深夜“严正声明”:不实

华尔街见闻官方 浏览 227

小S复出拿奖瞬间泪崩,多次提及姐姐大S求保佑

萌神木木 浏览 906
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1