关闭广告

NYU研究揭示:模型宽度与能力非线性相关

科技行者2618人阅读


当我们使用ChatGPT或其他大语言模型时,可能很少想过这样一个问题:这些模型内部那些看似强大的组件,真的在高效地工作吗?就像一家大公司虽然员工众多,但可能存在大量的"摸鱼"现象一样,人工智能模型内部也可能存在类似的资源浪费问题。

纽约大学的研究团队Nandan Kumar Jha和Brandon Reagen在2025年10月发表的这项研究,就像给大语言模型做了一次"内部审计",专门检查模型中一个关键组件——前馈网络的工作效率。这项发表在arXiv预印本平台的研究(论文编号:arXiv:2510.00537v1),首次系统性地揭示了一个令人意外的现象:当我们让这些网络变得更宽时,新增的容量大多数都被浪费了。

这就好比一个餐厅的厨房,老板以为增加更多的炉灶就能提高出菜效率,但实际情况却是新增的炉灶大多数时间都在闲置,真正发挥作用的仍然是那几个核心炉灶。研究团队通过一套巧妙的"检测工具",发现了大语言模型中存在的这种"不对称浪费"现象,这个发现可能会彻底改变我们设计和优化人工智能模型的方式。

一、什么是前馈网络,为什么它如此重要?

阅读全文
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

夸克上线千问助手,使用阿里Qwen最强大模型

IT之家 浏览 2406

癌症晚期男子驾车撞死婆孙2人后病亡 法院判赔超200万

台州交通广播 浏览 1629

当年最红的女明星,“孤苦伶仃”?

Yuki女人故事 浏览 1703

克林顿夫妇将就爱泼斯坦案出庭作证 特朗普发声

极目新闻 浏览 103431

1.86亿,压垮王健林的最后一根稻草?

功夫财经 浏览 2833

外媒:安世半导体已暂停向中国工厂供应晶圆

澎湃新闻 浏览 13489

“V领毛衣”今年秋天爆火!知识分子风、老钱风都少不了它

LinkFashion 浏览 2828

男子在狱中病亡14年后获宣告无罪 家属上坟:平反了

澎湃新闻 浏览 21601

生物芯片上海国家工程研究中心四川分中心在成都揭牌

封面新闻 浏览 2731

五到十二:财务管理不善如何将狼队置于危险境地

绿茵情报局 浏览 1509

特朗普下令重启核试验 美官员称暂不含核爆炸

中国国情 浏览 2550

特朗普:我若遭到暗杀 美国将把伊朗“从地球上抹去”

扬子晚报 浏览 1498

天才少年姚顺雨入职腾讯后首次公开发声

21世纪经济报道 浏览 1693

章泽天最新创业,轰动全网!评论区疯狂点名刘强东

财通社 浏览 1317

牛弹琴:巴基斯坦最近让人刮目相看 美国出现重大转向

北京日报客户端 浏览 35493

性价比最高的MacBook来了!苹果把iPhone处理器塞进笔记本里

快科技 浏览 2718

隐退4年后,张一鸣久违现身!互联网大佬正集体杀回

深蓝财经 浏览 2815

2025秋冬大衣流行趋势

LinkFashion 浏览 2684

48岁袁泉素颜逛商场被拍,口罩遮半脸仍一眼认出

小徐讲八卦 浏览 1922

冠军魔咒再应验,高芙总决赛屡屡被报一箭之仇,黯然出局

网球之家 浏览 2384

别小看这几小事,坚持到过年那状态得有多好啊?

黎贝卡的异想世界 浏览 1618
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1