爆点资讯

当我们使用ChatGPT或其他大语言模型时，可能很少想过这样一个问题：这些模型内部那些看似强大的组件，真的在高效地工作吗？就像一家大公司虽然员工众多，但可能存在大量的"摸鱼"现象一样，人工智能模型内部也可能存在类似的资源浪费问题。

纽约大学的研究团队Nandan Kumar Jha和Brandon Reagen在2025年10月发表的这项研究，就像给大语言模型做了一次"内部审计"，专门检查模型中一个关键组件——前馈网络的工作效率。这项发表在arXiv预印本平台的研究（论文编号：arXiv:2510.00537v1），首次系统性地揭示了一个令人意外的现象：当我们让这些网络变得更宽时，新增的容量大多数都被浪费了。

这就好比一个餐厅的厨房，老板以为增加更多的炉灶就能提高出菜效率，但实际情况却是新增的炉灶大多数时间都在闲置，真正发挥作用的仍然是那几个核心炉灶。研究团队通过一套巧妙的"检测工具"，发现了大语言模型中存在的这种"不对称浪费"现象，这个发现可能会彻底改变我们设计和优化人工智能模型的方式。

一、什么是前馈网络，为什么它如此重要？

阅读全文

NYU研究揭示：模型宽度与能力非线性相关

日本计划部署...

是否以入选英...

苹果正在为其...

还没从上周财...

“苏超”MV...

奥迪“掀桌了...

法尔克：皇马和切尔西将争夺于帕，签字费是他与拜仁续约障碍

于正怒了！状告百万网红大V索赔50万

NCAA常规赛：俄勒冈85-88失利，林葳14中8砍新高23分+三分绝平

男子认亲1年后被警方告知＂亲哥找到了＂：那家里的是谁

迎来复兴曙光全新奔驰S级轿跑车假想图曝光

加里-麦卡利斯特：林德斯是纯粹的足球人；杰拉德还会再执教

解放军代表质问日防卫大臣:日本何时道歉

BIO-FORUM 2025 蓄势待发｜聚焦生物医药前沿技术，共建全球创新合作生态

戴墨镜出席达沃斯会议后马克龙的支持率提升

航行警告：渤海部分海域进行军事演习

见好就收？年末基金“攻守战”，基金经理操作不一

TA：世界杯美国队首战门票销量堪忧，甚至远不如同一场地伊朗的比赛

能把埃尔法打下神坛？智界V9申报图曝光定价50万左右

姆巴佩全新＂吹笛子＂庆祝动作亮相称小时候曾学过长笛

新世代BMW iX3长轴距版如何诠释＂可持续的豪华”

谁在豪赌具身智能？

存量围城：险资疯抢REITs入场券

直播电商迈步“全链条监管”

官方：尤文签下曼城19岁前锋奥博阿夫沃多，球员将加入新一代

刚刚，锂电闯出一只独角兽，横扫订单170亿！

零跑业绩向好朱江明持股增加

书记戴的AI眼镜全网刷屏！今年东博会这个含量“爆表”

B81 2.0共创版亮相北京越野开启共创模式新实践

新研究让大模型学会主动追问，人机协作效果大幅提升