关闭广告

ICML2024高分!魔改注意力,让小模型能打两倍大的模型

量子位11175人阅读

彩云科技团队 投稿
量子位 | 公众号 QbitAI

改进Transformer核心机制注意力,让小模型能打两倍大的模型

ICML 2024高分论文,彩云科技团队构建DCFormer框架,替换Transformer核心组件多头注意力模块(MHA),提出可动态组合的多头注意力(DCMHA)。

DCMHA解除了MHA注意力头的查找选择回路和变换回路的固定绑定,让它们可以根据输入动态组合,从根本上提升了模型的表达能力。

可以近似理解为,原来每层有固定的H个注意力头,现在用几乎同样的参数量和算力,可按需动态组合出多至HxH个注意力头。

DCMHA即插即用,可在任何Transformer架构中替换MHA,得到通用、高效和可扩展的新架构DCFormer。



阅读全文
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

科学家证实,中国“天眼”锁定F22绝非意外

浏览 11024

足球报:下一个可能退出的大概率是河北队,球队冬训靠球员自费

直播吧 浏览 19488

这P图技术如何?格雷茨卡社媒晒图,P上了舒波-莫廷

直播吧 浏览 19146

《画皮》剧组,周迅刚刚站起来,赵薇上去对着她的椅子就是一脚

趣看热点 浏览 26284

日媒:中国呼吁公民暂缓赴日的措施 超出了日本预期

扬子晚报 浏览 41180

说你点啥好呢?维金斯替补23分钟 8中2仅拿5分&正负值低至-29

直播吧 浏览 12590

苹果CEO库克抖音首秀直播带货,iPhone Air国行版10月17日开启预售

环球网资讯 浏览 1034

李在明送特朗普的金冠是镀金的 纯金太贵得花150万元

极目新闻 浏览 6236

美媒:美国欲在中东部署更多“海上机器人”

参考消息 浏览 18921

和任正非聊一聊,会有新品牌?

道哥说车 浏览 1052

奥恰洛夫谈击败张本智和:我打出了顶级水准,自己也有些意外

懂球帝 浏览 660

短剧翻拍《新英雄本色》,刘萧旭主演?

最爱酷影视 浏览 1031

中国2023年12月规模以上工业增加值同比增长6.8%

国家统计局 浏览 12797

爱德华兹像乔丹又实锤了? 火箭名宿:没人像乔丹但我喜欢华子

仰卧撑FTUer 浏览 1014

中国大厂竞逐GPU,字节今年订购超10亿美元

晚点LatePost 浏览 15871

杨振宁在京逝世死因披露 与妻子翁帆最后合影流出

乌娱子酱 浏览 4418

自动驾驶将迎来巅峰对决

禾颜阅车 浏览 553

天籁出新款,鸿蒙座舱+燃油车,合资新出路来了?

Nice好车 浏览 1550

大陆发射卫星后台当局发布全岛警报 外交部回应

外交部网站 浏览 74132

“格雷系”接手时尚,高级“智感”扑面而来!

伊周潮流 浏览 13281

专家:特朗普"搬起石头砸波音脚" 他应该是疯了

澎湃新闻 浏览 6316
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1