关闭广告

ICML2024高分!魔改注意力,让小模型能打两倍大的模型

量子位11180人阅读

彩云科技团队 投稿
量子位 | 公众号 QbitAI

改进Transformer核心机制注意力,让小模型能打两倍大的模型

ICML 2024高分论文,彩云科技团队构建DCFormer框架,替换Transformer核心组件多头注意力模块(MHA),提出可动态组合的多头注意力(DCMHA)。

DCMHA解除了MHA注意力头的查找选择回路和变换回路的固定绑定,让它们可以根据输入动态组合,从根本上提升了模型的表达能力。

可以近似理解为,原来每层有固定的H个注意力头,现在用几乎同样的参数量和算力,可按需动态组合出多至HxH个注意力头。

DCMHA即插即用,可在任何Transformer架构中替换MHA,得到通用、高效和可扩展的新架构DCFormer。



阅读全文
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

美媒列29岁的阿贾生涯荣誉:3次MVP&DPOY 2次总冠军&7次全明星

直播吧 浏览 1563

最快2025年上市 索尼与本田将联手打造三款新车

乐选爱车 浏览 12279

恩里克:我的球员今天表现得很出色,不过在结果上略有遗憾

懂球帝 浏览 108

乌情报高官:未来几天将对克里米亚发动更多袭击

澎湃新闻 浏览 14790

消息称SK海力士与英伟达达成HBM4供应协议,价格较上代上涨50%

IT之家 浏览 721

俄媒:乌军侦察小组渗透进入俄别尔哥罗德州实施破坏行动

参考消息 浏览 17177

【亚冠精英】阿苏埃头球路易斯建功 申花2比0首尔

体坛周报 浏览 933

国米vs凯拉特首发预测:巴雷拉踢后腰,劳塔罗继续首发搭皮奥

懂球帝 浏览 766

房地产还有没有未来?郁亮这样说……

《商业周刊/中文版》 浏览 16047

为什么总有人“关心”林依晨的婚姻?

扒圈818 浏览 15896

特朗普对全世界一视同仁,中美关系未必会更糟

浏览 23038

德转为金球奖竞争评级:登贝莱最被看好,亚马尔为最大竞争对手

直播吧 浏览 1591

9场9球,意甲刷新最低进球纪录?

体坛周报 浏览 923

特朗普呼吁立即停火 遭俄方坚决驳斥

财联社 浏览 977

美媒自揭赚钱套路:兜售高校排名“徽章”

环球网资讯 浏览 12488

什么?!你告诉我佘诗曼已经50岁了

时尚COSMO 浏览 570

其实,零百加速5秒的新规才是利好车企

速度计 浏览 577

张本智和打疯了!3-1完胜德国削球名将,全场吼叫不断!

乒谈 浏览 12148

赚走中国女人600亿 被官媒揭穿的"防晒衣"套路太深

金错刀 浏览 92338

花一个月工资买节日礼物,值吗?

时尚COSMO 浏览 252

美防长住进ICU五角大楼未及时通报 就连拜登都不知情

环球网资讯 浏览 73528
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1