关闭广告

清华大学提出NHA:让AI语言模型既快又准的"双重记忆"新架构

科技行者2537人阅读


这项由清华大学杜举森、胡佳熹、张涛教授,上海人工智能实验室孙维高研究员,以及香港中文大学程余教授共同完成的研究发表于2025年10月的arXiv预印本平台,论文编号为arXiv:2510.07019v1。有兴趣深入了解的读者可以通过该编号查询完整论文。

当你使用ChatGPT或其他AI语言模型时,有没有想过它是如何记住你前面说过的话的?就像人类既有短期记忆又有长期记忆一样,AI模型也需要处理眼前的信息和遥远的上下文。但现有的AI模型在这方面存在一个两难问题:要么像传统的Transformer模型一样记住所有细节但速度极慢,要么像线性模型一样速度很快但容易忘记重要信息。

研究团队提出了一种名为"原生混合注意力"(Native Hybrid Attention,简称NHA)的全新架构,巧妙地解决了这个难题。这就好比给AI配备了一套"双重记忆系统":一个像照相机一样精确记录最近发生的事情,另一个像日记本一样压缩保存长期的重要信息。更巧妙的是,这套系统能够根据当前需要自动决定更多地依赖哪种记忆,而不需要人工设定固定的规则。

传统的混合模型通常是将两种不同的注意力机制分别计算,

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

空客天津第二条总装线投产,称产能提高需联合各方构建更具韧性的供应链

澎湃新闻 浏览 2733

Amazon和UCLA团队突破传统界限,开启无监督智能训练新纪元

科技行者 浏览 1755

精读季报丨好气!姜诚管理规模掉到115亿元,相较巅峰缩水1/4

一地基毛 浏览 1464

马斯克的Grok AI聊天机器人再现严重故障:混淆邦迪海滩枪击事件

IT之家 浏览 2038

双雄对决,最豪华精彩的英国戏剧现场上演!

幕味儿 浏览 2579

乘联分会崔东树:2025年汽车以旧换新规模预计超1800亿元

IT之家 浏览 2099

德国外长在广州表态:看到与中国建设性合作的机会

环球时报国际 浏览 18677

不止造车 奥迪在北京做了一件关乎自然未来的事

网易汽车 浏览 2799

三种动力配置 星光560将于1月15日上市

网易汽车 浏览 1620

2025 年最强太阳耀斑爆发,引发非洲和欧洲多地无线电中断

IT之家 浏览 2438

白宫附近国民警卫队员遭枪击:500名士兵将增派华盛顿

澎湃新闻 浏览 23545

德约雅典冲击生涯第101冠,为什么突然成了网圈的一件大事?

网球之家 浏览 2359

史上最牛妖股!149个涨停板,暴涨55000%......

中国基金报 浏览 1870

CBA历史第4+现役第1!吴前1276三分超张庆鹏 将追西热力江

醉卧浮生 浏览 1453

爆冷输吉林!王博纯犯错!用人+暂停一塌糊涂,上全华班都能赢!

篮球资讯达人 浏览 1436

尹锡悦被控同军方合谋试图“诱使朝鲜发动进攻”

扬子晚报 浏览 7448

国家出手规范汽车价格!买车将更透明?

优视汽车 浏览 1965

B81 2.0共创版亮相 北京越野开启共创模式新实践

网易汽车 浏览 1613

零跑销量相当于小米与理想之和——属于老实人的胜利

DearAuto 浏览 2396

记者:尽管与热刺和切尔西传出绯闻,但托尼1月不会返回英超

懂球帝 浏览 2830

斯瓦泰克罕见两连败吞蛋落泪,波兰险胜瑞士夺得联合杯冠军

网球之家 浏览 1684
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1