关闭广告

清华大学提出NHA:让AI语言模型既快又准的"双重记忆"新架构

科技行者4039人阅读


这项由清华大学杜举森、胡佳熹、张涛教授,上海人工智能实验室孙维高研究员,以及香港中文大学程余教授共同完成的研究发表于2025年10月的arXiv预印本平台,论文编号为arXiv:2510.07019v1。有兴趣深入了解的读者可以通过该编号查询完整论文。

当你使用ChatGPT或其他AI语言模型时,有没有想过它是如何记住你前面说过的话的?就像人类既有短期记忆又有长期记忆一样,AI模型也需要处理眼前的信息和遥远的上下文。但现有的AI模型在这方面存在一个两难问题:要么像传统的Transformer模型一样记住所有细节但速度极慢,要么像线性模型一样速度很快但容易忘记重要信息。

研究团队提出了一种名为"原生混合注意力"(Native Hybrid Attention,简称NHA)的全新架构,巧妙地解决了这个难题。这就好比给AI配备了一套"双重记忆系统":一个像照相机一样精确记录最近发生的事情,另一个像日记本一样压缩保存长期的重要信息。更巧妙的是,这套系统能够根据当前需要自动决定更多地依赖哪种记忆,而不需要人工设定固定的规则。

传统的混合模型通常是将两种不同的注意力机制分别计算,

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

《营救汪星人》成毅正在透支自己的观众缘

娱乐圈笔娱君 浏览 2968

杭州男子家中一斤黄金消失找了两天后报警 结局太意外

环球网资讯 浏览 34245

仅需加92号汽油 小鹏X9增程版的谍照曝光

太平洋汽车 浏览 4405

智己4月销量破万 1-4月累计销量同比大涨130%

网易汽车 浏览 805

古二3次发布录音,王家卫秦雯深陷争议

阿伧说事 浏览 3897

‍曼联向韦伯投诉裁判误判!曝阿莫林将用442,赛季成败在此一举

罗米的曼联博客 浏览 3635

30亿元“炸弹”入场!千问烧钱搅动AI春节红包大战

华夏时报 浏览 3032

道指重挫800点,IBM跌超13%,白银期货涨超7%,加密货币超16万人爆仓

21世纪经济报道 浏览 2586

印度迎来最重要的一位客人

牛弹琴 浏览 3616

TA:温格擅长从宏观层面谈论足球,他不适合参与修改足球规则

懂球帝 浏览 3133

新一轮价格战?本田:不到17万买冠道,蔚来:“购置税”全免!

少数派报告Report 浏览 2343

刘强东"10年1元年薪"到期 网友曾调侃章泽天离婚分5元

红星资本局 浏览 21924

预售权益价10.69万元起 东风日产N6将上市

网易汽车 浏览 3840

长安银行“踩油门”

北京商报 浏览 3120

招股书里的MiniMax:当聪明人决定不再为巨头打工

华尔街见闻官方 浏览 3359

王家卫凉凉!开会支持《繁花》副导演精日言论,网友让他滚出中国

萌神木木 浏览 4103

陈思诚新片定档!五一档终于有救了

陈意小可爱 浏览 1351

晕了晕了!机构大动作调仓,55只行业主题ETF被疯狂扫货,而热门的半导体竟被悄然抛售

每经牛眼 浏览 3879

iQOO 15 / Neo11 手机全版本标配 2K 屏,自带 AR 增透消反保护膜

IT之家 浏览 4275

月薪7000的抽卡师,只是AI短剧的「临时工」

豹变 浏览 256

美军突袭细节披露 加拉加斯居民:大地在震动 太可怕了

齐鲁壹点 浏览 3193
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1