关闭广告

清华大学提出NHA:让AI语言模型既快又准的"双重记忆"新架构

科技行者4393人阅读


这项由清华大学杜举森、胡佳熹、张涛教授,上海人工智能实验室孙维高研究员,以及香港中文大学程余教授共同完成的研究发表于2025年10月的arXiv预印本平台,论文编号为arXiv:2510.07019v1。有兴趣深入了解的读者可以通过该编号查询完整论文。

当你使用ChatGPT或其他AI语言模型时,有没有想过它是如何记住你前面说过的话的?就像人类既有短期记忆又有长期记忆一样,AI模型也需要处理眼前的信息和遥远的上下文。但现有的AI模型在这方面存在一个两难问题:要么像传统的Transformer模型一样记住所有细节但速度极慢,要么像线性模型一样速度很快但容易忘记重要信息。

研究团队提出了一种名为"原生混合注意力"(Native Hybrid Attention,简称NHA)的全新架构,巧妙地解决了这个难题。这就好比给AI配备了一套"双重记忆系统":一个像照相机一样精确记录最近发生的事情,另一个像日记本一样压缩保存长期的重要信息。更巧妙的是,这套系统能够根据当前需要自动决定更多地依赖哪种记忆,而不需要人工设定固定的规则。

传统的混合模型通常是将两种不同的注意力机制分别计算,

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

美军在加勒比地区袭击船只致6人死亡 包括两名特多公民

环球网资讯 浏览 4633

秦海璐直觉超准!刘宇宁35岁面相改变

智凌纵横 浏览 5406

小鹏机器人首秀摔了 此前因步态太拟真被疑"真人套壳"

澎湃新闻 浏览 9479

燃烧等离子体国际科学计划项目启动及研究计划发布

中安在线 浏览 4032

美国务院批准向波兰出售“标枪”导弹系统

国际在线 浏览 4444

高圆圆首谈当妈感受:感情都在妈妈身上用完了

雅儿姐爱追剧 浏览 3477

专访顶新便利餐饮 游仁宏:便利店的核心壁垒,是人与温度

新零售财经 浏览 4550

理想汽车线上全员会,员工表示“听不懂”

财视传播 浏览 3445

马克龙:有必要将伊朗停火协议扩展到黎巴嫩

上观新闻 浏览 1968

多家车企公布2026年销量目标

电动知家 浏览 3537

瑞典官宣解雇49岁主帅 4轮仅1分+无缘直通世界杯 用废英超2亿双星

我爱英超 浏览 4665

男子关机断网旅行134天:成了酒店前台眼中"奇怪的人"

新京报 浏览 13042

特朗普要求日本停止进口俄罗斯能源 高市早苗当面拒绝

鲁中晨报 浏览 10389

新房装小米空调师傅打断承重梁多根钢筋 售后愿赔2万

大风新闻 浏览 21450

于文文贵州演唱会晕倒,曝被救护车拉走,连轴演出引粉丝担忧

扒虾侃娱 浏览 3328

鸿蒙智行的上限,该重新评估了

汽车公社 浏览 3943

《小城大事》上星央八 热血筑梦正当时

小小李娱 浏览 3566

53岁古巨基再当爸,57岁陈韵晴二胎产子,高龄产子备受质疑

扒虾侃娱 浏览 3724

Amazon和UCLA团队突破传统界限,开启无监督智能训练新纪元

科技行者 浏览 3561

基于电动化平台打造 宾利全新SUV预告图发布

车质网 浏览 4403

以军空袭也门首都萨那 以色列多地拉响防空警报

上观新闻 浏览 5011
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1