关闭广告

清华大学提出NHA:让AI语言模型既快又准的"双重记忆"新架构

科技行者4237人阅读


这项由清华大学杜举森、胡佳熹、张涛教授,上海人工智能实验室孙维高研究员,以及香港中文大学程余教授共同完成的研究发表于2025年10月的arXiv预印本平台,论文编号为arXiv:2510.07019v1。有兴趣深入了解的读者可以通过该编号查询完整论文。

当你使用ChatGPT或其他AI语言模型时,有没有想过它是如何记住你前面说过的话的?就像人类既有短期记忆又有长期记忆一样,AI模型也需要处理眼前的信息和遥远的上下文。但现有的AI模型在这方面存在一个两难问题:要么像传统的Transformer模型一样记住所有细节但速度极慢,要么像线性模型一样速度很快但容易忘记重要信息。

研究团队提出了一种名为"原生混合注意力"(Native Hybrid Attention,简称NHA)的全新架构,巧妙地解决了这个难题。这就好比给AI配备了一套"双重记忆系统":一个像照相机一样精确记录最近发生的事情,另一个像日记本一样压缩保存长期的重要信息。更巧妙的是,这套系统能够根据当前需要自动决定更多地依赖哪种记忆,而不需要人工设定固定的规则。

传统的混合模型通常是将两种不同的注意力机制分别计算,

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

黄一鸣“砸饭碗”起诉王思聪,硬气强调不图钱

探源历史 浏览 1310

媒体:美"自由计划"1天即停 信号变得格外微妙

央视新闻客户端 浏览 14646

天空体育:热刺高层在考虑所有选项,尚未决定弗兰克的去留

懂球帝 浏览 3326

流行了100年的CP?大衣+阔腿裤,不过时的高级

LinkFashion 浏览 3243

四部门召开动力及储能电池行业企业座谈会:规范价格竞争

界面新闻 浏览 1761

74岁张纪中与年轻妻子结婚,真的过得幸福吗

丹妮观 浏览 4404

特朗普为何在最后时刻缩水降级“加冕典礼”?

浏览 26065

港股智谱与MiniMax大涨能给A股带来什么变化?| 0223

虎嗅APP 浏览 2871

换装高功率电机,蔚来 firefly 萤火虫新车申报

IT之家 浏览 4165

宗庆后母亲去世,娃哈哈百亿遗产案仍悬

蓝鲨消费 浏览 3247

合计亏超22亿元,牧原、温氏一季度双双转亏

中国基金报 浏览 1528

霸王茶姬创始人维权案将于3月开庭,公司回应:为反击此前涉婚姻、创业的诸多谣言

红星资本局 浏览 3368

美国首批UFO文件发布,大量照片文档“此前从未公开”

观察者网 浏览 1088

最高法明确:醉驾启用辅助驾驶仍需担刑责

网易汽车 浏览 2623

西安市委书记方红卫任上落马 7月刚表态韩松被查

鲁中晨报 浏览 9545

直接吹爆!年度最敢拍的禁片级港片出现了!

独立鱼 浏览 2366

美国中央司令部透露对伊朗动武全部武器装备清单

参考消息 浏览 2627

米体:尤文自2019年起已完成四次增资,总额接近10亿欧

懂球帝 浏览 4024

上海AI实验室重新定义视频理解:让AI像侦探一样思考长视频

科技行者 浏览 4420

杭州女子洗完澡一抬头 发现窗外停着一架无人机

极目新闻 浏览 4403

没有人不爱这个穿平底鞋都发光的女人

时尚COSMO 浏览 2473
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1