关闭广告

清华大学提出NHA:让AI语言模型既快又准的"双重记忆"新架构

科技行者2540人阅读


这项由清华大学杜举森、胡佳熹、张涛教授,上海人工智能实验室孙维高研究员,以及香港中文大学程余教授共同完成的研究发表于2025年10月的arXiv预印本平台,论文编号为arXiv:2510.07019v1。有兴趣深入了解的读者可以通过该编号查询完整论文。

当你使用ChatGPT或其他AI语言模型时,有没有想过它是如何记住你前面说过的话的?就像人类既有短期记忆又有长期记忆一样,AI模型也需要处理眼前的信息和遥远的上下文。但现有的AI模型在这方面存在一个两难问题:要么像传统的Transformer模型一样记住所有细节但速度极慢,要么像线性模型一样速度很快但容易忘记重要信息。

研究团队提出了一种名为"原生混合注意力"(Native Hybrid Attention,简称NHA)的全新架构,巧妙地解决了这个难题。这就好比给AI配备了一套"双重记忆系统":一个像照相机一样精确记录最近发生的事情,另一个像日记本一样压缩保存长期的重要信息。更巧妙的是,这套系统能够根据当前需要自动决定更多地依赖哪种记忆,而不需要人工设定固定的规则。

传统的混合模型通常是将两种不同的注意力机制分别计算,

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

苹果彻查iPhone 17 Pro褪色:问题机型已被回收

快科技 浏览 2688

宁波网友投诉到理发店理发被诱导消费:1次花了6万元

潇湘晨报 浏览 6902

9家县级农商行、农信社及9家村行大合并,股金、人员处置方案公布

湘财Plus 浏览 1603

张慧贤指责万鹏“当小三当惯了”万鹏方严正声明

韩小娱 浏览 2715

联合国特使就也门问题与胡塞武装及阿曼官员会谈

国际在线 浏览 1717

中国曾经也有一家“OpenAI”

虎嗅APP 浏览 2307

影星梁小龙去世,曾拒绝拒再跟周星驰合作

TVB剧评社 浏览 1571

“短大衣”今年冬天又火了,这4件怎么搭都好看!

LinkFashion 浏览 1394

北京爆冷输天津3人败笔!许利民糟糕执教,三宁狂铁,方硕引丢分

篮球资讯达人 浏览 2532

延迟写《南京照相馆》?好电影,确实是对比出来的

娱乐官已上任 浏览 3480

8699元学习机成“大板砖”!维修要2499元,家长:交了智商税

北京商报 浏览 2763

智元精灵G2机器人正式发布,已获得数亿元订单

三言科技 浏览 2755

汽车之家官宣冬季测试真要来了:杜绝充值 喊话陈震愿意来吗

快科技 浏览 2490

聚焦进博|一个巴西律师的“新上海故事”

国际金融报 浏览 2481

Unity 中国官宣与零跑汽车合作,打造下一代智能座舱交互体验

IT之家 浏览 2557

长沙女子双节返程 发现母亲在大米里藏了1000元现金

潇湘晨报 浏览 3867

西汉姆联助理教练帕科·赫梅斯澄清与努诺·埃斯皮里托·桑托的场边争执

绿茵情报局 浏览 1504

官方下场,内娱要出大事儿了

独立鱼 浏览 2272

周星驰发文悼念梁小龙,直言永远怀念对方,两人曾因拍戏反目多年

萌神木木 浏览 1609

郎酒9月发布的会员尊享酒,为何成懂酒人的优选?

金角财经 浏览 2749

卡耐基梅隆大学发现让AI更聪明的秘诀:犯错后自我纠正

科技行者 浏览 1641
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1