关闭广告

Transformer开山论文惊天"翻车"?图与代码不一致,神秘bug看傻了

新智元16698人阅读


新智元报道

编辑:编辑部

【新智元导读】图与代码不一致的论文,很「常见」,不过提出了Transformer的开山鼻祖论文,竟然也出现了同样的错误?

今天,AI圈被一个惊天「翻车」刷屏了。

谷歌大脑的NLP奠基之作、提出Transformer架构的开山鼻祖级论文 《Attention Is All Your Need》 中的图,被网友扒出与代码并不一致。


论文地址:https://arxiv.org/abs/1706.03762

自2017年问世以来,Transformer已经成为AI领域的基石王者。就连大红大紫的ChatGPT真正的幕后大佬也是它。

2019年,谷歌还专门为它申请了专利。


归宗溯源,现在各类层出不穷的GPT(Generative Pre-trained Transformer),都起源于这篇17年的论文。

据Google Scholar,截止目前,这篇奠基之作已有7万多次的引用。


所以,ChatGPT的奠基石都不稳了?

作为「开山鼻祖」的论文,结构图竟是错的?

Lightning AI创始人、机器学习研究者Sebastian Raschka发现,这篇论文中Transformer的图是错误的。


图中被圈出的地方,LayerNorms是在注意力和全连接层之后。在残差块之间放置层归一化,会导致输出层附近参数的预期梯度很大。

而且,这也与代码 不一致。



代码地址:https://github.com/tensorflow/tensor2tensor/commit/f5c9b17e617ea9179b7d84d36b1e8162cb369f25#diff-76e2b94ef16871bdbf46bf04dfe7f1477bafb884748f08197c9cf1b10a4dd78e

不过有网友指出,Noam shazeer在几周后对代码进行了纠正。



随后,Sebastian称,在论文Layer Normalization in the Transformer Architecture中,Pre-LN表现得更好,可以解决梯度问题。


这是很多或者大多数架构在实践中所采用的,但它可能导致表征崩溃。

如果层归一化在注意力和全连接层之前被放置在残差连接之中,就会实现更好的梯度。


Sebastian提出,虽然关于使用Post-LN或Pre-LN的讨论仍在进行中,但也有一篇新论文提议把二者结合起来。



论文地址:https://arxiv.org/abs/2304.14802

在这种双残差Tranformer中,表征崩溃和梯度消失的问题都得到了解决。


网友热议

针对论文中的疑点,有网友指出:中间不是已经有了PreLN和PostLN了吗?

Sebastian回答说,自己也觉得有点奇怪。或许2nd LN指的是最后一个输出层,而不是每个transformer块,但他对此也不确定。


有网友表示:「我们经常遇到与代码或结果不匹配的论文。大多数就是出于错误,但有时也会让人很奇怪。而这篇论文已经流传甚久了,为什么这种问题此前从没被人提出过,这真的很奇怪。」


Sebastian表示,公平地讲,最原始的代码是和图片一致的,但他们在2017年修改了代码版本,却没有更新图片。所以,这很令人困惑。


有网友表示,已经有论文在NormFormer中展示了一个不太复杂的架构,而他的团队最近也证实了他们的结果。而ResiDual论文没有在任何地方提到NormFormer,这让人很惊讶。


同时,评论区不断出现网友证实:Transformers中使用的LN,与CNN中使用的方式并不同。



所以,论文真的存在漏洞,还是乌龙事件?

让我们静观后续。

参考资料:

https://twitter.com/rasbt/status/1655575611979489282

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

什么才是适合普通人的日系穿搭?答案在这里

Yuki时尚酱 浏览 12763

中年女人反油腻穿搭:衣服不花哨,鞋子要带跟

八分搭配 浏览 14456

微软计划最早明年推出手机游戏商店,与苹果和谷歌竞争

界面新闻 浏览 17363

连续三个月“0破发”!1月新股上市首日平均涨84%

澎湃新闻 浏览 10444

普通人还是更适合日系穿搭 小个子也能撑得起来

Yuki时尚酱 浏览 12551

女人不管年纪多大 穿裙子牢记“2要2不要”

猫姐品衣有道 浏览 17413

韩媒称三星先进封装技术落后于台积电,导致难以取得AI芯片订单

IT之家 浏览 13500

冯小刚赔偿1.68亿怎么回事?塞翁失马焉知非福

趣看热点 浏览 26099

花呗被盗莫名欠钱,男子报警开了45张证明才解决!刚刚,支付宝回应了……

每日经济新闻 浏览 12291

男明星与女明星回应绯闻对比,主打一个反差

传媒一班 浏览 13488

丰田汽车工会欲获得相当于7.6个月工资的奖金,或要求大幅加薪

盖世汽车 浏览 10436

加州理工学院起诉苹果博通无线专利侵权可能达成和解

网易科技报道 浏览 12859

澳媒:澳著名铸币厂曾将上百吨不符要求的金条卖给中国

环球网资讯 浏览 96552

警方3D还原货拉拉事件,司机涉嫌过失致人死亡被批捕

趣看热点 浏览 349387

Stein:在鲍威尔和独行侠续约之前 火箭曾对签下他很感兴趣

直播吧 浏览 15592

赵明剑、张兴博离开石家庄功夫,转会东莞莞联

直播吧 浏览 13446

张翰在节目中说自己十年只谈过两个女朋友,一个是郑爽,一个是古力娜扎

趣看热点 浏览 25218

衣品很好的中年女人,今冬都认准这三款服装,简单百搭也不过时

Yuki时尚酱 浏览 10996

跟朱珠和张嘉倪学保养妙招 姐姐同款太好用了

每天只种一棵草 浏览 16837

涉诉被冻结20万股权?汪小菲成被执行人,麻六记张兰添新烦恼

时代周报 浏览 16061

每公里仅需1毛钱 福田祥菱Q双排座纯电微卡实拍

提加商用车网 浏览 10930
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1