关闭广告

北大腾讯团队只改一行代码,让AI图像生成效果提升20%!

科技行者2964人阅读


这项研究由北京大学和腾讯混元实验室共同完成,并于2026年1月发表在计算机视觉领域的顶级学术期刊上。论文编号为arXiv:2601.17124,感兴趣的读者可以通过此编号查找完整的技术细节。

想象一下,你正在烘焙蛋糕,面前有两个不同的烤箱。一个烤箱只能设定几个固定的温度档位,比如低温、中温、高温,这就像是现在AI绘画中的"离散模式"。另一个烤箱可以精确调节到任意温度,就像"连续模式"。长期以来,AI图像生成领域就被这样分成了两个阵营,无法统一比较哪种方式更好。

但北京大学和腾讯混元的研究团队发现了一个巧妙的解决方案。他们注意到,现有的图像编码技术FSQ就像一个可以在两种模式间切换的烤箱,但这个烤箱有个致命缺陷:温度分布不均匀。大多数食物都挤在中间几个温度档位,而边缘的档位几乎用不到,造成了严重的"温度浪费"。

研究团队的洞察力在于,他们发现神经网络处理图像时产生的数据分布就像钟形曲线一样,大部分数值集中在中间,两端很少。但FSQ采用的是平均分布的量化方式,就好比用同样大小的盒子来装不同数量的物品,必然会造成中间的盒子装得满满当当,边缘的盒子却空空如也。

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

合计亏超22亿元,牧原、温氏一季度双双转亏

中国基金报 浏览 1302

郝蕾暗讽辛芷蕾,内娱回到十年前了?

大龄女一晓彤 浏览 3803

财经早餐:英伟达50亿美元收购英特尔股份;美股三大指数齐创历史新高

网易财经 浏览 5027

特斯拉Q3销量首超梅赛德斯奔驰,一个时代终结了?

江瀚视野 浏览 4278

多个品牌双11集体上调金价 每克已破1300元

潇湘晨报 浏览 32397

2025年央八收视前十:《沉默的荣耀》第四,孙俪新剧遥遥领先

娱乐圈笔娱君 浏览 3194

媒体人:湖人希望詹姆斯赛季后退役;詹姆斯与湖人已陷入冷战

懂球帝 浏览 4163

买黄金,要大变了!

深蓝财经 浏览 3980

新美联储通讯社:美联储暗示暂停降息行动,新债王:今天或是鲍威尔任内最后一次

华尔街见闻官方 浏览 3621

国家医保局:职工医保个人账户跨省共济今年全国覆盖

商业观察杂志社 浏览 2481

杨紫一家三口同框,难怪杨紫是美女呢

草莓解说体育 浏览 3194

俄"默许"朱拉尼相关提案 中国在联合国动用一票否决权

梁讯 浏览 14950

她连上5次春晚,私下却和恩师同居怀孕被骗流产

律便利 浏览 4121

美军猛烈轰炸后 特朗普暗示或发起"踩红线"打击

界面新闻 浏览 116647

美国父亲在家喝酒将2岁女儿留车内致身亡 入狱前自杀

红星新闻 浏览 10699

章泽天播客表现大翻车!采访接不上话脑袋空空,学霸人设遭质疑

萌神木木 浏览 2899

上年纪的女人,别总穿运动鞋和恨天高,这样穿鞋子得体又优雅

静儿时尚达人 浏览 6495

顶楼住户拆除楼板升高数米加盖 一楼出现从上到下裂缝

大风新闻 浏览 13847

德国财长访问中国备受关注 德媒:此行意义重大

环球时报国际 浏览 45853

高质量孵化器里有了“机器人驾校”

文汇报 浏览 3921

百变旋转座舱 零跑D99内饰全面公开

网易汽车 浏览 107
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1