关闭广告

北大腾讯团队只改一行代码,让AI图像生成效果提升20%!

科技行者1466人阅读


这项研究由北京大学和腾讯混元实验室共同完成,并于2026年1月发表在计算机视觉领域的顶级学术期刊上。论文编号为arXiv:2601.17124,感兴趣的读者可以通过此编号查找完整的技术细节。

想象一下,你正在烘焙蛋糕,面前有两个不同的烤箱。一个烤箱只能设定几个固定的温度档位,比如低温、中温、高温,这就像是现在AI绘画中的"离散模式"。另一个烤箱可以精确调节到任意温度,就像"连续模式"。长期以来,AI图像生成领域就被这样分成了两个阵营,无法统一比较哪种方式更好。

但北京大学和腾讯混元的研究团队发现了一个巧妙的解决方案。他们注意到,现有的图像编码技术FSQ就像一个可以在两种模式间切换的烤箱,但这个烤箱有个致命缺陷:温度分布不均匀。大多数食物都挤在中间几个温度档位,而边缘的档位几乎用不到,造成了严重的"温度浪费"。

研究团队的洞察力在于,他们发现神经网络处理图像时产生的数据分布就像钟形曲线一样,大部分数值集中在中间,两端很少。但FSQ采用的是平均分布的量化方式,就好比用同样大小的盒子来装不同数量的物品,必然会造成中间的盒子装得满满当当,边缘的盒子却空空如也。

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

委内瑞拉内政部长称美国袭击造成100人死亡

新京报 浏览 1380

人民日报:警惕日本战略走向的危险转向

人民网-人民日报 浏览 43371

2025最流行的摩卡慕斯色,配牛仔蓝太好看了!

LinkFashion 浏览 3490

高云翔深夜在天津街头淋雪,边走边笑

观察鉴娱 浏览 1612

上千网友帮女孩杀猪 主厨:这么多张嘴挂身上压力太大

极目新闻 浏览 11552

小米智能门锁 4 Pro 双摄版发布,预售价 2464.15 元

IT之家 浏览 2801

委内瑞拉外长称已接待美驻委临时代办

国际在线 浏览 1430

中方出面调停柬泰冲突 王毅表态

环球网资讯 浏览 12089

南加大团队揭秘:让AI做数学题更聪明的"长度感知"训练法

科技行者 浏览 2618

海昌智能IPO:“母子”共同“闯关”,重大关联交易或成拦路虎

览富财经网 浏览 1575

少年抢劫2600元并参与5次殴打他人获刑11年 家属申诉

潇湘晨报 浏览 7347

泰柬冲突柬方70人死伤 泰国近20万人住进避难中心

财联社 浏览 2138

特斯拉 Model Y L 交流外供电适配器上架,售价 599 元

IT之家 浏览 2469

MiniMax把自家“实习生”放出来了!

量子位 浏览 1626

俄大使:美袭击时 委防空系统远程预警站通信出问题

参考消息 浏览 1599

涉安世半导体 商务部发声:同意荷经济部派员来华磋商

财联社 浏览 9474

追梦:当勇士保持健康,我认为没有哪支球队是我们无法击败的

懂球帝 浏览 2955

王楚钦横扫帕尔采访!太久没打直呼生疏,亲承中国是最好办赛环境

篮球资讯达人 浏览 1364

德云社郭德纲发文喜提4个新身份,含金量都不低

素衣读史 浏览 2525

辽粤会师全运会半决赛!杨鸣:广东占天时地利人和

体坛周报 浏览 2508

外观内饰优化 新款现代Staria将于明年上市

车质网 浏览 1602
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1