关闭广告

高效训练新标杆!华人开源原生VLM-NEO,以少数据追平顶级模型

DeepTech深科技4319人阅读

当下主流的视觉语言模型(Vision-Language Models, VLM),通常都采用这样一种设计思路:将预训练的视觉编码器与大语言模型通过投影层拼接起来。这种模块化架构成就了当前 VLM 的辉煌,但也带来了一系列新的问题——多阶段训练复杂、组件间语义对齐成本高,不同模块的扩展规律难以协调。

由南洋理工大学 S-Lab 助理教授刘子纬领导的联合团队最近提出了 NEO,试图用另一种思路解决这些问题。这项工作试图回答一个根本性问题:如果不依赖预训练的视觉编码器,能否构建出与顶级模块化 VLM 相媲美的原生统一架构?


图丨相关论文(来源:arXiv)

在传统方法中,视觉编码器通常基于 CLIP 或 SigLIP 等预训练模型,这些编码器虽然在视觉理解上表现出色,但其固有的语义偏置会限制模型在特定任务上的灵活性。

更重要的是,视觉编码器和语言模型之间存在天然的“代沟”——前者采用双向注意力机制来捕捉图像中的全局关系,后者则使用因果注意力进行文本的自回归生成。这种架构上的不匹配使得多阶段训练不仅复杂,还需要大量的对齐数据来弥合两个模态之间的鸿沟。

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

限量555台 蔚来新ET5T暗影套装限定车型售31.6万

网易汽车 浏览 4286

NBA战报:马刺133-104大胜步行者取NBA5连胜,文班亚马17+12+1

懂球帝 浏览 4168

搭载VLA大模型 魏牌全新蓝山智能进阶版年内上市

网易汽车 浏览 3625

潘玮柏45岁官宣减肥,承诺退出美食界

仙味少女心 浏览 4321

一路繁花2:刘嘉玲夸王家卫,何赛飞装都不装了

娱乐圈笔娱君 浏览 3234

范德芬:我知道我加速后别人很难追上,那一刻只想着必须进球

懂球帝 浏览 3979

“复古知识分子风”正流行,这5件单品谁穿谁时髦!

LinkFashion 浏览 3501

小萨博尼斯适合勇士吗? 三大缺点阻碍他加盟

仰卧撑FTUer 浏览 3425

英法空袭叙利亚中部地区 宣称打击极端组织"伊斯兰国"

环球网资讯 浏览 3136

有没有发现,女骑手越来越多了?

智谷趋势 浏览 4983

武汉理工毕业生称因当保安遭学校约谈 本人否认蹭流量

封面新闻 浏览 7489

内塔尼亚胡遭遇“全球孤立” 联大发言多国代表离席

环球网资讯 浏览 4817

萨里:我们没给罗马太多机会,但随后自己阵脚大乱

直播吧 浏览 5013

40岁宋仲基带老婆参加友人婚礼,被误认成徐帆

丁丁鲤史纪 浏览 2995

嫂子发文承认曾和顶流在一起,还好聚好散?

仙女事件簿 浏览 2727

斯塔默:中国已崛起 英国需要承认这种现实的对华政策

环球时报 浏览 22369

男子在养生馆按摩后猝死次日才被发现 家属索赔140万

红星新闻 浏览 5702

小李子携27岁意大利女友首次亮相奥斯卡颁奖礼

时光在作祟 浏览 2195

奇瑞集团前11月销量256万辆 新能源突破80万辆

网易汽车 浏览 3725

华为 nova 14 Pro / Ultra 预计今年 12 月升级支持 AI 辅助构图

IT之家 浏览 4134

杰伦-约翰逊登顶老鹰队史三双榜 “新鹰王”已悄然诞生

仰卧撑FTUer 浏览 3582
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1