关闭广告

高效训练新标杆!华人开源原生VLM-NEO,以少数据追平顶级模型

DeepTech深科技2743人阅读

当下主流的视觉语言模型(Vision-Language Models, VLM),通常都采用这样一种设计思路:将预训练的视觉编码器与大语言模型通过投影层拼接起来。这种模块化架构成就了当前 VLM 的辉煌,但也带来了一系列新的问题——多阶段训练复杂、组件间语义对齐成本高,不同模块的扩展规律难以协调。

由南洋理工大学 S-Lab 助理教授刘子纬领导的联合团队最近提出了 NEO,试图用另一种思路解决这些问题。这项工作试图回答一个根本性问题:如果不依赖预训练的视觉编码器,能否构建出与顶级模块化 VLM 相媲美的原生统一架构?


图丨相关论文(来源:arXiv)

在传统方法中,视觉编码器通常基于 CLIP 或 SigLIP 等预训练模型,这些编码器虽然在视觉理解上表现出色,但其固有的语义偏置会限制模型在特定任务上的灵活性。

更重要的是,视觉编码器和语言模型之间存在天然的“代沟”——前者采用双向注意力机制来捕捉图像中的全局关系,后者则使用因果注意力进行文本的自回归生成。这种架构上的不匹配使得多阶段训练不仅复杂,还需要大量的对齐数据来弥合两个模态之间的鸿沟。

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

下周关注|进博会等多个重要活动将举办, 这些投资机会最靠谱

第一财经资讯 浏览 2587

伊朗外长:战争结束取决于确保不再发生“侵略”

极目新闻 浏览 465

进苏超决赛,泰州主帅:队伍分工明确,三个臭皮匠顶个诸葛亮

懂球帝 浏览 2617

知名投资人肖庆平假期遇车祸去世 其投资总额近1亿元

每日经济新闻 浏览 3102

何小鹏:中美自动驾驶同处第一梯队;好未来发布AI智能体“九章龙虾”|早资道

封面新闻 浏览 499

纪录片《重返狼群》一夜间翻红 "狼王"格林目前无下落

新民周刊 浏览 18831

天才少年姚顺雨入职腾讯后首次公开发声

21世纪经济报道 浏览 1693

佘诗曼四封视后、黄宗泽终结陪跑、李施嬅六度梦碎:TVB视帝视后,实力还是玄学?

仙女事件簿 浏览 1383

美媒刊文:不要虚张声势了 放弃"战胜中国"的想法吧

环球时报国际 浏览 12625

针对俄白联合军演 美军福特号航母驶入挪威奥斯陆峡湾

每日经济新闻 浏览 2961

特朗普或优先“做掉”欧洲?

浏览 25417

29分钟打卡29+13!坎宁安完压布伦森被赞MVP 尼克斯陷4连败泥沼

颜小白的篮球梦 浏览 1740

宁波84-79逆转江苏取4连胜,杰克逊29+6,庞峥麟25分5板7助

懂球帝 浏览 1787

梅州1-4云南,佩德罗-恩里克双响,迪力穆拉提任意球建功

懂球帝 浏览 2652

机械革命无界14S斗战版/无界14X新增配置,3499元起

IT之家 浏览 1503

爱德华兹像乔丹又实锤了? 火箭名宿:没人像乔丹但我喜欢华子

仰卧撑FTUer 浏览 2771

男子给小35岁情人转1340万 妻子:第三者生活极度奢侈

极目新闻 浏览 15184

《红舞鞋》官微删除道歉信,司机还挑衅网友:猫也没人疼戏照样拍

萌神木木 浏览 2654

"明珠"概念首次落地 荣威M7 DMH上市限时8.58万起

网易汽车 浏览 3429

女友BELLA+封面 | Jimmy&Ohm:人生拼图

伊周潮流 浏览 1626

苹果计划在明年 3 月推出全新改版 Siri “借鉴” Gemini 技术

威锋网 浏览 2551
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1