关闭广告

高效训练新标杆!华人开源原生VLM-NEO,以少数据追平顶级模型

DeepTech深科技4657人阅读

当下主流的视觉语言模型(Vision-Language Models, VLM),通常都采用这样一种设计思路:将预训练的视觉编码器与大语言模型通过投影层拼接起来。这种模块化架构成就了当前 VLM 的辉煌,但也带来了一系列新的问题——多阶段训练复杂、组件间语义对齐成本高,不同模块的扩展规律难以协调。

由南洋理工大学 S-Lab 助理教授刘子纬领导的联合团队最近提出了 NEO,试图用另一种思路解决这些问题。这项工作试图回答一个根本性问题:如果不依赖预训练的视觉编码器,能否构建出与顶级模块化 VLM 相媲美的原生统一架构?


图丨相关论文(来源:arXiv)

在传统方法中,视觉编码器通常基于 CLIP 或 SigLIP 等预训练模型,这些编码器虽然在视觉理解上表现出色,但其固有的语义偏置会限制模型在特定任务上的灵活性。

更重要的是,视觉编码器和语言模型之间存在天然的“代沟”——前者采用双向注意力机制来捕捉图像中的全局关系,后者则使用因果注意力进行文本的自回归生成。这种架构上的不匹配使得多阶段训练不仅复杂,还需要大量的对齐数据来弥合两个模态之间的鸿沟。

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

清华大学推出RLinf-VLA:让机器人在虚拟世界中自学成才的新框架

科技行者 浏览 4360

春天衣服不用准备太多!这几大单品提前备好,百搭实用又不过时

静儿时尚达人 浏览 1668

甩掉包袱 保时捷宣布2026年起逐步关停自建充电网络,转向公共充电矩阵

封面新闻 浏览 3729

清华REMA框架:透视AI推理错误根源

科技行者 浏览 4640

给她的宇宙,Matthieu Blazy重塑香奈儿女性

时尚COSMO 浏览 3815

预计年内发布 小米增程SUV最新谍照曝光

车质网 浏览 1215

汽车图谱㉔|1月车市调整:上汽销量居首,吉利逆势增长

贝壳财经 浏览 3322

斯坦福大学团队推出「许可证神谕」:让AI学会说「我不知道」

科技行者 浏览 3431

“得黄金ETF者得天下”!这类ETF单周狂揽410亿元,两家公募成大赢家丨ETF规模周报

每经牛眼 浏览 4486

ACEMAGIC阿迈奇预告M1A PRO+迷你主机,搭载锐龙AI Max+ 395

IT之家 浏览 4031

广州策马向前,跑好第一程!

无冕财经 浏览 3561

喜羊羊之父,又要去IPO了

投资家 浏览 3654

兴业银行大连分行多人被罚,不久前才吃了470万元罚单

财通社 浏览 3336

领导为什么不自己写材料?

识局 浏览 4282

因“阴阳合同”伦纳德可能恢复自由身 湖人勇士尼克斯他去哪儿?

仰卧撑FTUer 浏览 2954

价格没变升级5G网?2026款宝马X1上市,销量稳了?

大李说车 浏览 3372

智元精灵G2机器人正式发布,已获得数亿元订单

三言科技 浏览 4593

出了事算谁的?L3级辅助驾驶车型获批上路

象视汽车 浏览 3671

微软秘密武器亮相,英伟达CUDA护城河遭遇直接冲击

IT之家 浏览 4512

北约秘书长吕特:理解特朗普对许多北约盟友感到失望

参考消息 浏览 60087

西足协主席谈亚马尔:本应处理得更好,重要的是照顾好球员

懂球帝 浏览 4186
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1