关闭广告

高效训练新标杆!华人开源原生VLM-NEO,以少数据追平顶级模型

DeepTech深科技848人阅读

当下主流的视觉语言模型(Vision-Language Models, VLM),通常都采用这样一种设计思路:将预训练的视觉编码器与大语言模型通过投影层拼接起来。这种模块化架构成就了当前 VLM 的辉煌,但也带来了一系列新的问题——多阶段训练复杂、组件间语义对齐成本高,不同模块的扩展规律难以协调。

由南洋理工大学 S-Lab 助理教授刘子纬领导的联合团队最近提出了 NEO,试图用另一种思路解决这些问题。这项工作试图回答一个根本性问题:如果不依赖预训练的视觉编码器,能否构建出与顶级模块化 VLM 相媲美的原生统一架构?


图丨相关论文(来源:arXiv)

在传统方法中,视觉编码器通常基于 CLIP 或 SigLIP 等预训练模型,这些编码器虽然在视觉理解上表现出色,但其固有的语义偏置会限制模型在特定任务上的灵活性。

更重要的是,视觉编码器和语言模型之间存在天然的“代沟”——前者采用双向注意力机制来捕捉图像中的全局关系,后者则使用因果注意力进行文本的自回归生成。这种架构上的不匹配使得多阶段训练不仅复杂,还需要大量的对齐数据来弥合两个模态之间的鸿沟。

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

7家茅台冰淇淋旗舰店暂停营业?门店回应:正常营业中,小程序无法下单

红星资本局 浏览 10826

舒淇现身亲揭《女孩》没报金马奖原因

ETtoday星光云 浏览 826

摩尔线程:股票价格可能存在短期上涨过快出现的下跌风险

网易财经 浏览 67

看了她们才知道 原来方脸这么美

LinkFashion 浏览 15958

王小卤的双11:在抖音电商,把凤爪“嗦”成国民零食

一点财经 浏览 615

周冬雨不穿内衣真空露面 胸部平坦被嘲“背对观众”

莫问先生 浏览 81991

小号普拉多 丰田兰德酷路泽FJ全球首发亮相

车质网 浏览 774

刚开年,苹果就摊上大事了……

雷科技 浏览 12767

宁德时代股价连续遭摩根士丹利下调?大摩想干嘛?

江瀚视野 浏览 16185

反对再援乌武器!德国反战女斗士可能成下任总理

环球网资讯 浏览 19123

深入落实习惯过紧日子要求 财政支出聚焦四大领域发力

南方都市报 浏览 12833

马杜罗紧急求助普京:委内瑞拉需要导弹、雷达和飞机

上观新闻 浏览 753

防晒品穿"马甲"进药店 企业钻医保漏洞拿下9000万大单

央视财经 浏览 5369

莫斯科市长称击落两架飞往莫斯科的武装无人机

环球网资讯 浏览 14469

春晚开播第二天,全网都在搜他的神图

她刊 浏览 13175

中国基站现身阿布扎比 可远程遥控远在珠海的无人艇

枢密院十号 浏览 92567

OpenMind 开源全球首个“AI 原生”机器人系统 OM1 Beta

IT之家 浏览 1612

美女网红当小三毁闺蜜恋爱!自称不知买服务是她男友,曝狗血真相

文艺圈娱乐号 浏览 12895

WTT多哈球星赛:孙颖莎3-0完胜日乒美女选手,技战术优势明显!

乒谈 浏览 12727

38岁何洁二婚丈夫刁磊,已经开始为她“争光”了

余鴡搞笑段子 浏览 665

恒大汽车:纽顿集团战投及利益相关方仍在就交易条款进行磋商

澎湃新闻 浏览 13053
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1