爆点资讯

当下主流的视觉语言模型（Vision-Language Models, VLM），通常都采用这样一种设计思路：将预训练的视觉编码器与大语言模型通过投影层拼接起来。这种模块化架构成就了当前 VLM 的辉煌，但也带来了一系列新的问题——多阶段训练复杂、组件间语义对齐成本高，不同模块的扩展规律难以协调。

由南洋理工大学 S-Lab 助理教授刘子纬领导的联合团队最近提出了 NEO，试图用另一种思路解决这些问题。这项工作试图回答一个根本性问题：如果不依赖预训练的视觉编码器，能否构建出与顶级模块化 VLM 相媲美的原生统一架构？

图丨相关论文（来源：arXiv）

在传统方法中，视觉编码器通常基于 CLIP 或 SigLIP 等预训练模型，这些编码器虽然在视觉理解上表现出色，但其固有的语义偏置会限制模型在特定任务上的灵活性。

更重要的是，视觉编码器和语言模型之间存在天然的“代沟”——前者采用双向注意力机制来捕捉图像中的全局关系，后者则使用因果注意力进行文本的自回归生成。这种架构上的不匹配使得多阶段训练不仅复杂，还需要大量的对齐数据来弥合两个模态之间的鸿沟。

高效训练新标杆！华人开源原生VLM-NEO，以少数据追平顶级模型

腾讯 AI ...

克林顿夫妇作...

拜仁官方：后...

上市公司购买...

56岁陈红颜...

2025最流...

马斯克宣布脑机接口将量产，特斯拉自动驾驶挑战引发安全质疑

马杜罗在美首次出庭表示不认罪：我仍是委内瑞拉总统

AMD也要减少GPU供应！重点转向RX 9070 XT：价格更好调整

我国建成全球最大可再生能源体系，十年来风光发电新增装机占六成

从宗馥莉到王思聪为何企二代陷＂接班困局＂？

今年冬天流行的“倒三角”穿法，时髦又高级！

外媒称“美国指控古巴军队在乌克兰作战” 古巴驳斥

‍♂️吧友们抓紧了！国足主帅报名将于明天截止

8样回购N次宝藏零食！送礼/自己吃都合适！

＂最快女护士＂张水华获得＂复出＂后首个全马冠军

特斯拉与迪士尼合作引争议：车机引入《创：战神》车模被指广告

五角大楼摊牌：解放军有巨大优势美军已经被远远甩开

国内生产国内不卖？比亚迪高管亲口承认，这款车要“回流”国内了

科隆vs汉堡：卡明斯基、侯赛因巴希奇首发，法比奥-维埃拉、洛孔加出战

小伙称去＂踩背＂被戴链子拴住抽皮鞭记者惊讶当场报警

有没有人能同时挑战泡泡玛特和卡游？

聂卫平告别仪式在八宝山举行＂一生的对手＂冒雪来送别

傍上 “新中式”，现制酸奶能迎来 “二次爆发” 吗？

新机发售之际，荣耀手机影像专家言论争议不断、引翻车质疑

勇士124-106鹈鹕球员评价：穆迪满分，5人良好，3人低迷

倪虹洁自曝：曾因前夫负债千万被迫接戏

普京警告欧洲勿阻挠和谈：如果欧洲想打我们准备好了

詹俊：阿莫林换人值得肯定，冬窗应该留下齐尔克泽

1746个螺母被认定为枪支散件五金厂老板获刑四年