关闭广告

超越纯视觉模型！不改VLM标准架构，实现像素级深度预测

新智元4493人阅读

新智元报道

编辑：LRST

【新智元导读】Meta开源DepthLM，首证视觉语言模型无需改架构即可媲美纯视觉模型的3D理解能力。通过视觉提示、稀疏标注等创新策略，DepthLM精准完成像素级深度估计等任务，解锁VLM多任务处理潜力，为自动驾驶、机器人等领域带来巨大前景。

在当前多模态AI发展浪潮中，视觉语言模型（Vision Language Models, VLMs）因其能通过「看图 + 文字交互」处理多样任务而备受关注。

然而，尽管在语义理解、视觉问答、图像指令等任务上表现优异，它们在从 2D 图像理解 3D 空间结构方面仍显薄弱。相比之下，纯视觉模型（pure vision models）在绝对深度估计（metric depth estimation）等三维理解任务上，凭借专门设计的网络结构与损失函数，早已达到了超越人类的精度。

这就带来了一个核心问题：「视觉语言模型是否有可能不更改其标准架

版权与免责声明：本文内容转载自其他媒体，目的在于传递更多信息，不代表本网观点或立场，不承担此类作品侵权行为的自己责任及连带责任。

猜你喜欢

相关阅读

修杰楷承认逃兵役！曾花钱造出假病历，贾静雯回应称孩子受到惊吓

萌神木木浏览 4424

小S的第3个女儿发自拍照，14岁就很漂亮，外形完成惊艳蜕变

素素娱乐浏览 2795

众星送别袁惟仁，前妻陆元琪露面表示不再怨恨，Ella哭到说不出话

萌神木木浏览 2566

精彩推荐

关于大姨妈，这10个真相女孩必须知道！别再被这些谣言骗了

Yuki女人故事浏览 2890

特朗普：俄方知道美国在俄海岸附近部署核潜艇

环球时报浏览 4253

轻舟亮剑：城市NOA计划上车50款，量产下放10万级

网易汽车浏览 3189

87家央企＂一把手＂薪酬信息披露：年薪90万元以上19人

大风新闻浏览 12605

重磅！日产总部大楼被中国企业拿下！

电动知家浏览 4170

向海外要增量？小鹏发布三款全球车，何小鹏：小鹏在海外市场增速会比国内更快

时代财经浏览 3432

反对马斯克 1 万亿美元薪酬方案，多个活动组织将举行抗议行动

IT之家浏览 4109

特朗普亚洲行美方称中美领导人将会面中方尚未官宣

上观新闻浏览 9285

泸州老窖前三季度营收净利双降国窖1573等中高档酒销量同比下滑10%

YOUNG财经浏览 4133

E句话| 这俩的婚纱照，还挺甜？

仙女事件簿浏览 4449

海港战町田泽维亚海报：象棋将军局，谋定后动

懂球帝浏览 4306

杨振宁留给中国的最重要遗产，恰恰很不“中国味”

钛媒体APP 浏览 4293

谢林汉姆：雅克松经验丰富，切尔西不应该放他离开

懂球帝浏览 4450

千人来珠峰＂逛公园＂有人冻到绝望：以为要永远留在这

新京报浏览 20825

市场震荡下均衡配置成“关键手”，资金为何青睐中证500指数？

时代周报浏览 4545

赵丽颖坦白自己近期“消失”的原因

湘村大余浏览 4233

韩媒：韩国女足抗议足协只让男足坐商务舱，情况严重可能罢赛

懂球帝浏览 4498

姚晨怒批倍速看剧：观众不该背锅

小白趣味屋浏览 3396

苹果发布第二代Vision Pro开发者连接带，传输速率提升至20 Gbps

IT之家浏览 4232

“这件羽绒服”今年冬天又火了，怎么搭都时髦保暖！

LinkFashion 浏览 3729

以方扣押“全球坚韧船队”后多国船员被驱逐遣返

环球网资讯浏览 4591

本站所有信息收集于互联网，如本站收集信息侵权，请联系我们及时删除
沪ICP备20017958号-1