关闭广告

超越纯视觉模型!不改VLM标准架构,实现像素级深度预测

新智元4493人阅读


新智元报道

编辑:LRST

【新智元导读】Meta开源DepthLM,首证视觉语言模型无需改架构即可媲美纯视觉模型的3D理解能力。通过视觉提示、稀疏标注等创新策略,DepthLM精准完成像素级深度估计等任务,解锁VLM多任务处理潜力,为自动驾驶、机器人等领域带来巨大前景。

在当前多模态AI发展浪潮中,视觉语言模型(Vision Language Models, VLMs)因其能通过「看图 + 文字交互」处理多样任务而备受关注。

然而,尽管在语义理解、视觉问答、图像指令等任务上表现优异,它们在从 2D 图像理解 3D 空间结构方面仍显薄弱。相比之下,纯视觉模型(pure vision models)在 绝对深度估计(metric depth estimation) 等三维理解任务上,凭借专门设计的网络结构与损失函数,早已达到了超越人类的精度。

这就带来了一个核心问题:「视觉语言模型是否有可能不更改其标准架

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

关于大姨妈,这10个真相女孩必须知道!别再被这些谣言骗了

Yuki女人故事 浏览 2890

特朗普:俄方知道美国在俄海岸附近部署核潜艇

环球时报 浏览 4253

轻舟亮剑:城市NOA计划上车50款,量产下放10万级

网易汽车 浏览 3189

87家央企"一把手"薪酬信息披露:年薪90万元以上19人

大风新闻 浏览 12605

重磅!日产总部大楼被中国企业拿下!

电动知家 浏览 4170

向海外要增量?小鹏发布三款全球车,何小鹏:小鹏在海外市场增速会比国内更快

时代财经 浏览 3432

反对马斯克 1 万亿美元薪酬方案,多个活动组织将举行抗议行动

IT之家 浏览 4109

特朗普亚洲行美方称中美领导人将会面 中方尚未官宣

上观新闻 浏览 9285

泸州老窖前三季度营收净利双降 国窖1573等中高档酒销量同比下滑10%

YOUNG财经 浏览 4133

E句话| 这俩的婚纱照,还挺甜?

仙女事件簿 浏览 4449

海港战町田泽维亚海报:象棋将军局,谋定后动

懂球帝 浏览 4306

杨振宁留给中国的最重要遗产,恰恰很不“中国味”

钛媒体APP 浏览 4293

谢林汉姆:雅克松经验丰富,切尔西不应该放他离开

懂球帝 浏览 4450

千人来珠峰"逛公园" 有人冻到绝望:以为要永远留在这

新京报 浏览 20825

市场震荡下均衡配置成“关键手”,资金为何青睐中证500指数?

时代周报 浏览 4545

赵丽颖坦白自己近期“消失”的原因

湘村大余 浏览 4233

韩媒:韩国女足抗议足协只让男足坐商务舱,情况严重可能罢赛

懂球帝 浏览 4498

姚晨怒批倍速看剧:观众不该背锅

小白趣味屋 浏览 3396

苹果发布第二代Vision Pro开发者连接带,传输速率提升至20 Gbps

IT之家 浏览 4232

“这件羽绒服”今年冬天又火了,怎么搭都时髦保暖!

LinkFashion 浏览 3729

以方扣押“全球坚韧船队”后 多国船员被驱逐遣返

环球网资讯 浏览 4591
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1