关闭广告

超越纯视觉模型!不改VLM标准架构,实现像素级深度预测

新智元2785人阅读


新智元报道

编辑:LRST

【新智元导读】Meta开源DepthLM,首证视觉语言模型无需改架构即可媲美纯视觉模型的3D理解能力。通过视觉提示、稀疏标注等创新策略,DepthLM精准完成像素级深度估计等任务,解锁VLM多任务处理潜力,为自动驾驶、机器人等领域带来巨大前景。

在当前多模态AI发展浪潮中,视觉语言模型(Vision Language Models, VLMs)因其能通过「看图 + 文字交互」处理多样任务而备受关注。

然而,尽管在语义理解、视觉问答、图像指令等任务上表现优异,它们在从 2D 图像理解 3D 空间结构方面仍显薄弱。相比之下,纯视觉模型(pure vision models)在 绝对深度估计(metric depth estimation) 等三维理解任务上,凭借专门设计的网络结构与损失函数,早已达到了超越人类的精度。

这就带来了一个核心问题:「视觉语言模型是否有可能不更改其标准架

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

走过那个夏天,甜茶终于站上金球奖之巅

时尚COSMO 浏览 1359

保姆机器人来做饭!全国人大代表、海尔集团董事局主席周云杰:机器人会成为新的家电

时代周报 浏览 744

为异种器官移植提供强有力“猪队友” 上海SPF猪赋能国家科技重大专项

上观新闻 浏览 1557

曾毓群赴穗,小鹏与宁德双方能否“破冰复合”?

百姓评车 浏览 1893

与中国“交好”,拿盟友“开刀”,战略已明朗

浏览 25573

以色列移交又一批巴勒斯坦被扣押人员遗体

环球网资讯 浏览 2788

王石离婚风波首现身?豪宅聚餐打牌

好贤观史记 浏览 1716

反趋势?理想汽车盈转亏!MEGA召回烧没11亿元?

道哥说车 浏览 2285

郑丽文出席联合祭祖大典:盼未来中华儿女不再自相残杀

海峡导报社 浏览 17294

原来甄子丹还有个大儿子,都已经31岁了

上官晚安 浏览 1684

轻舟亮剑:城市NOA计划上车50款,量产下放10万级

网易汽车 浏览 1472

美财长批中国实施稀土出口管制是"对抗世界" 中方驳斥

环球网资讯 浏览 8432

“这件大衣”今年冬天又火了,怎么搭都高级!

LinkFashion 浏览 2072

捷途纵横G700限时售30.49万起 轮端扭矩过万

网易汽车 浏览 2660

伊敏百台无人矿卡常态化安全稳定运行超180天,单日产量创新高

IT之家 浏览 1608

场均2.70分,阿隆索登顶皇马主帅前10场西甲场均拿分榜

懂球帝 浏览 2555

临近年关,凤凰传奇高调官宣喜讯,网友:恭喜

阿废冷眼观察所 浏览 1446

普京:俄罗斯对任何国家都不构成威胁

央视新闻客户端 浏览 7807

张朝阳缅怀杨振宁:他是大神 在物理学家中排第一

极目新闻 浏览 6456

活塞13连胜追平队史纪录!揭秘东部黑马再次蜕变:冲击队史第4冠

罗说NBA 浏览 2261

瞄准2028年重要选举 郑丽文最新表态

新京报政事儿 浏览 7593
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1