关闭广告

超越纯视觉模型!不改VLM标准架构,实现像素级深度预测

新智元4294人阅读


新智元报道

编辑:LRST

【新智元导读】Meta开源DepthLM,首证视觉语言模型无需改架构即可媲美纯视觉模型的3D理解能力。通过视觉提示、稀疏标注等创新策略,DepthLM精准完成像素级深度估计等任务,解锁VLM多任务处理潜力,为自动驾驶、机器人等领域带来巨大前景。

在当前多模态AI发展浪潮中,视觉语言模型(Vision Language Models, VLMs)因其能通过「看图 + 文字交互」处理多样任务而备受关注。

然而,尽管在语义理解、视觉问答、图像指令等任务上表现优异,它们在从 2D 图像理解 3D 空间结构方面仍显薄弱。相比之下,纯视觉模型(pure vision models)在 绝对深度估计(metric depth estimation) 等三维理解任务上,凭借专门设计的网络结构与损失函数,早已达到了超越人类的精度。

这就带来了一个核心问题:「视觉语言模型是否有可能不更改其标准架

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

赛力斯闯关港股 但故事才刚刚开始

道哥说车 浏览 4348

上天的小鼠为何更瘦?这场跨年科学对话透露了很多航天趣事|科学家·马上回答

封面新闻 浏览 3377

林依晨二胎喜讯背后:被造谣7年生吃青蛙的十年婚变史

Yuki女人故事 浏览 6299

历史二十大网球瞬间(下):费德勒退役,法网立纳达尔雕像!

网球之家 浏览 2566

媒体:俄乌战场“飞出”的无人机 为何让欧洲如此忧惧

极目新闻 浏览 6111

好久没对一双鞋这么心动了!

黎贝卡的异想世界 浏览 4495

特朗普与高市早苗首次会晤 外交部回应

政知新媒体 浏览 16156

珍珠配美人,最老派也最高级的时髦

时尚COSMO 浏览 2684

直播间买货更放心了!两大新规封堵虚假宣传、仅退款乱象

贝壳财经 浏览 2890

欧美媒体唱衰福建舰仅6成战力 赖岳谦:他们开心就好

看看新闻Knews 浏览 10036

泰国总理:解散国会下议院不会影响泰柬边境局势

环球网资讯 浏览 3479

26款奔驰“小S级”售价亲民,外观豪华,车长超5米,搭载2.0T轻混

小史谈车 浏览 2632

耗资3000万,9小时票房仅2.1万,《731》把古天乐这部新片打惨了

靠谱电影君 浏览 4828

何炅瞒着谢娜现身演唱会,现场发言一度抹泪

韩小娱 浏览 1004

韩剧女神,被吐槽“断崖式衰老”?

寻艺 浏览 3070

俄军中将在汽车炸弹爆炸中身亡 现场画面披露

央视新闻客户端 浏览 3450

两会对话|商汤徐立:建议推动AI工具的公共职业化培训,促进就业形态多元化发展

澎湃新闻 浏览 2961

吴速玲曝儿子Joe是恋爱脑

韩小娱 浏览 3230

性能+豪华 星途ES7GT/ES8/ET8/ET9四车发布

网易汽车 浏览 3506

三亚五星酒店再现10万房价 有人1折买3件奢侈品花1250

时代财经 浏览 18856

利民推出 PA140 SE 双塔风冷:158mm 高双风扇六热管,275W 解热

IT之家 浏览 4313
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1