关闭广告

超越纯视觉模型!不改VLM标准架构,实现像素级深度预测

新智元977人阅读


新智元报道

编辑:LRST

【新智元导读】Meta开源DepthLM,首证视觉语言模型无需改架构即可媲美纯视觉模型的3D理解能力。通过视觉提示、稀疏标注等创新策略,DepthLM精准完成像素级深度估计等任务,解锁VLM多任务处理潜力,为自动驾驶、机器人等领域带来巨大前景。

在当前多模态AI发展浪潮中,视觉语言模型(Vision Language Models, VLMs)因其能通过「看图 + 文字交互」处理多样任务而备受关注。

然而,尽管在语义理解、视觉问答、图像指令等任务上表现优异,它们在从 2D 图像理解 3D 空间结构方面仍显薄弱。相比之下,纯视觉模型(pure vision models)在 绝对深度估计(metric depth estimation) 等三维理解任务上,凭借专门设计的网络结构与损失函数,早已达到了超越人类的精度。

这就带来了一个核心问题:「视觉语言模型是否有可能不更改其标准架

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

大众在欧洲开启ID.7电动轿车预售:6.2万美元起,国产版下月开售

IT之家 浏览 13955

精致詹詹,美媒晒出詹姆斯更衣室座位边摆满护肤品的照片

懂球帝 浏览 392

除了800V,新Model Y还要上7座!

1号车盟 浏览 12951

阿劳霍:我非常喜欢场上的维尼修斯,场外的事情我不在意

懂球帝 浏览 868

女子将老公绑床上防出轨 被家暴不离婚:他太帅 舍不得

社会奇闻君 浏览 92487

欧文:篮球是团队运动 今天我们的所有球员团结一致

直播吧 浏览 12638

“双11”本地之战 | 紧邻美团,京东折扣超市北京首店将落地门头沟 为何大厂偏爱五环外

北京商报 浏览 657

46岁董璇被曝怀二胎,本人现身机场脱外套辟谣,小腹平坦状态超好

扒虾侃娱 浏览 956

铜师傅的资本突围与增长焦虑

北京商报 浏览 384

黑色大衣 + 基础款,洋气炸了!

小西的穿搭日记 浏览 13362

报道称明年AI芯片产量拟提高两倍,寒武纪尾盘拉升,深夜“严正声明”:不实

华尔街见闻官方 浏览 227

美日韩签联合声明 用"最强硬措辞"谈及南海问题

环球网资讯 浏览 14190

媒体人:掌声送给国青小伙们 另外该及时喊暂停的时候就得喊

直播吧 浏览 15588

明年上半年上市 奇瑞风云实车A9 EV亮相

车质网 浏览 372

西媒:贝林厄姆在英国时的理发师,现在还经常到西班牙为他服务

直播吧 浏览 14231

股份行AIC扩容至三家

北京商报 浏览 423

“比特币富婆”钱志敏在英国认罪,6.1万枚比特币市价已达493亿元,赃款归谁?

红星新闻 浏览 759

第五届意大利繁花电影节片单暨日程发布!

幕味儿 浏览 992

乌外长公布无人机从匈牙利进入路线 匈外长否认

环球网资讯 浏览 1503

朝鲜发射巡航导弹,拜登上台后首次进行武器试验

趣看热点 浏览 25961

克洛普:我不在意阿诺德说的话;瓜迪奥拉是世界上最好的教练

懂球帝 浏览 12270
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1