关闭广告

超越纯视觉模型!不改VLM标准架构,实现像素级深度预测

新智元961人阅读


新智元报道

编辑:LRST

【新智元导读】Meta开源DepthLM,首证视觉语言模型无需改架构即可媲美纯视觉模型的3D理解能力。通过视觉提示、稀疏标注等创新策略,DepthLM精准完成像素级深度估计等任务,解锁VLM多任务处理潜力,为自动驾驶、机器人等领域带来巨大前景。

在当前多模态AI发展浪潮中,视觉语言模型(Vision Language Models, VLMs)因其能通过「看图 + 文字交互」处理多样任务而备受关注。

然而,尽管在语义理解、视觉问答、图像指令等任务上表现优异,它们在从 2D 图像理解 3D 空间结构方面仍显薄弱。相比之下,纯视觉模型(pure vision models)在 绝对深度估计(metric depth estimation) 等三维理解任务上,凭借专门设计的网络结构与损失函数,早已达到了超越人类的精度。

这就带来了一个核心问题:「视觉语言模型是否有可能不更改其标准架

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

白玉兰奖争议不断!《繁花》三女主报名破坏规则,网友质疑玩特权

萌神木木 浏览 10954

缅北魏家杀人要求"打光所有子弹":尸骨呈跪姿 头中7弹

上游新闻 浏览 5653

在深圳山中野居十多年的男子回到老家:不知父亲已离世

极目新闻 浏览 77293

队记曝火箭无摆烂可能:13项筹码剑指四替补中锋 白魔崛起改1设想

颜小白的篮球梦 浏览 12463

冯德莱恩称向乌供应弹药仍是欧盟优先事项

环球网资讯 浏览 18702

被网友质疑要两千万私了 遭老板性侵女高管爆粗回怼

极目新闻 浏览 1769

紧急下令停飞!万亿巨头股价大跌

21世纪经济报道 浏览 13056

纽卡官宣米兰王牌加盟!总价7千万签5年 薪水翻3倍

我爱英超 浏览 15875

刘强东掀起低价之战,半年时间百亿补贴有效果吗?

态℃ 浏览 14527

六王赛:辛纳2-0阿卡夺两连冠获600万 德约0-1后退赛无缘季军

醉卧浮生 浏览 922

全国最年轻公安厅长 不再担任省发改委党组书记

上观新闻 浏览 93722

龚俊现身周杰伦演唱会 与周董合唱《发如雪》超嗨

素素娱乐 浏览 15463

杨振宁回国定居在清华园已超20年 为自家取名"归根居"

南方都市报 浏览 1799

还有反转?上周五“精准做空”引发全市场关注,神秘交易员再度开出1.6亿美元空单

华尔街见闻官方 浏览 1056

大裁员和ChatGPT来袭,IT行业员工如何"活下去"

网易科技报道 浏览 18953

车市价格战背后,真正的厮杀才刚刚开始

深蓝财经 浏览 19288

又一年七夕大片battle 来看看谁家的最甜?

创作者_WCD3 浏览 15187

谷歌AI实现类人判断解决系统偏见问题

科技行者 浏览 728

美国又将2家中企列入禁止进口名单 中方曾多次否认指控

环球网资讯 浏览 89829

参考这些冬季穿搭,高级时尚两手抓

虎哥说衣不二 浏览 13199

人大部分学生信息被非法获取 警方:嫌疑人被刑拘

新京报政事儿 浏览 17944
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1