关闭广告

超越纯视觉模型!不改VLM标准架构,实现像素级深度预测

新智元4492人阅读


新智元报道

编辑:LRST

【新智元导读】Meta开源DepthLM,首证视觉语言模型无需改架构即可媲美纯视觉模型的3D理解能力。通过视觉提示、稀疏标注等创新策略,DepthLM精准完成像素级深度估计等任务,解锁VLM多任务处理潜力,为自动驾驶、机器人等领域带来巨大前景。

在当前多模态AI发展浪潮中,视觉语言模型(Vision Language Models, VLMs)因其能通过「看图 + 文字交互」处理多样任务而备受关注。

然而,尽管在语义理解、视觉问答、图像指令等任务上表现优异,它们在从 2D 图像理解 3D 空间结构方面仍显薄弱。相比之下,纯视觉模型(pure vision models)在 绝对深度估计(metric depth estimation) 等三维理解任务上,凭借专门设计的网络结构与损失函数,早已达到了超越人类的精度。

这就带来了一个核心问题:「视觉语言模型是否有可能不更改其标准架

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

广东98-89天津2喜2忧!胡明轩拾巅峰状态,焦泊乔受伤,内线被虐

篮球资讯达人 浏览 3278

上海女子"喊冤"汽车压上石头爆胎无人赔偿 网友吵翻了

环球网资讯 浏览 9185

安徽小伙辍学卖馒头,今年已赚13亿

创业家 浏览 3545

价格猛涨、库存连降!环氧丙烷题材股接连涨停

览富财经网 浏览 3314

又嫁错人?贾静雯老公过往争议被扒,催生四胎还和老婆闺蜜搞暧昧

萌神木木 浏览 4393

伊朗被指愿作出让步:将最高丰度浓缩铀的一半送至国外

环球网资讯 浏览 38931

从一秒起身的机器人到降本80%的数据,鹿明机器人破解具身机器人智能化困境

雷峰网 浏览 3455

《寻秦记》成为香港影史首日最高开画票房冠军

皮皮电影 浏览 3424

《逍遥》大结局:纪严下线订单终于到达,最终还是领导了结了他!

肆季娱乐 浏览 3544

福建舰已完成多次海试 进度远超预期

央视新闻客户端 浏览 3745

突然加速!避险资金拥抱消费ETF,什么信号?

券商中国 浏览 4531

女孩性侵的案子你都敢盖?!

电影最TOP 浏览 3779

蔡依林《PLEASURE》巡回演唱会首站启幕

环球网资讯 浏览 3487

向华强说娱乐圈明星美女他看不上眼:除了向太其他都没什么了不起

韩小娱 浏览 3344

妻子家中枉死丈夫被疑雇凶杀人 27年后真凶浮出水面

环球网资讯 浏览 9739

德约科维奇发布退赛声明令人担忧,身体康复状况存疑

网球之家 浏览 3450

上赛季至今五大联赛仅6人直接参与40球+:凯恩第1,青木在列

懂球帝 浏览 3703

“小棕鞋”今年春天太流行了!这3双怎么搭都好看

LinkFashion 浏览 2526

50+的女性,大衣、直筒裤、皮草这么穿,冬天保暖显瘦两不误

静儿时尚达人 浏览 2768

原来他就是李湘前夫,如今52岁锒铛入狱

楠楠自语 浏览 3642

E句话| 爱马仕继承人被曝坐廉航,150亿美元下落不明?

仙女事件簿 浏览 3036
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1