关闭广告

超越纯视觉模型!不改VLM标准架构,实现像素级深度预测

新智元2781人阅读


新智元报道

编辑:LRST

【新智元导读】Meta开源DepthLM,首证视觉语言模型无需改架构即可媲美纯视觉模型的3D理解能力。通过视觉提示、稀疏标注等创新策略,DepthLM精准完成像素级深度估计等任务,解锁VLM多任务处理潜力,为自动驾驶、机器人等领域带来巨大前景。

在当前多模态AI发展浪潮中,视觉语言模型(Vision Language Models, VLMs)因其能通过「看图 + 文字交互」处理多样任务而备受关注。

然而,尽管在语义理解、视觉问答、图像指令等任务上表现优异,它们在从 2D 图像理解 3D 空间结构方面仍显薄弱。相比之下,纯视觉模型(pure vision models)在 绝对深度估计(metric depth estimation) 等三维理解任务上,凭借专门设计的网络结构与损失函数,早已达到了超越人类的精度。

这就带来了一个核心问题:「视觉语言模型是否有可能不更改其标准架

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

官方下场,内娱要出大事儿了

独立鱼 浏览 2263

京东将造“廉价版蔚来”?可充可换电,价格将很感人

明镜pro 浏览 2779

时代峰峻每代人都是绝对忠诚的食物信徒

呱田里的猹 浏览 1562

岁月不败美人!贾静雯、杨谨华、林心如,她们的40岁比20岁更美

LinkFashion 浏览 2122

TVB颁奖礼红毯老龄化严重!50岁佘诗曼压轴,黄宗泽老到认不出

萌神木木 浏览 1391

《红石榴餐厅》首播收视率破1.6,这剧一出,多少国产剧自愧不如

娱乐圈笔娱君 浏览 2774

中东壕客下单:先订600台!飞行汽车海外最大订单来了

南方都市报 浏览 2914

小鹏汽车出海新动态:小鹏 MONA 正式发往中东非

IT之家 浏览 2529

“反向春运”火了!部分火车票低至1.9折,南京到上海只要8.5元

上观新闻 浏览 1396

"失联风波"过后 画家范曾首度公开露面:近期喜得独子

澎湃新闻 浏览 19031

股价暴涨!又一超级风口来了?

财经锐眼 浏览 1612

“电池车”全面压过“发动机”一头?油车时代的辉煌,被彻底终结

少数派报告Report 浏览 2142

杜兰特至少降薪4000万美元?高管建议火箭最多2年8000万与他续约

罗说NBA 浏览 2338

华为鸿蒙智行下半场的战略之变

汽车K线 浏览 3174

《阿凡达3》不及预期,3个小时全是野人乱跑,排片降了不被看好

萌神木木 浏览 1936

首款星闪音频耳机!华为FreeBuds Pro 5悦彰耳机开售:1499元 母带级无损音质

快科技 浏览 2193

洛里昂vs布雷斯特:姆沃戈、马肯戈首发,迪纳-埃宾贝、阿若克出战

懂球帝 浏览 2725

她是钟小姐的穿搭榜样,从20岁到70岁,每一套都让人想copy

黎贝卡的异想世界 浏览 2650

张本智和惨遭逆转!痛失4个赛点+连丢3局,无缘法国冠军赛男单8强

乒谈 浏览 2613

背靠OpenAI的机器人初创1X亮相CES展示家务机器人,售价2万美元

华尔街见闻官方 浏览 1735

欧文:拜仁现在肯定懊悔不已,赫拉芬贝赫身价绝对超过1亿镑

直播吧 浏览 3436
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1