关闭广告

超越纯视觉模型！不改VLM标准架构，实现像素级深度预测

新智元4490人阅读

新智元报道

编辑：LRST

【新智元导读】Meta开源DepthLM，首证视觉语言模型无需改架构即可媲美纯视觉模型的3D理解能力。通过视觉提示、稀疏标注等创新策略，DepthLM精准完成像素级深度估计等任务，解锁VLM多任务处理潜力，为自动驾驶、机器人等领域带来巨大前景。

在当前多模态AI发展浪潮中，视觉语言模型（Vision Language Models, VLMs）因其能通过「看图 + 文字交互」处理多样任务而备受关注。

然而，尽管在语义理解、视觉问答、图像指令等任务上表现优异，它们在从 2D 图像理解 3D 空间结构方面仍显薄弱。相比之下，纯视觉模型（pure vision models）在绝对深度估计（metric depth estimation）等三维理解任务上，凭借专门设计的网络结构与损失函数，早已达到了超越人类的精度。

这就带来了一个核心问题：「视觉语言模型是否有可能不更改其标准架

版权与免责声明：本文内容转载自其他媒体，目的在于传递更多信息，不代表本网观点或立场，不承担此类作品侵权行为的自己责任及连带责任。

猜你喜欢

相关阅读

记者：维拉和埃弗顿也有意路易斯-恩里克，伯恩茅斯的报价最具体

懂球帝浏览 3258

沪漂外国网红包丢了报警警察到现场后发现＂神秘字条＂

新闻晨报浏览 17078

小区多名业主凿穿楼板造出地下室将地下车库变成私宅

潇湘晨报浏览 20271

精彩推荐

延世大学团队发现LLM思维路径的＂均匀信息密度＂密码

科技行者浏览 4258

74岁刘銮雄罕见露面，穿睡衣出行气场全开，逛国产车店当场下单

扒虾侃娱浏览 4515

不务正业? 理想汽车发布AI眼镜长续航还能控车

网易汽车浏览 3651

中国汽车发动机新格局丨大众、丰田不再主流，谁主沉浮？

小鹏财经浏览 4417

基米希：十年前拜仁有很多个人主义，如今队友更愿为团队奉献

懂球帝浏览 4250

上海AI实验室ImgCoder：AI实现科学手绘图精准生成

科技行者浏览 3299

“最帅升旗手”张自轩结婚了

说点事浏览 3473

《逍遥》结局揭秘：糖衣之下，是千年人妖血泪博弈

肆季娱乐浏览 3652

2026年新年首个工作日中纪委连打4“虎”

南方都市报浏览 10666

QClaw指令发红包？微信员工紧急回应：假的！

雷科技浏览 2611

记者实测多地办理电话卡需提供无犯罪证明和银行流水

澎湃新闻浏览 10382

付豪：其实我们比球迷更想赢球，但球队实力与过去不可同日而语

懂球帝浏览 3503

“看好中国新经济！” 渣打集团行政总裁温拓思最新发声

券商中国浏览 4681

72岁赵雅芝1588生日会门票秒没，网友：人傻钱多

港剧叔浏览 4505

新机发售之际，荣耀手机影像专家言论争议不断、引翻车质疑

观察者网浏览 4444

＂性商教母＂周媛开启线下课学员发现台上讲师是前同事

中国新闻周刊浏览 33098

纵横外卖江湖十三载！美团做对了什么？

互联网那些事浏览 2697

梁靖崑一脸沮丧令人心疼！10-6手握赛点被逆转腰伤困扰他9个月

颜小白的篮球梦浏览 3959

特朗普又来威胁伊朗：若达不成协议或有坏事发生

财联社浏览 3103

高市早苗曾主张修改日本宪法企图让日本重获宣战权

上游新闻浏览 9349

晕了晕了！宽基指数ETF遭主力抛售逾2000亿元！别慌，超百只行业主题ETF正被资金抢筹（附名单）

每经牛眼浏览 3303

本站所有信息收集于互联网，如本站收集信息侵权，请联系我们及时删除
沪ICP备20017958号-1