关闭广告

超越纯视觉模型!不改VLM标准架构,实现像素级深度预测

新智元4490人阅读


新智元报道

编辑:LRST

【新智元导读】Meta开源DepthLM,首证视觉语言模型无需改架构即可媲美纯视觉模型的3D理解能力。通过视觉提示、稀疏标注等创新策略,DepthLM精准完成像素级深度估计等任务,解锁VLM多任务处理潜力,为自动驾驶、机器人等领域带来巨大前景。

在当前多模态AI发展浪潮中,视觉语言模型(Vision Language Models, VLMs)因其能通过「看图 + 文字交互」处理多样任务而备受关注。

然而,尽管在语义理解、视觉问答、图像指令等任务上表现优异,它们在从 2D 图像理解 3D 空间结构方面仍显薄弱。相比之下,纯视觉模型(pure vision models)在 绝对深度估计(metric depth estimation) 等三维理解任务上,凭借专门设计的网络结构与损失函数,早已达到了超越人类的精度。

这就带来了一个核心问题:「视觉语言模型是否有可能不更改其标准架

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

延世大学团队发现LLM思维路径的"均匀信息密度"密码

科技行者 浏览 4258

74岁刘銮雄罕见露面,穿睡衣出行气场全开,逛国产车店当场下单

扒虾侃娱 浏览 4515

不务正业? 理想汽车发布AI眼镜 长续航还能控车

网易汽车 浏览 3651

中国汽车发动机新格局丨大众、丰田不再主流,谁主沉浮?

小鹏财经 浏览 4417

基米希:十年前拜仁有很多个人主义,如今队友更愿为团队奉献

懂球帝 浏览 4250

上海AI实验室ImgCoder:AI实现科学手绘图精准生成

科技行者 浏览 3299

“最帅升旗手”张自轩结婚了

说点事 浏览 3473

《逍遥》结局揭秘:糖衣之下,是千年人妖血泪博弈

肆季娱乐 浏览 3652

2026年新年首个工作日 中纪委连打4“虎”

南方都市报 浏览 10666

QClaw指令发红包?微信员工紧急回应:假的!

雷科技 浏览 2611

记者实测 多地办理电话卡需提供无犯罪证明和银行流水

澎湃新闻 浏览 10382

付豪:其实我们比球迷更想赢球,但球队实力与过去不可同日而语

懂球帝 浏览 3503

“看好中国新经济!” 渣打集团行政总裁温拓思最新发声

券商中国 浏览 4681

72岁赵雅芝1588生日会门票秒没,网友:人傻钱多

港剧叔 浏览 4505

新机发售之际,荣耀手机影像专家言论争议不断、引翻车质疑

观察者网 浏览 4444

"性商教母"周媛开启线下课 学员发现台上讲师是前同事

中国新闻周刊 浏览 33098

纵横外卖江湖十三载!美团做对了什么?

互联网那些事 浏览 2697

梁靖崑一脸沮丧令人心疼!10-6手握赛点被逆转 腰伤困扰他9个月

颜小白的篮球梦 浏览 3959

特朗普又来威胁伊朗:若达不成协议 或有坏事发生

财联社 浏览 3103

高市早苗曾主张修改日本宪法 企图让日本重获宣战权

上游新闻 浏览 9349

晕了晕了!宽基指数ETF遭主力抛售逾2000亿元!别慌,超百只行业主题ETF正被资金抢筹(附名单)

每经牛眼 浏览 3303
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1