关闭广告

Meta团队揭秘大模型"视觉天赋"之谜:文本训练竟能培养看图能力

科技行者4196人阅读


这项由Meta超级智能实验室和牛津大学的韩俊林、汤盛邦、范大卫等研究团队完成的重要研究,发表于2025年1月,论文编号为arXiv:2509.26625v1。有兴趣深入了解的读者可以通过该编号查询完整论文。

近年来,一个令人困惑的现象开始引起科学家们的注意:那些只用文字训练的大型语言模型,竟然在处理图像任务时表现出了惊人的能力。这就好比一个从未见过画笔的人,仅仅通过阅读绘画理论书籍,就能画出精美的作品。这种看似不可能的现象背后究竟隐藏着什么秘密?

Meta的研究团队决定深入探究这个谜题。他们发现,当我们给这些"纯文字出身"的AI模型配上视觉编码器,然后进行少量的多模态训练后,它们就能在各种视觉任务中表现得相当出色。更令人惊讶的是,有些模型甚至在从未"见过"图像的情况下,就能完成某些视觉推理任务。

为了彻底理解这种现象,研究团队设计了一套系统性的实验方案。他们像调配食谱一样,精心调配不同类型的文本数据,训练了超过100个不同规模的模型,消耗了50万GPU小时的计算资源。这项研究的规模之大,就像是在建造一个巨大的实验工厂,专门用来生产各种"口味"的AI模型。

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

女子遭家暴驾车逃跑致丈夫身亡获刑11年 已上诉称无罪

红星新闻 浏览 9043

4999元起!荣耀三箭齐发:Air旗舰要从小屏卷向超轻薄赛道?

雷科技 浏览 3309

澳大利亚国立大学发现:攻击AI视觉模型只需要操控20%的关键词汇

科技行者 浏览 3321

数据称相比去年9月,今年1月内存平均上涨344%、SSD涨74%

IT之家 浏览 3175

美陆军部长抵达阿联酋首都 与俄“秘密会谈”

环球网资讯 浏览 3969

2000万亿!史无前例的泡沫破裂!

米筐投资 浏览 4337

E句话|工作室宣布向涵之单身?

仙女事件簿 浏览 3046

新一代宝马X5冬测曝光,智能座舱再升级,真要走年轻路线了?

車解读 浏览 3549

彭昱畅恋上经纪人!堪称娱乐圈职场恋天花板

小椰的奶奶 浏览 534

特朗普政府酝酿关税B计划

北京商报 浏览 3945

30亿资本注入,破产重整的上汽红岩如何“翻身”?

汽扯扒谈 浏览 4185

上汽销量反超比亚迪,真实“含金量”如何

经济观察报 浏览 4477

朱丹周一围带娃大理度假,两人很有夫妻相

凛若秋霜 浏览 1193

多只明星基金减仓茅台,为啥茅台不被资本欢迎了?

江瀚视野 浏览 1160

汪峰演唱会翻车唱不上去,葛荟婕精准补刀

吃瓜盟主 浏览 4157

徐艺洋三亚美照惊艳

悦君兮君不知 浏览 4029

盛放之日·春启颐和:满园春色“想开了”

时尚COSMO 浏览 1336

本-福斯特谈C罗:他的确是弗格森的宠儿,因为他实在太出色了

懂球帝 浏览 4497

特斯拉Model Y成为首款通过美国NHTSA新ADAS测试的车型

不看车bukanche 浏览 1165

丹麦议员:我从没想过会站在美国使馆前示威

环球网资讯 浏览 7633

澳海滩枪案致16死 中国亲历者:流传还有"第三名枪手"

红星新闻 浏览 9432
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1