关闭广告

Meta团队揭秘大模型"视觉天赋"之谜:文本训练竟能培养看图能力

科技行者794人阅读


这项由Meta超级智能实验室和牛津大学的韩俊林、汤盛邦、范大卫等研究团队完成的重要研究,发表于2025年1月,论文编号为arXiv:2509.26625v1。有兴趣深入了解的读者可以通过该编号查询完整论文。

近年来,一个令人困惑的现象开始引起科学家们的注意:那些只用文字训练的大型语言模型,竟然在处理图像任务时表现出了惊人的能力。这就好比一个从未见过画笔的人,仅仅通过阅读绘画理论书籍,就能画出精美的作品。这种看似不可能的现象背后究竟隐藏着什么秘密?

Meta的研究团队决定深入探究这个谜题。他们发现,当我们给这些"纯文字出身"的AI模型配上视觉编码器,然后进行少量的多模态训练后,它们就能在各种视觉任务中表现得相当出色。更令人惊讶的是,有些模型甚至在从未"见过"图像的情况下,就能完成某些视觉推理任务。

为了彻底理解这种现象,研究团队设计了一套系统性的实验方案。他们像调配食谱一样,精心调配不同类型的文本数据,训练了超过100个不同规模的模型,消耗了50万GPU小时的计算资源。这项研究的规模之大,就像是在建造一个巨大的实验工厂,专门用来生产各种"口味"的AI模型。

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

美防长亲口承认对乌支持“利好”美经济

国际在线 浏览 12735

千人来珠峰"逛公园" 有人冻到绝望:以为要永远留在这

新京报 浏览 16601

AI带货频频“翻车”,谁应负责?

虎嗅APP 浏览 657

交通标志设置不合理致5814次"被违章" 当地:重新设置

封面新闻 浏览 5736

游戏规则变了,Stellantis或用中国技术再造Jeep

禾颜阅车 浏览 786

孙俪晒全家福庆祝结婚12周年 称带娃是为修复童年

娱絮 浏览 16857

瞭望·瞭望访谈 | 加强空间应用 建设航天强国——专访中国工程院院士戚发轫

新华社 浏览 11263

胡塞武装袭击英国油轮后 美英空袭红海城市荷台达

澎湃新闻 浏览 12707

广联达被传全体员工年终绩效清零

财联社 浏览 12601

全球首例换脸手术成功,超过14名专业人士参与耗时23小时

趣看热点 浏览 26102

萝卜快跑计划将业务扩展至澳洲和东南亚

盖世汽车 浏览 1557

"试管婴儿放错胚胎"事件和解 母亲:对孩子感情不会变

每日经济新闻 浏览 93620

赖清德只字不提台湾光复 还在公然纪念"古宁头战役"

海峡导报社 浏览 6374

计划对菲律宾出口防空导弹 日本危险动作引担忧

上观新闻 浏览 231

日媒:中国呼吁公民暂缓赴日的措施 超出了日本预期

扬子晚报 浏览 41179

搭激光雷达/纯电续航506km 长安启源全新Q05开启盲订

网易汽车 浏览 1042

美国没走通的关键一步,已被解放军搞定了

浏览 10976

费兰-托雷斯谈未来:希望有一天我能够回到瓦伦西亚

直播吧 浏览 18459

过时的拍照姿势,毁了多少普通女孩?

Yuki女人故事 浏览 1846

俄国防部:俄军打击乌一处临时基地 击杀两名乌将军

环球网 浏览 15608

投资者人心不稳!董明珠部分持股“冻结”闹乌龙

华夏时报 浏览 18351
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1