关闭广告

Meta团队揭秘大模型"视觉天赋"之谜:文本训练竟能培养看图能力

科技行者4015人阅读


这项由Meta超级智能实验室和牛津大学的韩俊林、汤盛邦、范大卫等研究团队完成的重要研究,发表于2025年1月,论文编号为arXiv:2509.26625v1。有兴趣深入了解的读者可以通过该编号查询完整论文。

近年来,一个令人困惑的现象开始引起科学家们的注意:那些只用文字训练的大型语言模型,竟然在处理图像任务时表现出了惊人的能力。这就好比一个从未见过画笔的人,仅仅通过阅读绘画理论书籍,就能画出精美的作品。这种看似不可能的现象背后究竟隐藏着什么秘密?

Meta的研究团队决定深入探究这个谜题。他们发现,当我们给这些"纯文字出身"的AI模型配上视觉编码器,然后进行少量的多模态训练后,它们就能在各种视觉任务中表现得相当出色。更令人惊讶的是,有些模型甚至在从未"见过"图像的情况下,就能完成某些视觉推理任务。

为了彻底理解这种现象,研究团队设计了一套系统性的实验方案。他们像调配食谱一样,精心调配不同类型的文本数据,训练了超过100个不同规模的模型,消耗了50万GPU小时的计算资源。这项研究的规模之大,就像是在建造一个巨大的实验工厂,专门用来生产各种"口味"的AI模型。

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

新国标来了!曾经吹上天的辅助驾驶要“变天”了

知嘹汽车 浏览 1338

3000马力!百万售价! 仰望U9赛道版比高铁快

车毂轆 浏览 4905

香波特:讨厌在尼克斯&骑士打3D 到了国王才感觉解放

直播吧 浏览 4885

中国机会|ASML:半导体产业开放合作是主流

澎湃新闻 浏览 4046

中国色特别策划 | 故宫书画与百年墨华

时尚COSMO 浏览 3211

媒体:一级政府拒不执行法院判决 是非常恶劣的示范

南方都市报 浏览 6776

今年电动汽车销量将创六年来最慢增速

大象新闻 浏览 3255

CBA疯狂一夜!争冠形势大乱:北京送广东首败,助攻广厦升至第一

侃球熊弟 浏览 3381

当一个57岁的女人,决定从零开始

Yuki女人故事 浏览 3219

伊朗并未请求延长停火 伊高官:必须武力回应封锁

财联社 浏览 1332

涉水加强 福特烈马亚马逊限量版上市 售价39.98万

网易汽车 浏览 256

广汽×华为乾崑联合打造 "启境"品牌正式发布

网易汽车 浏览 4868

五粮液是会计差错还是财务造假?

诗与星空 浏览 1046

双剑合璧:科创板、创业板的重大改革与长期投资价值

尺度商业 浏览 3987

磁浮底盘/全铝车身 凯迪拉克新CT6上市28.99万起

网易汽车 浏览 4161

这一次,抖音美妆让36万用户来定义美

时尚COSMO 浏览 2611

推广|| 小预算也能戴出好质感,这个宝藏国货真的很值

黎贝卡的异想世界 浏览 4375

传奇数学家放弃美国高校终身教职 为00后中国女孩打工

新民周刊 浏览 18526

绍伊古访华争分夺秒1天往返 谈好后马上给普京复命

头条爆料007 浏览 7621

采用900V高压架构 蔚来ES9将于5月27日上市

车质网 浏览 868

大量iPhone 17系列新机无法激活 苹果客服回应

界面新闻 浏览 9099
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1