关闭广告

Meta团队揭秘大模型"视觉天赋"之谜:文本训练竟能培养看图能力

科技行者4197人阅读


这项由Meta超级智能实验室和牛津大学的韩俊林、汤盛邦、范大卫等研究团队完成的重要研究,发表于2025年1月,论文编号为arXiv:2509.26625v1。有兴趣深入了解的读者可以通过该编号查询完整论文。

近年来,一个令人困惑的现象开始引起科学家们的注意:那些只用文字训练的大型语言模型,竟然在处理图像任务时表现出了惊人的能力。这就好比一个从未见过画笔的人,仅仅通过阅读绘画理论书籍,就能画出精美的作品。这种看似不可能的现象背后究竟隐藏着什么秘密?

Meta的研究团队决定深入探究这个谜题。他们发现,当我们给这些"纯文字出身"的AI模型配上视觉编码器,然后进行少量的多模态训练后,它们就能在各种视觉任务中表现得相当出色。更令人惊讶的是,有些模型甚至在从未"见过"图像的情况下,就能完成某些视觉推理任务。

为了彻底理解这种现象,研究团队设计了一套系统性的实验方案。他们像调配食谱一样,精心调配不同类型的文本数据,训练了超过100个不同规模的模型,消耗了50万GPU小时的计算资源。这项研究的规模之大,就像是在建造一个巨大的实验工厂,专门用来生产各种"口味"的AI模型。

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

背靠OpenAI的机器人初创1X亮相CES展示家务机器人,售价2万美元

华尔街见闻官方 浏览 3483

今年冬天最流行的4双鞋,配阔腿裤时髦又高级!

LinkFashion 浏览 3106

美国宣布针对伊朗实施新一轮制裁

上观新闻 浏览 3191

普京批准俄罗斯与古巴军事合作协议

上观新闻 浏览 4472

阿里腾讯一起投!理想前高管组团做机器人,半年融了20亿

财通社 浏览 2549

巴尔韦德:皇马有我信任的理疗师,我都听他的

懂球帝 浏览 2448

紫牛头条|小伙用激光把南京夫子庙扫描做成3D游戏 1:1还原精度到厘米,网友:可以赛博旅游了

扬子晚报 浏览 4482

曾负债超200亿,创始人已跑路!这家新势力官宣复活,即将发新车

明镜pro 浏览 4341

NBA战报:猛龙110-99骑士取NBA8连胜,英格拉姆37+7+2

懂球帝 浏览 4036

五角大楼摊牌:解放军有巨大优势 美军已经被远远甩开

空天力量 浏览 4462

B席致敬瓜帅:永远都是我的足球之父,史上最佳主帅

懂球帝 浏览 518

快手“沦陷”之夜:1.7万僵尸账号

影像温度 浏览 2948

马杜罗纽约"首秀"神态轻松 比"V字剪刀手"遭多方解读

红星新闻 浏览 9232

专家:美对华贸易姿态是战略性失败 不再掌握全球霸权

澎湃新闻 浏览 33119

哈格里夫斯:枪手拥有英超最顶级的四名边卫,其中廷贝尔最强

懂球帝 浏览 3146

马杜罗不认罪称"被绑架""仍是总统" 外交部回应

环球网资讯 浏览 9707

官方:狼堡签下20岁日本中场盐贝健人;据悉转会费900万欧

懂球帝 浏览 3355

网友称小区1楼4户业主联合私挖地下室 官方回应

潇湘晨报 浏览 7987

频曝食安问题、高管IPO前套现1.3亿!鸣鸣很忙上市太急?

互联网那些事 浏览 3331

多名美高官将参与监督在委事务 特朗普:最终由我负责

每日经济新闻 浏览 9772

小鹏汽车2025年交付超42万台:大增126% 创历史新高

快科技 浏览 3467
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1