关闭广告

南洋理工、腾讯等机构联手突破:让AI像人一样"指点"图片中的东西

科技行者2467人阅读


你有没有试过这样的体验:跟朋友聊天时,你想让他看看照片里的某个东西,但又不知道怎么准确描述它的位置?你可能会说"就是那个红色的杯子",朋友却问"哪个红色杯子?"这种沟通障碍在人工智能领域同样存在,而且更加复杂。

由南洋理工大学、腾讯微信视觉团队、新加坡科技研究局等多家知名机构组成的国际研究团队,最近在这个问题上取得了重要突破。他们的研究成果发表在了计算机视觉领域的顶级学术平台上,论文题目是"PATCH-AS-DECODABLE-TOKEN: TOWARDS UNIFIED MULTI-MODAL VISION TASKS IN MLLMS"(arXiv:2510.01954v1),感兴趣的读者可以通过这个编号查阅完整论文。

这项研究解决的核心问题可以用一个简单场景来理解:当你问AI"这张照片里有什么?"时,传统AI只能告诉你"有一只猫、一个杯子、一张桌子",但它无法像人一样直接"指出"这些东西的具体位置。更糟糕的是,当你要求AI找到"桌子上那个蓝色杯子"时,它往往会给出一串看起来很专业但实际上并不准确的数字坐标,比如"[245, 156, 378, 298]",普通人根本无法理解这些数字代表什么。

<
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

高市落泪称让民众不用担心中国 关键时刻金正恩出手了

时时有聊 浏览 20845

周杰伦蹭霉霉热度翻车!又被质疑崇洋媚外,近些年口碑越来越差

萌神木木 浏览 2674

“大空头”11亿空单瞄准英伟达和Palantir,AI泡沫真的来了吗?

郭施亮 浏览 2522

小区居民被大型空调设备震得神经衰弱 多次报警仍无果

环球网资讯 浏览 5832

AI狂热不敌冷峻现实:企业下调AI代理预期,实现全自动化仍需数年时间

华尔街见闻官方 浏览 2429

1499元飞天茅台上线“秒空”,茅台金融属性退潮是伪命题吗?

郭施亮 浏览 1765

夫妻本是同林鸟 但这次张杰也救不了谢娜?

除夕烟火灿烂 浏览 2227

伊朗被指愿作出让步:将最高丰度浓缩铀的一半送至国外

环球网资讯 浏览 37087

赵少康称"很多人想退党" 黄建豪:应给郑丽文时间调整

海峡导报社 浏览 7427

图片报:格雷罗恢复训练并有机会出战霍村,莱默尔尚未参加

懂球帝 浏览 1390

BBA大促混战,谁是真性价比之王?

百姓评车 浏览 1773

金靖靠卖笑成名却被宋丹丹嫌弃?

小椰的奶奶 浏览 2349

荣耀林林:整个行业成本趋势非常恶劣,二手机不排除会涨价

IT之家 浏览 1939

营收147亿的半导体资产遭冻结 闻泰科技:坚决反对

21世纪经济报道 浏览 2791

活塞125-107大胜篮网豪取5连胜,坎宁安34+10,杜伦30分

懂球帝 浏览 2530

蓝箭航天冲刺商业火箭第一股 万亿赛道谁最受益?

21世纪经济报道 浏览 1740

泰柬边境冲突已致19名柬埔寨平民死亡

国际在线 浏览 1941

杜兰特至少降薪4000万美元?高管建议火箭最多2年8000万与他续约

罗说NBA 浏览 2338

累瘫?三战全打满40分钟 从40+9到11+5失误 黑龙江女战神也顶不住

颜小白的篮球梦 浏览 2713

卧底记者给美容院"拉客" 顾客消费16190记者拿80%返利

鲁中晨报 浏览 8546

1欧元买18架战机 罗马尼亚与荷兰以"象征性价格"签署购机合同

环球网资讯 浏览 2438
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1