关闭广告

GUI自动化的新突破:ServiceNow让AI更准确定位屏幕界面元素

科技行者4367人阅读


这项由ServiceNow、魁北克人工智能研究院、蒙特利尔大学、约克大学、蒙特利尔理工学院和麦吉尔大学联合进行的研究发表于2025年10月,论文编号为arXiv:2510.03230v1。研究团队由王苏宇辰、张天宇、Ahmed Masry、Christopher Pal、Spandana Gella、刘邦和Perouz Taslakian等学者组成,他们致力于解决人工智能在GUI(图形用户界面)自动化中面临的核心难题。有兴趣深入了解的读者可以通过论文编号arXiv:2510.03230v1查询完整论文。

现代生活中,我们每天都要与各种软件界面打交道——从手机应用到电脑程序,从网页浏览到办公软件。如果能让人工智能像人类一样准确地识别和操作这些界面元素,将会极大提升工作效率。然而,要让AI准确找到屏幕上的按钮、文本框或菜单项,就像要求一个从未见过地图的人在陌生城市中找到特定建筑物一样困难。

这项研究的核心贡献在于解决了当前视觉语言模型在GUI定位任务中的一个根本性问题:如何将自然语言指令准确转换为屏幕上的像素坐标。研究团队发现,现有方法就像让一个盲人通过触摸来画地图一样效率低下,因为AI模型需要在没有明确参照物的

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

预售22.99万起!阿维塔06T 2.78秒破百+旅行车大空间

网易汽车 浏览 1842

TA:曼联今夏额外借贷1.05亿镑用于引援,目前总债务6.37亿镑

直播吧 浏览 5131

切尔西本赛季英超10名不同球员破门,与阿森纳并列最多

懂球帝 浏览 4411

女子被判向出轨丈夫公开道歉15天 道歉视频引万人围观

大风新闻 浏览 14108

大量iPhone 17系列新机无法激活 苹果客服回应

界面新闻 浏览 9305

极氪8X车型最新谍照曝光,展示尾灯造型

IT之家 浏览 3582

台积电被特朗普「盯上」了

36氪财经 浏览 4340

全运会男足U20大爆冷门!山东上海携手出局,湖北广东压哨绝杀

奥拜尔 浏览 4247

“恨海情天仙品CP”郭晓婷王天辰将合体拍杂志

手工制作阿歼 浏览 2713

五年十代攻关 浙大成功培育高锌水稻“全能选手”

环球网资讯 浏览 4506

闻泰科技营收147亿的半导体资产被荷兰政府冻结

每日经济新闻 浏览 4497

鲁杰里:西蒙尼和加帅有共通之处;我们有效限制了国米的发挥

懂球帝 浏览 3959

2025全球十大工程成就发布,DeepSeek、人形机器人等入选

澎湃新闻 浏览 4506

曾毅手表事件休整后首次露面,发布新团队全家福

迷迭香的记忆a 浏览 3667

女警带儿子逛街遇行凶 徒手夺刀面部受伤差点伤到动脉

大象新闻 浏览 7988

俄主动向美通报:核动力巡航导弹上天 射程"几乎无限"

上观新闻 浏览 9767

春天穿对了颜色真的很加分!试试这些彩色穿搭,养眼减龄显活力

静儿时尚达人 浏览 1140

特朗普对伊朗新任最高领袖感到"不高兴"

新华社客户端 浏览 2448

内娱最癫综艺,又出来「作妖」了

娱乐圈笔娱君 浏览 1842

美媒:贾马尔-穆雷不会为加拿大出战下届世界杯&奥运会

懂球帝 浏览 408

内维尔:我原本认为曼城状态不够稳定,但看来我大错特错了

懂球帝 浏览 4102
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1