关闭广告

香港科大:用"随机策略"训练AI数学推理,效果竟然超越复杂算法

科技行者4117人阅读


这项由香港科技大学潘凌教授团队联合快手科技、StepFun等机构共同完成的研究,发表于2025年9月29日的arXiv预印本平台(论文编号:arXiv:2509.24981v1)。研究团队提出了一种名为ROVER的全新AI训练方法,颠覆了人们对机器学习复杂性的认知。有兴趣深入了解技术细节的读者可以通过论文编号在arXiv平台查询完整论文。

当我们谈论训练AI解决数学问题时,大多数人可能会想象这需要极其复杂的算法和精密的计算。然而,香港科技大学的研究团队却发现了一个令人意外的现象:有时候,最简单的方法反而能产生最好的效果。这就像在烹饪界,有些大厨经过多年探索后发现,最朴素的食材搭配往往能烹制出最美味的佳肴一样。

目前,训练AI进行数学推理主要依赖一种叫做"强化学习"的技术。这种方法就像训练一个学生做数学题:先让学生尝试解题,如果答对了就给奖励,答错了就给惩罚,然后不断调整学生的解题策略。在AI领域,这种方法被称为PPO(Proximal Policy Optimization)或GRPO(Group-Relative Policy Optimization)等算法。

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

明年1月发布 新款迈巴赫S级路试谍照曝光

车质网 浏览 3332

大S离世一周年,S Hotel酒店大门被木板封住

素素娱乐 浏览 2884

这些才是最适合普通人的造型!不用穿大牌、不老套,真实自然

静儿时尚达人 浏览 1328

沈梦辰陪婆婆追星圆梦,开朗婆婆让梦辰有点社恐

绿叶贝贝 浏览 2995

假期重磅!委内瑞拉局势影响多大?AI、商业航天、智能驾驶都有大利好

看财经show 浏览 3315

美股芯片股全线大跌,希捷科技盘后猛涨17%,闪迪大涨4%,国际油价涨超3%,霍尔木兹海峡传来新消息

21世纪经济报道 浏览 1095

6岁女童练习"下腰"致截瘫 经营者曾因逃避执行被刑拘

红星新闻 浏览 17972

孤本奉献,世界音像遗产日今日特别放送!❤️

幕味儿 浏览 4206

微软豪掷79亿美元投资阿联酋AI企业G42,加速中东AI设施建设

IT之家 浏览 4128

才播6集热度破8900,悬疑剧有天花板了

娱乐圈笔娱君 浏览 3920

购置税新规下的购车选择题,插混车抄底还是等新车?

百姓评车 浏览 4370

高管减持、股东跑路、产品爆炸:上市公司的“中年危机”

诗与星空 浏览 4268

推3款车型 吉利银河V900将于1月20日上市

车质网 浏览 3104

小伙夜骑疑与黄麂相撞 小伙断了2根骨头黄麂仍在救治

极目新闻 浏览 8680

新款坦克400 4种动力+激光雷达 纯电续航200公里

念寒车评 浏览 4024

瓷器店里的蛮牛?非也! 兰博基尼在华20年成长路

网易汽车 浏览 4208

失业半年!52岁卡纳瓦罗获国足邀请:有望时隔4年重返中国

叶青足球世界 浏览 4824

E句话| 他们将补办婚礼?

仙女事件簿 浏览 3573

中方表态菲律宾加拿大签军事协议

北京日报 浏览 4062

普京与特朗普通电话 讨论伊朗局势

环球网资讯 浏览 2255

收购两公司 探路者加码芯片业务

北京商报 浏览 3577
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1