关闭广告

香港科技大学团队发现形式化验证如何让AI推理更聪明

科技行者1430人阅读


这是一个关于人工智能如何学会更好地思考的故事。想象一下,你在教一个聪明但有点"散漫"的孩子做数学题。这个孩子通常能猜对答案,但他的推理过程常常有漏洞——他会说"因为看起来对所以就对了",而不是真正理解为什么。如今,来自香港科技大学、上海人工智能实验室、浙江大学和香港浸会大学的研究团队发现了一个巧妙的办法,让这个"散漫的孩子"学会了像数学家一样严谨地思考。这项研究发表于2026年1月,论文编号为arXiv:2601.22642。

这个故事的核心很有趣:当今最强大的语言模型,比如ChatGPT和Claude,在处理复杂推理问题时,常常会犯一个致命的错误。它们会生成看似合理但逻辑上存在严重漏洞的答案。研究人员的发现更是令人担忧——即使在最终答案是对的情况下,推理过程中有39.3%的步骤在形式化验证中被"驳回"了。而当答案错误时,这个比例甚至高达52.4%。这就像一个学生虽然最后得到了正确答案,但他的计算过程完全是错的——纯粹是靠运气或者模式识别碰巧得对了。

研究团队的创新之处在于,他们不是简单地让AI生成答案就完事,而是在推理的每一步都加入了一个"严厉的数学老师"——形式化验证系统。这个"老师"会实时检查每

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

后排配娱乐屏/还有拖挂资质 理想i6将于9月26日上市

网易汽车 浏览 3580

世体:姆巴佩顺利通过考试,已拿到驾照

懂球帝 浏览 844

最时髦的单品,难道不是背肌吗?

时尚COSMO 浏览 1644

美国抓走马杜罗计划曾外泄 美媒收到计划后未公布

新京报 浏览 1691

止步“五连涨”!美股12月“开门黑”

中新经纬 浏览 2151

XPPen 推出 Artist Ultra 16 触控手绘屏:UHD AMOLED,16K 压感

IT之家 浏览 3235

收手吧沈腾,新片耗资1亿,预售票房仅15万

靠谱电影君 浏览 1921

18G冲浪的瑞幸,成了多少品牌网速的“绊脚石”?

财经无忌 浏览 1644

埃里克:对上赛季4-3赢皇马印象最深;弗里克总会激励球队

懂球帝 浏览 1685

50+女性秋日别瞎打扮,这3招让你告别油腻感,优雅好气质

静儿时尚达人 浏览 2530

专家:美对委行动或成未来对付其他"不听话国家"的先例

澎湃新闻 浏览 9162

冠军魔咒再应验,高芙总决赛屡屡被报一箭之仇,黯然出局

网球之家 浏览 2383

13.18亿大单!国网信通公告:子公司重大经营合同中标

红星资本局 浏览 2517

多名男女当街爬行学狗叫 官方:企业团建行为已致歉

极目新闻 浏览 9131

先索尼后徕卡,为何这些国际巨头都被中国企业吞下?

BT财经 浏览 1418

夫妻本是同林鸟 但这次张杰也救不了谢娜?

除夕烟火灿烂 浏览 2226

江一燕官宣离婚后首发声

扒虾侃娱 浏览 2596

美媒:泽连斯基未拒绝领土问题 要求提供更多细节

环球时报国际 浏览 7551

买 CPU 送 PS5?实测英特尔第三代 Ultra ,核显强得不像话

爱范儿 浏览 1447

《逍遥》结局揭秘:糖衣之下,是千年人妖血泪博弈

肆季娱乐 浏览 1901

刘晓庆怒批演员不背台词,被扒出疑似阿娇,季冠霖曾点名吐槽她

萌神木木 浏览 2365
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1