新京报客户端

好新闻 无止境

立即打开
顶级围棋AI被发现漏洞:“超人类人工智能”还有很长的路?
新京报 编辑 李永博 罗东
2024-07-09 23:13
围棋机器人通常被视为人工智能(AI)领域最成功的系统之一。然而,近期一项研究揭示了顶级围棋机器人存在的缺陷。研究人员认为围棋机器人的致命缺陷同样存在于ChatGPT(聊天机器人)在内的大型语言模型中。

“超人类人工智能”(superhuman AI)是最近人工智能领域比较热门的话题。根据OpenAI首席科学家伊尔亚·苏茨克维(Ilya Sutskever)的说法,“超人类人工智能”指的是那些在某些领域上能够表现得比人类更优秀的AI系统。然而最近的一项研究对“超人类人工智能”的前景提出了质疑。


根据《自然》杂志报道,近期发布的一项研究以KataGo2(被认为是目前最成功的开源围棋人工智能系统)为例,指出人工智能系统并非总是可以在围棋领域轻易地击败人类。


这项研究作为预印本于今年6月在线发布,还未经过同行评审。研究人员使用了“对抗性攻击”来发现围棋AI系统的漏洞,这是一种向AI系统输入设计好的数据,诱使系统犯错的策略。例如,某些提示可以让聊天机器人“越狱”,使其提供出它们被训练禁止表达的有害信息。


图片

科幻纪录片《我们需要谈谈AI》(AI We Need To Talk About A.I.,2020)画面。


在围棋中,研究人员通过训练对抗性AI机器人击败KataGo,这是目前最好的开源围棋AI系统。研究人员表示,这些对抗性机器人找到了能够经常击败KataGo的漏洞,尽管它们在其他方面表现并不好。此外,人类可以理解这些机器人的技巧并采用它们来击败KataGo。


KataGo的漏洞是一次偶然现象,还是指向了所有“超人类人工智能”的根本弱点?为了调查这一点,研究人员使用对抗性机器人测试了围棋AI三种应对防御策略。结果显示,面对三种不同的防御策略,对抗性机器人最终还是找到了围棋AI的弱点,胜率可以达到80%-90%。


在所有这些情况下,对抗性机器人虽然能够击败KataGo和其他顶级围棋系统,但它们被训练的目的是发现其他AI的隐藏漏洞,而不是成为全面的战略家。“这些对手仍然相当弱,人类自己也能轻松击败它们,”研究人员说道。


这项研究结果不仅局限于围棋AI,也可能对包括ChatGPT在内的大型语言模型的AI系统产生广泛影响。“关键的结论是漏洞难以消除,如果我们不能在像围棋这样简单的领域中解决这个问题,那么在短期内,似乎不太可能修复类似于ChatGPT中的越狱问题。”


多位专家指出,这篇论文提供了迄今为止最有力的证据,表明让高级AI模型稳定地表现出预期行为是很难的,这说明想要构建一个可以信任的、强大的现实世界的AI系统还有很长的路,“最重要的结论是我们今天构建的AI系统,人类自己并不完全理解。”


参考资料:

(1)Can AI be superhuman? Flaws in top gaming bot cast doubt

https://www.nature.com/articles/d41586-024-02218-7

(2)OpenAI Co-Founder, Who Helped Oust Sam Altman, Starts His Own Company

https://www.nytimes.com/2024/06/19/technology/ilya-sutskever-openai-safe-superintelligence.html


编译/李永博

编辑/罗东

校对/柳宝庆

相关推荐
当人工智能开始拿起笔写作
文化
北京邀约全球人才“聚北京·创未来”
北京
用土豆泥冒充肿瘤竟能发二区 SCI?被撤稿后惊现更炸裂的操作!网友:彻底看不下去了
新京号
两会划重点丨3月6日
时事
新京报中招直播走进北京市信息管理学校,招生负责人详解新政
教育
大戏看北京3月文艺资讯丨音乐剧《理想之城》书写奋斗
娱乐
盖茨青年时的兴奋与慌张,像极了你今天面对AI的样子
新京号
大戏看北京3月文艺资讯丨音乐剧《理想之城》书写奋斗
娱乐
他开创了AI蛋白质结构领域,现在要做比诺奖更大的事
新京号
诺贝尔经济学奖,选择了三位现实主义者
文化

新京报报料邮箱:67106710@bjnews.com.cn