斯图尔特·拉塞尔(Stuart Russell):加州大学伯克利分校计算机科学教授,Smith-Zadeh工程学讲席教授;合著有《人工智能》
一直以来,人工智能领域的首要目标都是制造出更擅于做决策的机器。众所周知,站在当今的视角看,这意味着让机器的功用尽可能地达到最大化。更准确地说,这意味着:给定一个效用函数(或回报函数,或目标),然后使期望值最大化。为了让博弈树搜索、强化学习等算法达到极致的效果,人工智能研究者们可谓费尽了心思,除此之外,为了计算出期望值,他们还煞费苦心地研究能用来获取、表现和计算信息的方法。在以上这些领域,进展不仅明显,而且还有加速发展的势头。
在所有这些活动中,人们容易忽视一个重要的区别:擅于做决定并不意味着能做更好的决定。无论机器的算法如何完美,只要它给出的决策有悖于人类的普遍价值取向,就会遭到唾弃。回形针的制作就是一个典型的例子:如果机器的最终目标被设定为制造更多的回形针,那么它就可能利用一切高科技手段将所有可能转化的物质都做成回形针。不言而喻,这样的决定在我们看来是无意义的。
人工智能的效用函数是从外部指定的,为此,我们需要综合考虑运筹学、统计学甚至是经济学的因素。我们常说:“决策是好的,效用函数是有误的,但这不能归咎于人工智能系统。”为什么我们认为这不是人工智能系统的过错?如果是我做错了事,别人就会认为这是我的过失。在评判一个人时,我们通常会从两个方面来考察他,一是对世界预测模型的掌握状况,二是对是非善恶的辨别能力。
正如人类学家史蒂夫·奥莫亨德罗(Steve Omohundro)、哲学家尼克·波斯特洛姆和其他人解释过的那样,如果能力超人的机器作出的决策不受价值约束和导向,那么其后果将不堪设想,最严重的甚至可能会导致人类灭亡。一些人争论说,在未来几个世纪,人工智能都不可能对人类构成威胁。敢下这样的断言,也许是因为他们不知道或是忘了以下实例:在物理学家欧内斯特·卢瑟福(Ernest Rutherford)信心满满地宣称我们人类不可能大规模获取核能之后的24小时内,物理学家利奥·西拉德(Leó Szilárd)就发现了以中子为媒介的核链式反应。
因此,家用机器人和自动驾驶汽车就需要配有人类价值系统,因此对于价值取向的研究是非常值得追求的。一种可能的形式是:逆向强化学习(inverse reinforcement learning, IRL),即通过观察一些其他智能体的行为来学习回报函数(假定这些智能体按照这个函数运行)。例如,由于观察过主人在早晨制作咖啡的过程,家用机器人就会习得在某些特定的环境下主人对咖啡的需求,而如果一个机器人和一个英国人待在一起的话,机器人就会知道所有场合下主人对茶的需求。但应当注意,机器人并不是在学习对咖啡或者茶的欲望,而是在学习在多智能体决策问题中发挥作用,使得人类价值最大化。
但在现实中,这不是一个简单的问题。因为人类的表现经常是意志薄弱、非理性和前后不一致的,而且人们的价值取向是有地域性差异的。除此之外,我们还没有把握好度,即到底要将机器的决策能力具体提高到什么样的一个程度,才能避免由价值取向中的小误差引起的风险放大问题的出现。尽管如此,我们还是有许多可以保持乐观的理由。
◎我们已经拥有了大量关于人类行为的数据,大部分数据已被以文字与视频的形式,或是被直接观察的形式记录了下来,而且,最为重要的一点是它们还记录了我们对于这类行为的态度(国际惯例奉行这样的观点:基于各国在责任担当过程中的习惯表现来制定规则)。
◎在人类价值共享的层次上,机器能够也应当分享它们习得的人类价值观。
◎当机器被应用到人类社会时,会带来巨大的经济效益。
◎这个问题在本质上并不比学习理解世界的其余部分如何运行更加困难。
◎通过先验地设定人类普遍的价值观系统和设置人工智能系统的风险厌恶程序,就有可能达到我们想要的结果,即在有任何会影响世界的实际行动之前,机器将先参与到人机对话中,探索我们的文学和历史,因为通过这样的学习,机器对于我们到底需要什么就会有一个很好的认识。
我设想这相当于人工智能目标的一个变化:我们要建造与我们的价值取向一致的智能,以代替纯智能。这意味着我们将道德哲学转变成了一道关键的工业环节。最终的结果无论是对人,还是对机器人,都是有益的。