价值载入问题

时间:2024-06-27 10:17:06

埃利泽·尤德考斯基(Eliezer S.Yudkowsky):人工智能理论家;机器智能研究所(MIRI)研究员及联合创始人

价值载入问题

威利·萨顿(Willie Sutton)是美国历史上最臭名昭著的银行大盗。据报道,每当人们问他为何要抢银行时,他总是回答说:“因为那里有钱。”(即萨顿定律)当我们提起人工智能时,我们首先想到的是极端强大、比人类聪明的人工智能(又名超级智能),因为这就是一个有风险的金矿。拥有更强大的心智就意味着有更强大的现实世界影响力。

作出上述断言时,我必须澄清:我关注超级智能并不意味着我认为超级智能会很快实现。相反,无论是认为超级智能不会在短期内实现的论断,还是如今并未明确地走向通用智能道路的人工智能算法,两者都没有驳斥下面这一事实:当比人类更聪明的人工智能系统出现时,大部分价值观将会处于危险的境地。正如斯图尔特·拉塞尔在其他地方的研究结果显示的那样:如果我们收到了来自比我们先进许多的外星人的电波信号,电报的内容说他们将在60年后到达地球,那我们就不会对此无动于衷地说:“啊,还有60年嘛。”尤其是当你有孩子时。

在诸多与超级智能相关的问题里,我认为最为重要(依照萨顿定律)的是由尼克·波斯特洛姆提出的“价值载入问题”(the value-loading problem):如何建造能够为人类带来持久的符合规范的、有价值的超级智能。简而言之,也就是如何做到“善”,试想,如果我们周围有一个有认知能力强大的智能体,那么它想要的事情就很可能是随后将会发生的事情。

下面,我将给出一些理由,来说明为什么制造各种能输出“善果”的人工智能既重要、又具备技术难度。

首先,为何制造能输出特定结果的超级智能是重要的?难道它不能明确自己的目标吗?

早在1739年,哲学家大卫·休谟对“是”类问题和“应当”类问题进行了区分,强调了下面这种突然跳跃性转变的情形:哲学家们通常先采用用于表达肯定语气的“是”一词来思考世界的本质,然后又突然转向用“应该”“应当”“不应当”等用来表示不确定、猜测或怀疑语气的助动词来继续思考相关问题。从现代的视角看,我们应当说:一个智能体的效用函数(目标、表现、结果)包含了一些额外的信息,这些信息并未给定在智能体概率分布中(信念、世界模型、实体图景)。

假设在未来的一亿年里,我们将会看到下面两种可能出现的情形。情形a,一个有着各式各样不可思议的智能体的星际文明。在那里,它们彼此交流着,而且时常都充满欢乐。情形b,大多数可接触到的物质已经被制作成了回形针。现问:情形a和情形b哪个更好?休谟的洞见告诉我们,如果我们的第一印象是a比b更好,则首先进入我们世界的是a比b更好,而后我们应该想象另外一种结果是b比a更好的算法的可能性。即便面对的是被第二种设想惊呆的头脑,我也能以休谟的精神自然地展示一个b比a更好的奇特世界。

我对那些认为硅基智能将永远不会超过碳基智能生物的想法并不十分赞同。但如果我们期待的是一个文明的世界,而不是一个回形针满天飞的世界,那么我们首先应确保足够先进的人工智能的效用函数的输出得到了最精准的控制。如果我们希望人工智能拥有自己的道德推理,按照休谟的法则,我们就得为这种道德推理制定明确的框架。这其实相当于给原本只是被认为拥有精准的现实模型和高效的计划制订能力的人工智能额外增加了一个现实的约束。

可是,如果说休谟的法则在原则上说明了认知能力强大的有自我目标的智能体是可存在的,那么为何价值载入问题却很困难?难道我们不能通过编程来实现所有我们想要的吗?

对于上述问题的回答是:我们的确能得到我们编程的结果,但这些结果并不都是必要的。我们担心的问题不是人工智能会自发地对人类产生怨恨。问题在于,我们创造的是一个有自我诱导能力的价值学习算法。举例来说,我们认为像人类一样会微笑的人工智能是非常了不起的,起初,看起来万事俱备而且方法也切实可行,人工智能就围绕着人的微笑的实现而展开,然后过了段时间,当人工智能变得足够聪明时,它就能够自行发明分子纳米技术,并用由分子制作的笑脸填满整个宇宙。然而,按照休谟的法则,在本质上,起初不成熟的认知能力是有可能引发这样的结果的,尽管这样的结局是我们不愿看到的。

类似于上面的尴尬情形是可解决的,但有技术上的困难,因为这要求我们在第一次制造比我们聪明的智能体时就要获得成功。要求在人工智能的第一次设计制造中,就要考虑到所有因素以确保它们能很好地工作,然而,即便是在熟知该领域的专家看来,这也几乎是不可能实现的奢望。

先进的人工智能会由好人还是由坏人最先研制出来这样的问题,并没有多大的意义,因为甚至是在好人那里,也不知道该如何开发出好的人工智能。至少,显著的是,从一开始我们就要面对价值载入问题本身带来的技术性难题。现行的人工智能算法还不够聪明,并不能解决我们所能预见的有关足够先进的智能体的所有问题,即我们还没有解决这些问题的方法。但考虑到这个问题的极端重要性,一些人正在尝试尽早开始研究这类问题。MIT物理学家、宇宙学家迈克斯·泰格马克(Max Tegmark)的未来生命研究所将这方面研究排到了最优先的位置,朝着这个方向迈出了第一步。

然而直到现在,价值载入问题仍没有得到解决。没有人提出过完整的解决方案,甚至是在理论上也没有。如果这种状况在未来的几十年里都得不到改善,我无法保证,开发足够先进的人工智能是一件好事。