我们如何教导人工智能系统按照人类目标和价值观行事


人工智能安全的核心在于价值对齐问题,许多研究人员使用逆强化学习(IRL)等技术与人工智能系统进行交互,以教授人类价值观 。从理论上讲,通过IRL,人工智能系统可以通过观察人类行为和接收人类反馈来了解人类的价值以及如何最好地帮助他们 。
但人类行为并不总是反映人类的价值观,而人的反馈往往是有偏见的 。我们说当我们放松时我们想要健康的食物,但是当我们感到压力时我们需要油腻的食物 。我们不仅经常无法按照我们的价值观生活,而且我们的许多价值观相互矛盾 。例如,我们重视睡眠时间为8小时,但我们经常睡得少,因为我们也非常重视努力工作,照顾孩子,保持健康的人际关系 。
AI系统可以通过观察人类来学习很多东西,但由于我们的不一致,一些研究人员担心使用IRL训练的系统将从根本上无法区分值对齐和未对齐的行为 。随着人工智能系统变得越来越强大,这可能变得特别危险:通过观察人类来推断错误的价值观或目标可能导致这些系统采取有害行为 。
区分偏见和价值观
人类未来研究所的研究员Owain Evans和研究非盈利组织Ought的总裁AndreasStuhlmüller探讨了IRL在人工智能系统教学中的局限性 。特别是,他们的研究揭示了认知偏差如何使AI难以通过互动学习来学习人类偏好 。
埃文斯详细说明:“我们希望代理人追求一些目标,我们希望这套目标与人类目标相吻合 。那么问题是,如果代理人只是观察人类并试图从他们的行为中找出目标,那么有多少偏见是一个问题?“
在某些情况下,AIs将能够理解常见偏差的模式 。埃文斯和Stuhlmüller讨论偏见的心理文学在他们的论文,学习无知,不一致代理的首选项,并在他们的上网本,agentmodels.org 。在agentmodels.org中讨论的常见模式的一个例子是“时间不一致 。”时间不一致是指人们的价值观和目标根据您提出要求而改变的想法 。换句话说,“你更喜欢未来的自我与未来的自我喜欢的事情之间存在着不一致 。”
时间不一致的例子无处不在 。例如,如果你在睡觉前问他们,大多数人都重视早起和锻炼 。但到了早上,当天气寒冷而且黑暗,他们没有得到那8小时的睡眠时,他们常常重视床单的舒适性和放松的美德 。从早起,到避免酗酒,吃得健康,省钱,人们往往对未来的自我期望更多,而不是未来的自我愿意 。
通过系统的,可预测的模式,如时间不一致,IRL可以在AI系统中取得进展 。但通常我们的偏见并不那么清楚 。根据埃文斯的说法,破译哪些行为与某人的价值观相吻合,以及哪些行为源于偏见是困难的,甚至是不可能的 。
“假设你承诺打扫房子,但你得到最后一分钟与朋友聚会,你无法抗拒,”他建议道 。“这是偏见,还是你现在的生活价值?这是仅使用逆强化学习来训练AI的问题 - 它将如何决定什么是偏差和价值?“
学习“正确”的价值观
尽管存在这个难题,但理解人类价值观和偏好对于人工智能系统至关重要,开发人员对培训他们的机器以了解这些偏好非常有实际意义 。
今天,流行的网站已经使用人工智能来学习人类的偏好 。例如,通过YouTube和亚马逊,机器学习算法会观察您的行为并预测接下来会发生什么 。但是,虽然这些建议通常很有用,但却会产生意想不到的后果 。
以北卡罗来纳大学信息与图书馆学院副教授Zeynep Tufekci为例 。在观看了集会的视频以了解更多关于他的选民的吸引力之后,Tufekci开始在她的“自动播放”队列中看到民族主义宣传和大屠杀否认视频 。她很快意识到YouTube的算法经过优化以保持用户的参与度,可以预见的是,当用户观看更多视频时,会有更多极端内容 。这导致她称之为“伟大的激进者” 。
YouTube算法中的这种价值错位预示着使用更先进的AI系统进行交互式学习的危险 。设计师必须能够优化它们以理解我们更深层次的价值观并改善我们的生活,而不是优化先进的人工智能系统以吸引我们的短期愿望和我们对极端的吸引力 。
埃文斯建议我们希望人工智能系统可以比人类更好地推理我们的决策,了解我们何时做出有偏见的决策,并“帮助我们更好地追求我们的长期偏好 。”然而,这将需要AI提出的建议第一次脸红对人类来说似乎很糟糕 。
人们可以想象一个人工智能系统对商业计划提出了明智的,违反直觉的修改,而人类只是觉得它很荒谬 。或者也许人工智能建议稍微长一点,无压力的驾驶路线到第一次约会,但焦虑的驾驶员无论如何都采取更快的路线,不相信 。
为了帮助人们在这些场景中理解AI,Evans和Stuhlmüller研究了AI系统如何以人类可理解的方式进行推理,并最终可以改进人类推理 。
一种方法(由Paul Christiano发明)被称为“放大”,人类使用AI来帮助他们更深入地思考决策 。埃文斯解释说:“你想要一个与我们完全一样的思维系统,但它能够更快,更高效,更可靠地完成 。但它应该是一种思维,如果你把它分解成小步骤,人类就能理解并遵循 。“
第二个概念被称为“因素认知” - 将复杂任务分解为小的,可理解的步骤的想法 。根据埃文斯的说法,目前尚不清楚一般因素的认知能否成功 。有时人类可以将他们的推理分解为小步骤,但通常我们依赖直觉,这更难分解 。
指定问题
Evans和Stuhlmüller已经开始了一项关于扩增和因子认知的研究项目,但他们还没有解决交互式学习中人类偏见的问题 - 相反,他们已经着手为其他研究人员精确地解决这些复杂问题 。
“这更像是以比以前人们更精确的方式展示这个问题,”埃文斯说 。“我们最终获得了有趣的结果,但从某种意义上说,我们的结果之一就是意识到这很困难,并且理解为什么这很困难 。”
【我们如何教导人工智能系统按照人类目标和价值观行事】

    推荐阅读