“AI发展现状反思”笔谈｜价值对齐是人类通往未来的“必经之路”吗

近年来，以大模型为代表的AI技术发展迅猛，掀起一波席卷全球的AI发展热潮。关注AI发展状况的人不限于AI的研发者、推广者和AI发展的评论者、人文社科研究者，更包括深感生活将被AI深刻影响的普通公众。AI发展的问题不再是纯粹技术问题，而是成为某种意义上的公共议题。在最近OpenAI发布Sora、马斯克开源Grok等一系列相关事件中，这一点表现得非常清楚。在各种相关公共讨论中，AI发展现状尤其受到关注，其中的基本问题是：当前AI发展的大方向是否有问题，未来应该朝什么方向前进。为此，组织计算机、经济学、马克思主义理论和哲学等领域的八位学者，对AI发展现状进行跨学科反思以期抛砖引玉，求教于方家。

本系列文章共8篇，转载自《科学·经济·社会》2024年第2期，本文《价值对齐是人类通往未来的“必经之路”吗？》为第4篇。在文中，闫宏秀和李洋认为必须正视人类期望的价值对齐，对人之为人的守护必须是价值对齐的基准生命线，也只有基于此的价值对齐才是人类通往未来必经之路。

人工智能技术正在通过输入海量数据和经验，经由机器学习不断进步。目前，人工智能技术已经走到了迈入“通用”智能的关口。这意味着可能即将出现与人类思维近似的智能机器，其具有进行学习、解决问题以及规划未来的能力，并将分享“人”作为行动主体的地位。如何确保人工智能技术捕捉并符合人类的社会规范和价值观、理解人的意图以及以人类想要的方式行事，已成为计算机科学领域最核心、最紧迫的问题之一，称为价值对齐（value alignment）。恰如《对齐问题》的作者布莱恩·克里斯汀（Brian Christian）所示，“机器学习表面是技术问题，但越来越多地涉及人类问题。”价值对齐是人机（技）融合必须解决的一个问题。从价值对齐作为一种人与机（技）联盟的意义上来看，其一直是技术发展的目标之一。事实上，在人类发展的漫长历史中，人类不断寻求将自己的身体和精神范围扩大到环境的局限之外，特别是通过开发技术来满足自身的需求和欲望，企图增强和超越“人”的能力。在此寻求的进程中，作为技术发展的目标之一的人机（技）融合即二者的联盟恰恰就是人类对技术的一种期望。已经走过了六十多年的人工智能技术则将这种期望推向了人类未来的关键期，此时，该如何看待这种期望呢？

一、正视人类期望的价值对齐

面对人工智能领域的巨大成就，当代哲学家卢克·穆尔豪瑟（Luke Muehlhauser）和尼克·博斯特罗姆（Nick Bostrom）警惕人类应对技术保持克制，他们曾指出：“一个超级智能的人工智能可能会很快变得优于人类……我们可能无法与它或其后代进行谈判，就像黑猩猩无法与人类进行谈判一样。”两位学者隐喻这样一个事实：如果“通用”智能真的出现，它们可能对人类并不友好。在面临潜在风险和挑战的背景下，研究者们就如何确保智能系统的可靠性、稳健性、安全性、可解释性和公平性等问题进行了一系列讨论，结果指向人工智能的决策和行为可能与人类的价值观和利益存在偏差，这种偏差可能源于系统在训练过程中使用到的数据、算法以及模型的局限性，因此，亟须正视作为人类期望的价值对齐是否依然有用与有效。

首先，高度重视价值对齐无用论。由于哲学和价值论学科中关于人类价值观的性质和内容的分歧尚未解决，因此如何在监管和设计人工智能时实现价值对齐也毫无意义。但在这种简单的逻辑关系中，潜在地把技术置于中性地位，而正是这种技术中性思想正在威胁着真正的价值对齐。价值对齐中的价值不仅是指人的价值，也是指技术的价值。德国哲学家马丁·海德格尔（Martin Heidegger）曾说：“正是这种人们至今仍旧深信不疑的关于技术的中性把握，使我们对技术的本质仍然茫然无知。”如果未来的人工智能在人类福祉方面是中立的，被编程为它只想解决一些计算上极具挑战性的技术问题，并且它只关心解决这个技术问题。这样做的结果就会使人工智能形成了这样一种信念，即解决这个问题的最有效且唯一方法是将整个世界变成一台巨型计算机，进而导致所有人类大脑的计算资源都被人工智能劫持并用于该技术目的。最终，人工智能将会造就一幅世界末日的未来场景。如此看来，这种人工智能尽管持有与人类福祉中立的态度，但是结果上却对人类生存构成了严重的威胁。换言之，即使人工智能不必事先对人类怀有敌意，人类对它的技术中立观和价值对齐无用论就已经是对自身的毁灭。

其次，积极探寻价值对齐的出发点。人类构建智能技术的一个重要动机是希望它能够与人合作，增强人类的能力，找到并解决人没有和不能解决的问题。因此，如果将技术锚定在人类问题的解决方案概念上，人应该向技术敞开欢迎的大门。但针对“技术工具论”，汉娜·阿伦特（Hannah Arendt）在《人的境况》一书中曾有过关于“工具制造者”的反思：“技艺人设计和发明器具是为了建立一个物的世界，而且器具的合用和精确程度都是由他想要创造的产品的‘客观’目的决定的，而不是由他的主观需求和要求决定的。”同时，德国哲学家阿诺德·盖伦（Arnold Gehlen）也说过：“技术在这种高度普遍的意义上，就是人类自身本质的最重要的部分。”深省两位学者的分析可以发现，如果只是把科学和技术当作对自然采取行动的手段，把科学发明视为人类超越自然限制的工具，那么将会使“人”脱离人类自身的生存处境而作为劳动者被异化为动物物种。如果价值对齐的目的只是使人工智能成为更趁手的工具，那么势必会招致人类梦想的破灭。因此，价值对齐的出发点至关重要。

最后，理性应对价值对齐恐惧。与伴随第二次技术革命的发展而出现的技术恐惧主义相似，对价值对齐的恐惧主要来自两个方面，一是基于数智技术本身的不确定性与风险。如数智技术的生成性、涌现性、交互性等技术特性在价值对齐过程中已经出现的诸如越狱、对齐幻觉、“欺骗性对齐”“伪对齐”等价值对齐失常现象；由数智技术的技术性能局限性所导致的价值对齐过程中的技术逻辑与人的逻辑的不兼容、对立以及断裂等；二是技术对人的威胁与异化在数智时代更为突出，且影响更为深层与更为普遍。因此，鉴于技术恐惧主义在人类社会中的已有影响，必须警惕由对价值对齐的恐惧而带来的对技术的盲目抵制。

事实上，价值对齐之所以是人类对未来的期望，是因为其可以缓解或抵消技术对“人”道德主体地位的威胁，帮助人类进行自我的延续与重塑。但如果不能跨过上述理解价值对齐的障碍，很难说价值对齐能为人类带来什么。很明显，价值对齐并不应是由于将技术道德化的实践转化，而是应在超越技术工具论的基础上，充分审视将技术道德化的前提条件。在人类道德技术化的进程中，价值对齐并不是人机（技）融合的终点，而是根植于技术发展和人类进化的历程当中，使“人”以现代人的姿态展示着人之为人的意义。

二、保障“人之为人”的价值对齐

在人类的历史上，没有任何一个领域像人工智能领域一般存在着如此严重的对人类尊严的潜在威胁。人类尊严从古至今都是一个严肃的话题，“早期儒家的伦理政治理论建构，由于将伦理作为政治的起始点与归宿点，使他们不能不对人的设计高度重视。”在西方文化中，由于受到基督教传统的影响，“人”通常被视为按照神的形象创造的，拥有固有的尊严和价值，强调个人的权利、自由和个人主义，认为每个人都应该有追求幸福和自我实现的权利。许多非洲传统强调社区和集体主义，人的身份和价值不仅仅在于个体，而是与其在家庭、部落和社区中的角色和关系紧密相关。另外，世界各地的原住民通常将人视为自然世界的一部分，强调人与自然的密切相关、和谐共处。现代人在如何理解和评价人方面存在文化、历史和哲学差异，不同的观点展示了人类对“人”的多样性理解，以及如何基于这些理解构建伦理和社会价值体系。但毋庸置疑的是，“人”的概念是一个具有深刻伦理含义的多重概念。基于人格的视角，可以说有关人工智能的问题可以被视为组织和整合我们迄今为止解决的许多问题的一种手段。在这期间，涌现了一些关于人类和机器之间的区别以及相似性的本质性问题，人工智能的发展触及许多伦理问题，如人工智能应该得到什么道德待遇的问题，人工智能的使用如何以各种方式影响人的问题，以及关于人工智能是否能够确实表现出人格或人格要素的问题（包括意识和能动性）。如果是这样，人工智能到底会对“人”产生什么道德影响？

当诺伯特·维纳（Norbert Wiener）在《人有人的用处》一书中提出“我是相信人类社会远比蚂蚁社会有用得多；要是把人判定并限制在永远重复执行同一职能的话，我担心，他甚至不是一只好蚂蚁，更不用说是个好人了”之时，他已经将“人之为人”这一哲学话题赋予了某种技术化的解读。这也印证了我们今天所看到的那样，维纳直指的控制论系统作为嵌入在生物体中的数字化系统存在，随着它们的不断普及，人类将继续获得前所未有的多方面能力和健康益处。目前大多数交织控制论系统的平台都由电极附着在人体上皮表面和大脑结构上或与人体上皮表面和大脑结构紧密接触组成，这有助于更有效地将外部信号传输到人体系统，并提高人类身体处理日常事务或工作的速度。这也恰恰彰显了人类的生物性缺陷使其需要凭借技术获得生命得以维系的可能性，并使得技术的本质进入了人的本质之中。在人的本质问题上，马克思曾说：“人以一种全面的方式，就是说，作为一个完整的人，占有自己的全面的本质。”如果说人类目前有什么立足之地，既可以面对人工智能时代席卷而来的技术风暴，又可以保证“人之为人”的伦理特质完整性，那一定是价值对齐。

回望技术的发展史，人类相信技术问题的解决方案是更多技术出现的技术解决主义或曰技术修复主义（techlogoical fix），这类思想一直占据着非常重要的地位。例如，许多复杂技术是集成了从先前版本所产生的问题的解决方案而被逐步迭代后创造出来的。在某种程度上，价值对齐可被视为机器学习在强化潜在的社会歧视时，一种补救由这种“歧视算法”所产生的问题的技术解决方案。从技术视角去解释价值对齐，可以看到道德进入到人工智能系统中的方法主要有自上而下和自下而上。在自上而下的方法中，以确定的道德立场设计机器，人工智能被明确告知什么是允许的，什么是不允许的。在自下而上的方法中，人工智能从用户数据中学习道德价值观和规范，将伦理学整合到机器中，反映人类获得道德判断和行为的成长途径。目前的价值对齐方案倾向于自下而上的方法来设计友好的人工智能。自下而上的方法主要包括具身人工智能和人工生命。通过具身人工智能构建的机器没有预编程的行为集，相反它们配备了在与环境交互时实例化的基本行为。这种智能生命形式模仿了人类的智力水平是如何发展的，以及是如何不断发展的。但只要一想到人类的发展史，情况就不值得乐观了，因为人类的历史是残酷的！想要避免落入残酷陷阱，需将价值对齐解释为通过技术来对人类诉求进行实现的过程，而人类社会的特质恰恰在于人具有的价值属性，而并非仅仅是在于人类拥有技术。因此，必须保障“人之为人”的价值对齐。

三、作为“必经之路”的价值对齐

1950年，艾伦·图灵（Alan Turing）做了著名的“图灵测试”实验，第一次引起各界对于机器智能的关注。此后，机器学习、深度学习等技术的兴起使得人工智能开始具备更强的自主学习和决策能力。这也引发了关于人工智能如何与人类价值观和道德观相协调的争议，人类开始意识到人工智能的决策和行为可能与人类的价值观和道德原则存在偏差。从早期的专家系统到现代的深度学习，如何让计算机模拟人类的思考和决策过程，一直是计算机科学领域的热点和难点。反观今天的人类社会正在进入一个智能代理时代，其中技术在很大程度上塑造和决定了权力的行使，影响了公共政策和人类决策等。人类需要找到有效的方法来确保技术的可靠性、可追溯性和可解释性来应对公众对技术黑匣子的质疑，并将私人权利与公共利益、技术权重与人类能力等进行重新调整。

对于积极的价值观调整方法提供了什么的追问，可能不在于它提供的任何答案，而在于它要求人类在这种情况下提出的哪些“问题”，以及它所提供的“问题”的重新概念化。也就是说，通往人类未来的价值对齐首先要回答自己要解决的问题可能是什么。通往人类未来的价值对齐要解决的问题包括：人类价值观如何融入技术之中，且还应确保人类价值观的多样性，避免价值观的同质化与一元性；在人机（技）融合的进程中，人类智能与机器智能的对齐逻辑依据，特别是不同逻辑之间的统一性与融贯性问题；人机（技）价值对齐的基准线、生命线与切人点问题，特别是伴随数据智能技术的发展，人机（技）对齐的进程中，人是否还在回路问题等。因此，随着人工智能技术的不断进步和应用场景的迅速拓展，价值对齐将继续成为研究者关注的焦点。人类通往理想的智能未来还有一段很长的路要走，这条路上势必要经过使价值对齐得以实现的艰难历程，以期保证先进和高度自主的人工智能系统具有正确吸收人类价值观和目标的能力。以社会进步主义观点看待价值对齐，它其实是一个涉及多个领域研究和实践的不断发展和完善的过程，可以消减人类和技术的芥蒂。“人”如果想要在即将到来的超级人工智能崛起时代中得以生存，必须杜绝所有机器做出“不友好”行为的可能，确保这些未来机器分享并接受人类最珍视的价值观和信仰。

从价值对齐作为一种人与机（技）联盟的意义上来看，其一直是技术发展的目标之一，因此，在这个意义上，是人类发展的“必经之路”。也正因为是必经之路，所以更需慎重，尽量避免在通向人类未来进程中数智时代的价值对齐变成一个作为教训而存在的阶段。回顾关于技术的哲学思考，无论是“器官投影说”关于技术与人的相关性揭示，还是关于技术工具论的质疑，都指向了人与技术之间融合边界的问题，即探寻人与机（技）联盟的基准。这种探寻就是在力图厘清价值对齐的最佳路径与最优结果。

事实上，数智技术将价值技术化与技术价值化双向融合的理想样态是技术逻辑与价值逻辑的完美契合，这也是价值对齐的应有形态。但这种契合应当首先立足于人类的价值观来校准技术，而不能基于技术来规制人类价值。该要求恰如社会学家克里斯多夫·库克里克（Christopli Kucklic）所说：“现代人的骄傲是我们能够成为某个人并且能够坚持做这个人。微粒人的骄傲在于一直成为另外一个人，同时不会失去自我”，数智技术是关于人类心灵、思想、能动性和责任本质等的更深层次哲学思考的催化剂，目前的形势正在向人类呈现人与人工智能共同进化出“人机（技）联盟”的未来图景。而只有通过以人之为人作为基准生命线的价值对齐所建立起的“人机（技）联盟”才是人类通往未来的“必经之路”的正确打开模式。

“AI发展现状反思”笔谈｜价值对齐是人类通往未来的“必经之路”吗

原创内容更多>>