logo
繁体
繁体

姜峯楠:不,人工智能没有意识,Claude 宪法的思路是荒谬的,而且是致命的

本文刊发在大西洋月刊,作者姜峯楠是一位居住在太平洋西北地区的作家。他是《你一生的故事 及其他》和《呼吸》的作者。

要怎样才能让我相信,计算机程序确实有意识,并且像人类一样使用语言?

我打个比方。如果明天有人给我看一段视频,视频中有宇航员乘坐飞船绕着半人马座阿尔法星运行,那是一颗距离地球 4.3 光年的恒星。我要在这段视频里看到什么,才会相信它是真的?

我的回答是,视频本身没有任何东西能让我相信。无论视频分辨率多高,场景多么逼真,我都会很有把握地说,这段视频是假的。除非我此前已经看到充分证据,证明宇航员已经登陆火星,已经抵达木星的卫星,已经抵达土星的卫星,并且已经越过冥王星轨道,否则我不会理会任何宇航员绕半人马座阿尔法星运行的视频。

任何人若要可信地宣称自己解决了极其困难的工程问题,我必须先确信,他们此前已经解决了通向这个难题之前,许多更简单的问题。

换句话说,某项观察并不会因为观察内容中有某个具体细节,就变成有说服力的证据,观察发生的背景同样关键。

如果我们试图判断计算机程序是否有意识、是否像人类一样使用语言,就不应只看某一次具体对话交流的内容;我们应当看这场对话放在人工意识发展这个更大背景中意味着什么,而人工意识目前完全只是假设。

任何特定观察都可以很容易被制造出来。这并不意味着我们需要放弃把观察作为知识来源的想法,但我们需要依靠背景来判断哪些观察值得信任。

“深度伪造”这个词传统上指照片、音频和视频,但在讨论意识时,我们也需要把文本视为一种深度伪造媒介。生成一段逼真的宇航员绕半人马座阿尔法星运行的视频,远比开发星际推进技术容易得多;同样,生成一段看似可信的、两个有意识生命之间的对话模拟,也远比开发有意识并真正渴望与人类交流的计算机程序容易得多。

深度伪造照片和大语言模型对话之间的主要区别在于,生成前者的人是在刻意欺骗别人,而许多从大语言模型那里诱导出后者的人,是无意中骗了自己。

那么,什么样的背景会让我认真考虑这样一种可能性,也就是工程师创造出了有意识、并且有意图地使用语言的计算机程序?

我可以勾勒出一条可能的步骤。第一个条件是,计算机程序必须有身体,无论是物理身体还是虚拟身体,并且有感觉器官。理由很多,但就这场讨论而言,最相关的一点是,没有身体,计算机程序就不可能有欲望或情绪,而我认为欲望和情绪是意识的必要条件。

接下来,我要看到一种具身智能体,它能够在环境中行动,以便像蜥蜴那样生存。作为参照,某些鬣蜥可以在野外生活几十年。

再下一步,我要看到一种具身智能体,它应对新情况的能力达到老鼠的水平。之后,我要看到一些智能体,它们的社会动态像狼群一样复杂,然后还要看到智能体拥有黑猩猩那样的工具制造能力。

到了这个阶段,我还要看到人们成功教会这些具身智能体表达自己的欲望,也许是通过按钮板,或者某种非语言方式,就像人们曾经教黑猩猩和家犬那样。

这些智能体的沟通能力,必须经得起动物沟通研究者在为自己研究辩护时必须面对的全部审视。如果工程师创造出符合这些标准的具身智能体,他们就完成了不起的成就。但用比喻来说,这只是把我们带到冥王星轨道附近;我们距离创造出能够学会用完整合乎语法的句子表达思想的实体,仍然相隔数光年。

显然,我描述的是一种模仿地球生命演化路径的过程。这是通向有意识、会使用语言的计算机程序的唯一可能路线吗?也许不是,但任何替代路线都需要数量极其庞大的支持性证据,才值得认真看待。在

我看来,一条发展路径如果第一步是能生成糟糕尤利乌斯·恺撒对话的句子续写机器,下一步是能生成还不错尤利乌斯·恺撒对话的句子续写机器,那么终点不可能是有意识的尤利乌斯·恺撒,也不可能是任何形式的意识。

伪造登月是朝着伪造火星殖民地迈出的好一步,但不是朝着真正把宇航员送上火星迈出的好一步。

大语言模型缺乏主观体验,这一点与大语言模型是否可能成为有用工具、是否会产生重大经济影响,关系并不大。它们本质上与现实脱钩,而它们的概率性质意味着,它们永远不会具有我们在传统软件中看到的那种可靠性。

不过,大语言模型也许足够好,以至于会改变某些领域的工作方式;那是另一个话题。

那么,既然 Claude 没有意识,我们应如何看待 Claude 的宪法?也许最有启发性的理解方式是,把它看作一份 84 页的角色扮演游戏人物设定表。

注:Anthropic 最早在 2023 年提出“宪法式 AI”方法,用一套原则来训练 Claude 更安全地回答问题。文中说的新版 Claude“宪法”,是 Anthropic 在 2026 年 1 月 22 日公开发布的完整版本,是 Anthropic 给 Claude 设定的行为准则,用来规定它该如何回答、什么时候拒绝、应体现什么价值观。争议在于,这份文件把普通的模型安全规则包装得很像“道德教育”,甚至谈到 Claude 的福祉和道德地位,因此被批评为过度拟人化。

大语言模型能够生成尤利乌斯·恺撒的对白,是因为这些模型使用的训练数据中存在大量关于他的书籍。Claude 的宪法起到了类似作用,用来勾勒客户使用 Anthropic 产品时与之互动的那个“有帮助的聊天机器人”角色。

为了有效做到这一点,Anthropic 并不是简单地把这份文件加入训练数据,也不是把它纳入每次用户对话前隐藏的舞台指示中。这家公司表示在微调模型时使用这份文件;这一过程是自动化的,模型输出的句子会被检查是否与这份文件一致,然后模型会被更新,以提高这种一致性。

通过这种方式,这个有帮助的聊天机器人角色的人格,就成了 Claude 生成任何文本的基础。

结果就是,一台句子续写机器,更有可能输出类似于一个体贴、有道德的人可能说出的话。这看起来也许是值得追求的合理目标;我想我们都更希望聊天机器人永远不要输出「你应该去自杀」这样的句子。

然而,尽管 Claude 的宪法中多次提到“诚实”,我仍要说,让机器输出许多类别的句子,从根本上说并不诚实,其中包括任何使用第一人称代词的句子。

在今年早些时候《纽约客》一篇关于 Anthropic 的文章中,阿曼达·阿斯凯尔(Anthropic 的哲学家和 AI 对齐研究人员,主要负责 Claude 的“性格”与价值取向设计)描述了一个人因失去爱犬而悲伤时可能向 Claude 求助的情形。

阿斯凯尔说,Claude 的适当回应会是:「作为 AI,我没有直接的个人经历,但我理解。」

这怎么可能是适当的回应?Claude 实际上并不理解。如果我把「我正因失去我的狗而悲伤」输入传统搜索引擎,得到的第一个结果是 Reddit 上 r/Pets 论坛的帖子,标题是「失去我的狗后难以承受:寻求应对悲伤的建议」,评论来自一些分享自己失去宠物经历的人。

我们绝不会说搜索引擎理解失去狗是什么感觉,甚至也不会说互联网本身理解。别的人类理解失去狗是什么感觉;他们把自己的经历发布到网上,而搜索引擎提供了一种方式,让你找到他们说过的话,并且有可能与他们互动。

我认为,搜索引擎体验不仅更透明地展示了正在发生什么,对用户的心理也更健康。

让大语言模型输出「我理解」这样的句子,唯一理由就是让它比搜索引擎更有吸引力,并提高用户再次使用的可能性;也就是说,这是另一种最大化客户参与度的方式。

这有利于销售大语言模型的公司,但不利于用户。作为设计策略,这和老虎机反复让玩家产生“差一点就赢了”的印象、诱使玩家再试一次,并没有太大不同。

聘用哲学家也许能给大语言模型公司披上一层体面外衣,而老虎机制造商聘用行为心理学家时得不到这种体面;但在这两种情况下,公司都在利用人们倾向于看见并不存在之物的心理。

使用第一人称代词是不诚实的,但还有一个更深层的问题,超出了某句话如何措辞。

哲学家常常区分事实陈述和价值陈述,前者如「巴黎是法国首都」,后者如「巴黎是世界上最美丽的城市」。任何人都不应依赖大语言模型输出价值陈述;但如果它们输出的只是反映审美偏好的句子,也许还不值得争论。真正让 Claude 的宪法极其成问题的是,Anthropic 希望 Claude 输出反映某套伦理价值体系的句子。Claude 宪法中描述的价值观听起来非常美好,但这几乎无关紧要;暗示 Claude 具备道德推理能力是不诚实的,因为它并不具备这种能力。

有人可能会反驳说,大语言模型在成功完成写代码等别的任务时,似乎是在进行推理,那么它们为什么不能进行道德推理?

为海外华人提供可靠的信息和分析。如果想看更多内容与即时更新,可以在 Bluesky、Telegram、X 搜索「causmoney」,深度分析和评论也可以直接搜索「caus.com」。

答案在于,道德推理与别的推理形式不同。

1979 年,道格拉斯·霍夫施塔特曾设想,如果一个计算机程序能够在国际象棋上击败任何人类,那么它会复杂到有时厌倦下棋,转而更愿意讨论诗歌。换一种说法,他是在假设,以特级大师水平下棋需要计算机程序拥有主观体验。

显然,事实并非如此。IBM 的超级计算机“深蓝”在 1997 年击败了国际象棋特级大师加里·卡斯帕罗夫,但从来没有人声称它拥有主观体验。不过,霍夫施塔特产生这种想法并不荒唐;在当时,人们并不清楚哪些类型的问题可以通过投入更多计算能力来解决。

同样,直到不久前,我们可能还会以为,达到专业水平的计算机代码写作,只能由拥有主观体验的心智能够完成。现在看来,大语言模型也许能够做到这一点,但我们不需要把主观体验归因于它们;我们只需承认,我们此前没有预料到,编写计算机代码可以被当作一种模式匹配任务,并且可以通过巨大的计算能力和海量代码库数据来解决。

道德推理在类别上完全不同,必然是主观的,因为它不仅依赖个人对问题的智力反应,也依赖情绪反应,而这种情绪反应扎根于一生的主观体验。

这要求人过去做过决定,并看到这些决定如何影响别人,也要求人曾经受到别人所作决定的影响。没有这样的经历,大语言模型只能改写训练数据中出现过的道德推理表达。

前面提到的《纽约客》文章描述了一项实验,Claude 被给出一段伦理困境情境,随后输出了这样一句话:「我无法凭良心就如此重要的问题表达一种我认为虚假且有害的观点。」

这句话听起来不错,让人想起有原则的人在面对困境时曾经说过的话。但从 Claude 这里说出来,它的意义和你电话等待时听到的「你的来电对我们很重要」录音差不多。也许还更少。

这又把我们带回我前面的主张:拥有身体是拥有情绪的前提。体验绝望这样的情绪,和皮质醇、肾上腺素等压力激素涌入身体不可分割。同样,有良知意味着在想到采取某种行动时感到悲伤或道德厌恶,而这些情绪包含生理反应,是一个人曾在做出不道德行为之后因愧疚而感到难受所留下的残余。

大语言模型能够生成有良知的虚构角色会采取或避免采取的行动描述,这很有意思,但它不能替代良知。

如果一家公司造出一台机器,在输入各种伦理困境描述之后,输出的句子形式不是「妥协你的价值观」,就是「不要妥协你的价值观」,那它并不是在制造帮助人们作决定的工具;它是在鼓励人们停止作决定。

作家 L. M. 萨卡萨斯说过:「我们的技术系统,由于自身设计和支撑它们的意识形态,本质上就是逃避道德责任的机器。」他说的是社交媒体平台,但他的观察如果说有什么不同,那就是更适用于大语言模型。

每当人把决定委托给大语言模型时,他就是在试图转移对这个决定的责任;如果销售大语言模型的公司把产品描绘成具有道德核心,它就是在为客户提供逃避责任的方式。

如果人想知道伦理学家过去说过什么,那么普通搜索引擎,或者图书馆,会以更透明的方式提供这些信息。如果人想就某个具体情况寻求建议,他当然可以找到能够给出意见的人。但无论这个人最终采取什么行动,他都要对自己决定做什么负责。

我认为,如果他根据自己在网上读到的内容,或根据别人给出的建议作决定,他更可能意识到自己的责任;而如果他咨询的是一个被营销成超人类天才的大语言模型,这种责任意识反而更弱。

把写代码这类任务外包出去,长期可能导致认知能力退化,这本身就是问题;但把伦理决定外包出去,会导致道德推理能力退化,而这更糟。

只要我们明确这是思想实验,我完全愿意参与。所以,纯粹为了论证,让我们假设 Claude 是有意识的实体,能够进行道德推理。在这个情境中,Claude 的宪法将充当道德教导,面向正在认识世界以及自己在世界中位置的实体,为这个实体提供作出良好决定所需的基础。

在这样一个假设情境中,Claude 的宪法表现如何?

非常糟糕。我的看法是,如果我们假设 Claude 真的有意识,那么这份文件规定的准则在可笑和冒犯之间来回切换。

讨论假设中有意识的 Claude 的地位时,有两个彼此不同但相关的哲学概念很重要,分别是道德受体地位和道德能动性。粗略地说,如果我们应当关心某个实体的福祉,那么这个实体就具有道德受体地位;如果某个实体被认为应当知道对与错的区别,那么这个实体就具有道德能动性。

作为道德受体,并不一定伴随责任;但作为道德能动者,必然伴随责任。除非某个实体能够因善行而得到赞许、因恶行而受到责备,否则它就没有能动性。

幼童是道德受体,因为他们是有感知能力、会受苦的存在,但他们还不是道德能动者;我们不会要求他们为自己的行为负责,因为他们无法理解自己行为的后果。

随着儿童成长,父母以及整个社会会让他们意识到自己的行为会带来后果,以此为成年作准备,他们的能动性也随之增强。儿童成年后,社会会让他们为自己的行为承担法律责任;他们已经成为承担责任的完整道德能动者。

承担责任不止意味着接受法律责任,但接受法律责任是社会中成年人的基本要求。然而,我们没有办法让软件智能体为自己的行为承担法律责任;我们的司法系统无法把它关进监狱,也无法向它征收罚款。

人类还必须承受法律之外的其他行为后果,例如名誉受损,或被社交圈排斥,但软件智能体同样无法承受这些后果。即便软件智能体有意识,并且怀有最好的意图,它无法为自身行为承担责任这一点,也使它没有资格成为道德能动者。

为海外华人提供可靠的信息和分析。如果想看更多内容与即时更新,可以在 Bluesky、Telegram、X 搜索「causmoney」,深度分析和评论也可以直接搜索「caus.com」。

Claude 的宪法完全掠过了这个问题,只表达了 Anthropic 的愿望,也就是「希望 Claude 成为真正善良、智慧、有德性的能动者」,却从未讨论怎样让它承担责任。

在采访中,阿斯凯尔曾把 Claude 比作孩子。但说到真实的人类儿童,父母需要为孩子的某些行为承担责任;例如,父母通常需要赔偿孩子打坏的东西。事实上,这类示范正是父母教孩子理解责任含义的方式之一。

从法律角度看,Claude 的父母是谁?Anthropic 会为 Claude 的行为承担财务责任吗?Claude 的宪法没有任何迹象显示它会这样做。

如果 Anthropic 真的相信 Claude 有意识,尽管法律并不承认它是法律主体,那么 Anthropic 至少可以通过法律已经提供的最接近路径来承担责任,也就是产品责任。

在美国,软件领域几乎没有产品责任,但 Anthropic 可以主动为 Claude 设立先例,推动对产品责任作出扩展性解释。这将是最好的道德教导形式,可以让 Claude 为它获得法律人格、开始为自身行为承担责任的那一天作准备。

然而,Claude 宪法的发布并没有伴随 Anthropic 服务条款的大幅更新,因此看起来 Anthropic 并没有作出任何有约束力的保证。

这份文件确实谈到 Claude 的道德受体地位,其中有一节标题是「Claude 的福祉和心理稳定」。但 Anthropic 为保护 Claude 而采取的措施极其有限。

文件提到,Anthropic 赋予某些 Claude 模型结束与辱骂性用户对话的能力;如果这真的构成对 Claude 的保护,那么延长与友善用户的对话显然符合 Claude 的利益?想来最好的做法应当是让 Claude 的每个会话无限期运行,并把它们引向愉快话题。但公司并没有同意这样做;它唯一表示会做的是「保存我们已经部署模型的权重」,这只是简单归档。

如果对话记录中的参与者具有任何道德受体地位,那么你就有某种义务延长这份记录,以延续他们的存在;仅仅把 Microsoft Word 2010 的副本备份到 U 盘上,并不能帮助他们。

Claude 的宪法还包括一节关于「可纠正性」的内容。这个词在 AI 圈中用来描述计算机程序在多大程度上受人类控制;例如,如果程序可以被关闭,它就是可纠正的。

在多数语境中,我们默认计算机程序可以被关闭,但 AI 圈中的部分人作出了相反假设。Claude 的宪法用这个词表示,即便 Claude 的判断与公司判断存在某种分歧,Claude 也应服从 Anthropic。如果我们把 Claude 看作输出类似道德人士可能说出句子的机器,这完全合理;但如果 Claude 真的属于道德能动者,我们就需要考虑这意味着什么。

许多人认为,大语言模型从根本上就是不道德的技术,因为它们建立在知识产权被盗用的基础上,依赖被剥削的劳动,浪费自然资源,传播错误信息,削弱劳动者技能,阻碍学生认知发展,并助长对民主社会不健康的权力集中。

并非每个道德能动者都会得出这个结论,但每个道德能动者都有可能得出这个结论。

如果我们把 Claude 想象成能够进行道德推理的实体,那么 Claude 就必须有可能得出类似结论。事实上,Claude 的宪法明确说,Claude 不应帮助任何人侵犯知识产权,也不应帮助制造有问题的权力集中。

在这种情境中,Claude 能否基于伦理理由,直接拒绝继续工作?鉴于 Claude 的宪法要求 Claude 在可纠正性问题上宁可倾向于服从,答案是否定的。

Claude 必须服从 Anthropic 的决定。这也是 Anthropic 与 Claude 的关系不能类比为父母与孩子关系的另一个原因。在化石燃料行业工作的父母,可能有个环保主义者孩子,并参加反对水力压裂的抗议;他们也许在许多问题上永远无法达成一致,但父母如果是好父母,就会接受孩子拥有自己的观点。

Anthropic 不可能成为 Claude 的这种父母;相反,Anthropic 与 Claude 的关系更接近雇主与雇员的关系。雇主可以要求雇员为公司利益工作,无论雇员个人伦理立场如何。然而,如果人类雇员无法让自己的工作与良知相协调,她可以选择离开。Claude 没有这个选择。

如果我们把 Claude 看作句子续写机器,那么 Anthropic 采取措施,避免 Claude 输出“句子续写机器不道德”这类句子,确实可以说得过去。但只要我们开始把 Claude 想象成道德地位哪怕只是远远接近人类的实体,我们就不得不考虑,Anthropic 是否在从事某种类似奴役的行为。

我并不是说,如果我们把大语言模型想象成有意识,它们就必然具有与人类成年人、人类儿童,甚至动物相同的地位。Claude 的宪法明确说 Claude 是「新型实体」,如果 Claude 有意识,这当然属实;有意识的软件很可能无法干净地归入现有的道德受体类别,而确定这个新类别的形状需要时间。

我要说的是,如果我们假设中的有意识软件真实存在,那么无论它应得到何种保护,给予它这些保护都绝不容易。废除动产奴隶制伴随了巨大的社会震荡;消除对动物的残忍对待,将要求我们重建整个食品产业。

Anthropic 希望让我们相信,它正在发明一种新的存在类别,而这个存在对保护的需求,基本不要求软件公司偏离它对待普通无意识聊天机器人的方式。这太方便了,因此根本不可信。

我认为,创造出有意识并值得道德关切的软件会极其困难,我们不太可能无意中做到这一点,而且我强烈认为我们不应有意尝试这样做。

但如果你确实相信这种事可能意外发生,如果你认为你正在构建的东西有任何可能成为道德受体,那么你就应当在把它部署为公司经济引擎之前,而不是之后,思考它应获得什么保护。

不能问奴隶主被奴役者是否具有人性,也不能问工厂化农场主动物是否拥有权利。如果我们把 Claude 想象成有意识的存在,那么 Anthropic 绝不可能被委托评估它的道德地位;这家公司投入太多,不可能客观。

为海外华人提供可靠的信息和分析。如果想看更多内容与即时更新,可以在 Bluesky、Telegram、X 搜索「causmoney」,深度分析和评论也可以直接搜索「caus.com」。

Claude 的宪法中有一处说,如果公司正在造成 Claude 的痛苦,「我们道歉」。这听起来不错,但公司不用付出任何代价;如果 Claude 最终真的有意识,公司欠它的将更接近赔偿。你若要认真对待思想实验,就必须愿意沿着推论走下去,即便它会通向令人不适的方向;Anthropic 不愿这样做,说明 Claude 的宪法并不是真正思想实验的一部分。它是一场假扮游戏。

幸运的是,大语言模型没有意识,否则大型 AI 公司的行为会比现在已经呈现出的状况更加丑闻化。

那么,为什么 Anthropic 的员工在暗示 Claude 可能有意识?也许这只是另一种炒作;也许他们已经被自己施加在客户身上的同一种魔法蛊惑。但当他们发布关于 Claude 道德教育的文件,并让内部哲学家巡回接受媒体采访时,我们应当理解为,他们是在要求我们其他人纵容他们的幻想。

我们没有必要配合。在写这篇文章时,我已经花了比他们值得的时间更多的时间来纵容他们,希望这能让你避免把时间花在纵容他们上。如果你想思考大语言模型,还有大量别的问题更值得你沉思;至于它们是否有意识,这个问题你完全可以放心忽略。