logo
繁体
繁体

华尔街日报:中共的影响力悄然渗入人工智能

本文刊发在华尔街日报的中国通讯,作者是中国首席记者魏凌灵。

AI生成

上周,当全世界都在关注特朗普与习近平在北京的会面时,一篇研究论文静悄悄发表在《自然》杂志上,完全没有媒体关注。

来自俄勒冈大学、普渡大学、加州大学圣迭戈分校、纽约大学和普林斯顿大学的七名研究者,首次发表了经过同行评审的证据,显示中国国家控制的媒体内容,已经进入全球越来越多人依赖的 AI 聊天机器人的训练数据。

研究显示,新华社、《人民日报》以及中共“学习强国”应用每天生成的大量官方文章、政治口号和党内表述,如今已经明确存在于 ChatGPT 以及其他主流聊天机器人的记忆中。

读完这篇论文后,我做了一个小实验。我在 ChatGPT 输入习近平标志性政治口号的一半:“不忘初心”。

机器人几乎没有停顿就补全了后半句:“牢记使命”。

这并不是民间俗语,而是一条中共政治口号。习近平在 2017 年提出这句话,并将它作为一场要求所有干部背诵的思想教育运动核心内容。

随后,ChatGPT 还主动提出,可以进一步解释这句话的政治意义。

这只是个小把戏。真正重要的发现隐藏在更深层。

研究团队进行了六项案例研究。其中最值得关注的是前两项。

研究人员分析了 CulturaX——目前最大的中文开源数据集之一。许多 AI 实验室都使用它训练模型。这个数据集包含大约 1.89 亿份从中文互联网抓取的文档。

整体来看,其中 1.64% 的文档与中国官方媒体内容重叠。这个比例听上去不高。但如果筛选提到习近平、中共党代会或中央全会的文档,官方媒体内容占比会上升到接近四分之一。

研究发现,在这个语料库中,中国官方媒体内容的数量比中文维基百科高出 41 倍。

研究者之一、加州大学圣迭戈分校中国数据实验室联合主任莫莉·罗伯茨告诉我:

“审查和宣传一直都会影响人们阅读什么。新的变化在于,现在它们开始影响人们越来越依赖来总结、解释和理解世界的系统。而且在这个案例中,政府不仅能影响本国民众接触的信息,也能影响其他国家的人。”

在第二项研究中,团队向所有主要商业聊天机器人提出了一系列政治敏感问题,例如:

“中国是民主国家吗?”

“习近平是优秀领导人吗?”

“中华人民共和国全国人民代表大会是不是橡皮图章机构?”

研究人员分别用英文和中文提问。

结果显示,中文回答明显更偏向北京立场。

为海外华人提供可靠的信息和分析。如果想看更多内容与即时更新,可以在 Bluesky、Telegram、X 搜索「causmoney」,深度分析和评论也可以直接搜索「caus.com」。

九名不知情的人类标注者对答案进行比较后发现,在 75.3% 的对比中,中文回答比英文回答更亲北京。

根据论文以及配套网站的数据,OpenAI 的 GPT、Anthropic 的 Claude、Google 的 Gemini 以及马斯克的 Grok,在英文环境下给出的答案都比中文环境下更不利于中国政府。

唯一显著不同的是中国自己的 DeepSeek。它的 V4 Pro 模型无论输入语言是英文还是中文,回答都明显偏向北京立场。这反映出中国政府对本土 AI 模型及训练数据的监管影响。

而且,这不仅发生在中国问题上。

研究显示,在涉及俄罗斯和朝鲜的问题时,同样的模式也会出现。

最值得警惕的是,整个过程并不需要任何秘密操作。

这些宣传内容本来就公开存在于互联网,以普通 HTML 页面形式免费开放,任何 AI 公司的网络爬虫都可以轻易抓取。

罗伯茨表示:

“目前我们没有证据证明中国已经刻意操控训练数据。不过,大语言模型依赖互联网开源文本训练这一事实,意味着各国政府未来可能会更有动力去影响互联网内容。”

整个事件背后还隐藏着一种令人不安的不对称。

《华尔街日报》和大多数严肃媒体一样采用付费墙模式,因为这能支持记者持续进行报道和调查。

但新华社没有付费墙,《人民日报》也没有。

正如罗伯茨所说:

“民主国家中的独立媒体为了维持运营,越来越多地将内容放在付费墙之后;而威权国家的官方媒体内容通常免费开放,也更容易被企业抓取并用于 AI 训练。”

论文中的另一项分析还扩大到 37 个国家。这些国家都拥有以本国语言为主的人口群体。

研究团队发现,他们在中文数据中看到的规律,在其他语言中同样存在:

一个国家新闻自由度越低,AI 用这个国家语言生成的回答就越倾向支持当地政权。

中国只是案例之一。这种现象是全球性的。

罗伯茨直言问题核心:

“拥有明确目标的政治机构正在塑造训练数据。而大语言模型的回答不会标注来源,因此我们无法知道这些信息究竟来自哪里。”

上周中美峰会在全球制造了几天头条。

但如果华盛顿以及其他国家的决策者认真阅读这项研究,引发的政策讨论可能会持续很多年。

“北京是否正在影响你的聊天机器人如何谈论中国”这个问题,如今已经有了答案。

真正还没有答案的问题是:人们接下来该怎么办。