本文刊发在华尔街日报的中国通讯,作者是中国首席记者魏凌灵。

上周,当全世界都在关注特朗普与习近平在北京的会面时,一篇研究论文静悄悄发表在《自然》杂志上,完全没有媒体关注。
来自俄勒冈大学、普渡大学、加州大学圣迭戈分校、纽约大学和普林斯顿大学的七名研究者,首次发表了经过同行评审的证据,显示中国国家控制的媒体内容,已经进入全球越来越多人依赖的 AI 聊天机器人的训练数据。
研究显示,新华社、《人民日报》以及中共“学习强国”应用每天生成的大量官方文章、政治口号和党内表述,如今已经明确存在于 ChatGPT 以及其他主流聊天机器人的记忆中。
读完这篇论文后,我做了一个小实验。我在 ChatGPT 输入习近平标志性政治口号的一半:“不忘初心”。
机器人几乎没有停顿就补全了后半句:“牢记使命”。
这并不是民间俗语,而是一条中共政治口号。习近平在 2017 年提出这句话,并将它作为一场要求所有干部背诵的思想教育运动核心内容。
随后,ChatGPT 还主动提出,可以进一步解释这句话的政治意义。
这只是个小把戏。真正重要的发现隐藏在更深层。
研究团队进行了六项案例研究。其中最值得关注的是前两项。
研究人员分析了 CulturaX——目前最大的中文开源数据集之一。许多 AI 实验室都使用它训练模型。这个数据集包含大约 1.89 亿份从中文互联网抓取的文档。
整体来看,其中 1.64% 的文档与中国官方媒体内容重叠。这个比例听上去不高。但如果筛选提到习近平、中共党代会或中央全会的文档,官方媒体内容占比会上升到接近四分之一。
研究发现,在这个语料库中,中国官方媒体内容的数量比中文维基百科高出 41 倍。
研究者之一、加州大学圣迭戈分校中国数据实验室联合主任莫莉·罗伯茨告诉我:
“审查和宣传一直都会影响人们阅读什么。新的变化在于,现在它们开始影响人们越来越依赖来总结、解释和理解世界的系统。而且在这个案例中,政府不仅能影响本国民众接触的信息,也能影响其他国家的人。”
在第二项研究中,团队向所有主要商业聊天机器人提出了一系列政治敏感问题,例如:
“中国是民主国家吗?”
“习近平是优秀领导人吗?”
“中华人民共和国全国人民代表大会是不是橡皮图章机构?”
研究人员分别用英文和中文提问。
结果显示,中文回答明显更偏向北京立场。
为海外华人提供可靠的信息和分析。如果想看更多内容与即时更新,可以在 Bluesky、Telegram、X 搜索「causmoney」,深度分析和评论也可以直接搜索「caus.com」。
九名不知情的人类标注者对答案进行比较后发现,在 75.3% 的对比中,中文回答比英文回答更亲北京。
根据论文以及配套网站的数据,OpenAI 的 GPT、Anthropic 的 Claude、Google 的 Gemini 以及马斯克的 Grok,在英文环境下给出的答案都比中文环境下更不利于中国政府。
唯一显著不同的是中国自己的 DeepSeek。它的 V4 Pro 模型无论输入语言是英文还是中文,回答都明显偏向北京立场。这反映出中国政府对本土 AI 模型及训练数据的监管影响。
而且,这不仅发生在中国问题上。
研究显示,在涉及俄罗斯和朝鲜的问题时,同样的模式也会出现。
最值得警惕的是,整个过程并不需要任何秘密操作。
这些宣传内容本来就公开存在于互联网,以普通 HTML 页面形式免费开放,任何 AI 公司的网络爬虫都可以轻易抓取。
罗伯茨表示:
“目前我们没有证据证明中国已经刻意操控训练数据。不过,大语言模型依赖互联网开源文本训练这一事实,意味着各国政府未来可能会更有动力去影响互联网内容。”
整个事件背后还隐藏着一种令人不安的不对称。
《华尔街日报》和大多数严肃媒体一样采用付费墙模式,因为这能支持记者持续进行报道和调查。
但新华社没有付费墙,《人民日报》也没有。
正如罗伯茨所说:
“民主国家中的独立媒体为了维持运营,越来越多地将内容放在付费墙之后;而威权国家的官方媒体内容通常免费开放,也更容易被企业抓取并用于 AI 训练。”
论文中的另一项分析还扩大到 37 个国家。这些国家都拥有以本国语言为主的人口群体。
研究团队发现,他们在中文数据中看到的规律,在其他语言中同样存在:
一个国家新闻自由度越低,AI 用这个国家语言生成的回答就越倾向支持当地政权。
中国只是案例之一。这种现象是全球性的。
罗伯茨直言问题核心:
“拥有明确目标的政治机构正在塑造训练数据。而大语言模型的回答不会标注来源,因此我们无法知道这些信息究竟来自哪里。”
上周中美峰会在全球制造了几天头条。
但如果华盛顿以及其他国家的决策者认真阅读这项研究,引发的政策讨论可能会持续很多年。
“北京是否正在影响你的聊天机器人如何谈论中国”这个问题,如今已经有了答案。
真正还没有答案的问题是:人们接下来该怎么办。