logo
繁体
繁体

中国已经研发出专注于习近平思想的大语言模型和聊天机器人

据金融时报报道,中国政府试图控制人工智能如何为中国网民提供信息,最新尝试是推出了一个根据习近平思想进行训练的聊天机器人。中国最新的大型语言模型(LLM)一直在学习中国领导人的政治哲学,即 “习近平新时代中国特色社会主义思想”,以及中国网络空间管理局提供的其他官方文献。

Visite d’Ursula von der Leyen, présidente de la Commission européenne, en France

“语料库的专业性和权威性确保了生成内容的专业性,”中国网络空间管理局周一在社交媒体上的文章中说道。

中国官员在努力确保人工智能理解习近平思想的同时,也在努力平衡国家对言论自由的严厉控制与促进人工智能发展之间的关系。

据一位参与项目的人士称,新模型目前正在这个强大的互联网监管机构下属的一个研究中心使用,但最终可能会被推向社会。帖子称,新模型可以回答问题、创建报告、总结信息和中英文互译。

在创建这个大模型之前,中国官员已做出大量努力,以各种形式传播习近平的政治、经济和文化思想。以习近平的名字出版的书籍已有几十家,他的畅销书通常会成为中国书展的中心。腾讯或网易等公司推出的热门新闻应用程序,会在信息流的顶部为官方媒体的文章预留位置,这些文章大多以习近平为主角。

官方还要求年仅 10 岁的学童学习习近平的政治理念。他们创建了 “学习习近平强国思想 “应用程序,对全国约 1 亿名党员进行知识传授和测试。

2018 年,他的思想被写入国家宪法。

中国互联网协会牵头发布了生成式人工智能规则,并引入了许可制度,规定生成式人工智能提供商必须 “体现社会主义核心价值观”,并表示生成的内容不能 “包含任何颠覆国家政权的内容”,公司要对其人工智能产出负责。

由于可用于训练 LLM 的中文数据集相对稀少,这对模型开发者来说是一个特殊的挑战。大多数小组也使用英语信息进行训练,这就为生成式人工智能带来了产生不不和谐内容的可能性。

百度和阿里巴巴等科技巨头,已确保其模型严格控制生成与习近平或其他潜在敏感问题相关的内容。当被问及敏感话题时,这两家公司的生成式人工智能聊天机器人通常会要求用户重启。

为帮助开发者解决这一问题,中国网络安全协会(与中国互联网协会结盟的非营利组织)于12月发布了首个包含1亿条 “高质量、可信数据 “的公共数据库,供企业用于模型训练。根据《金融时报》查阅的部分资料,这套培训材料主要来自政府法规和政策文件、国家媒体报道和其他官方出版物。

在数据包中的几十份文本文件中,有一份包含了86314次提及习近平的内容。其中一行写道:”让我们更加紧密地团结在以习近平同志为核心的党中央周围”, “确保在思想上、政治上、行动上始终同以习近平总书记为核心的党中央保持高度一致”。