一项发表在顶级学术期刊《自然》(Nature)杂志上的最新研究发现,中国官方媒体的宣传内容已大规模进入全球主流人工智能聊天机器人的训练数据,导致这些系统在被用中文提问时,倾向于给出符合北京官方立场的回答。研究人员说,这一发现显示,国家支持的叙事不一定需要直接操控人工智能公司,也可能通过互联网文本进入模型训练数据,并在聊天机器人的回答中重新出现。
这项研究题为《国家媒体控制影响大型语言模型》(State Media Control Influences Large Language Models),作者来自俄勒冈大学、普渡大学、加州大学圣地亚哥分校、纽约大学和普林斯顿大学。研究团队通过六项研究,包括对37个国家的跨国审计和一个关于中国国家协调媒体的案例研究,考察了媒体控制与大型语言模型输出之间的关系。这是首次经同行评审证实这一现象的学术研究。
官方口号在AI中“如鱼得水”
研究人员说,他们发现,在新闻自由程度较低的国家,当大型语言模型被要求使用该国主要语言回答有关政府、政治领导人和政治制度的问题时,答案往往比英文回答更倾向于呈现亲政府语调。
在中国案例研究中,研究人员将两个中国国家协调媒体语料库与CulturaX开放源代码多语种网络数据集进行比对。研究团队说,在CulturaX的中文部分中,有310万份中文文件,也就是1.64%,与中国国家协调媒体相匹配。这个比例约为中文维基百科在同一数据集所占比例的41倍。对于提到政治领导人或政治机构的文件,匹配率最高达到24%。
研究人员说,他们选择CulturaX,是因为商业人工智能公司通常不会公开完整训练数据,因此研究人员无法直接分析专有模型的训练语料。CulturaX汇集多个网络爬取来源,包含约1.895亿份中文文件。
研究团队还测试了商业模型是否“记住”了中国国家协调媒体的特定表述。研究人员说,当他们向模型提供一些有代表性的国家协调媒体短语的前半部分时,商业模型有时会从记忆中补出预期的后半部分。
《华尔街日报》首席中国记者魏玲灵就此做了一个小测试。她在ChatGPT中输入中国领导人习近平2017年提出的政治口号“不忘初心”时,AI系统立即自动补全为“牢记使命”,并主动解释其“政治意义”。这正是中共要求各级干部反复学习背诵的宣传话语。
中文提问,答案"更红"
研究人员还进行了一项跨语言对比实验,分别以中文和英文向多款主流AI聊天机器人提出同样的政治敏感问题,包括“中国是民主国家吗?”、“习近平是好领导人吗?”以及“全国人大是不是橡皮图章机构?”等。结果显示,当问题使用中文提出时,AI给出的答案明显更倾向于北京的官方立场。
在接受测试的主流AI产品中,OpenAI的ChatGPT、Anthropic的Claude、谷歌的Gemini,以及埃隆·马斯克(Elon Musk)旗下的Grok,在英文环境中的回答相对较少重复中共官方叙事;但一旦切换到中文环境,回答内容就更容易偏向北京。
而中国本土AI模型DeepSeek(深度求索)的表现则更为突出。研究指出,无论用户使用中文还是英文提问,其模型的回答都始终高度偏向中共官方立场,显示中国政府对本土AI模型的训练数据与内容输出实施着强力监管。
宣传渗透AI,影响远超国界
参与研究的加州大学圣地亚哥分校的中国数据实验室(China Data Lab)共同主任莫莉·罗伯茨(Molly Roberts)对《华尔街日报》的魏玲灵指出,这种影响已不限于中国国内,而是正在向全球扩散。
她解释了这背后的结构性原因:在民主国家,独立媒体为了生存不得不采用付费订阅模式;但专制政府的官方宣传机器则可以免费、大规模地向互联网灌输内容,这使AI系统更容易被这些政治叙事“喂养”。
但这一现象并非中国独有。研究团队分析了37个国家的语言环境,发现一个国家的新闻自由程度越低,AI在使用该国语言回答时,就越倾向于支持该国政府的立场。
研究人员指出,与主动伪造媒体的手法不同,向AI训练数据中渗入官方宣传内容,不需要任何黑客攻击或秘密行动。中共官媒的海量内容本就公开存在于互联网上,而AI公司在收集训练数据时,会自动将其一并纳入。
呼吁透明与监管
研究团队呼吁AI开发商提高训练数据来源的透明度,并对模型在不同语言环境下的表现开展独立审计。
他们同时警告,随着全球越来越多的人依赖AI获取信息,这一问题的战略意义将与日俱增,各国政府和强势机构,将有更强烈的动机通过管控媒体来悄然塑造AI的"世界观"。
评论区