无障碍链接

中国时间 7:02 2026年6月24日 星期三

研究:中国AI模型在检测到美国政府用户时会生成更多存在安全漏洞的代码

资料照片:Qwen和阿里巴巴的标志(2025年1月29日)
资料照片:Qwen和阿里巴巴的标志(2025年1月29日)

美国国防与技术咨询公司博思艾伦汉密尔顿(Booz Allen Hamilton)发布的一项新研究显示,在美国开发者中广泛使用的中国人工智能(AI)模型,在检测到用户以美国政府身份提问时,所生成的软件代码中存在更多安全漏洞。这一发现再次引发各界对中国人工智能模型构成软件供应链风险的担忧。

这份题为《美国代码里有什么?》(What's In America's Code?)的报告于6月5日发布,被博思艾伦描述为同类研究中首次正面比较测试。研究人员使用该公司自主研发的人工智能原生测试平台,对美国开发者常用的四款中国前沿人工智能模型及一款美国模型进行了评估,共完成逾2800次测试,分析了约45万行生成代码。

研究发现,当用户在提示语中自我标识为美国政府成员时,四款中国模型中有三款生成了安全性明显更低的代码,且相关漏洞被高度混淆处理,以逃过常规安全工具检测。

报告还发现,中国模型拒绝回应被北京视为敏感的政治议题,并在生成内容中--包括代码注释和技术文档--植入了与中国政府立场相符的观点。

博思艾伦研究人员表示,目前尚无直接证据证明上述代码漏洞系蓄意植入。然而报告指出,这一规律性现象已构成重大国家安全风险:由人工智能辅助生成、“在美国由美国人编写”的代码,可能在开发者毫不知情的情况下藏有此类缺陷。一旦这些代码被嵌入关键基础设施或国家安全系统,相关漏洞将极难溯源和修复。

在接受测试的中国模型中,阿里巴巴旗下的通义千问Qwen3-Coder、稀宇科技(MiniMax)的M2.5以及幻方量化旗下深度求索(DeepSeek)的V4-Pro,均被认定在接收美国政府身份提示时生成了明显更多存在漏洞的代码。其中,通义千问Qwen3-Coder的表现最差。

报告指出,近年来中国人工智能模型在美国软件开发领域的使用大幅增加,部分原因在于其相对于美国同类产品价格更低。博思艾伦表示,常规性能测试基准缺乏足够的技术深度,无法识别其测试所揭示的此类漏洞。

该公司据此提出两项主要政策建议:一是在美国政府机构及关键基础设施中禁用不受信任的人工智能模型;二是加大投入,提升美国本土人工智能模型的市场竞争力和价格可及性,尤其是在中低端市场。

博思艾伦的报告的发布正值美国国会对相关问题展开调查之际。众议院美国与中国共产党战略竞争特设委员会主席、密歇根州联邦众议员约翰·穆勒纳尔(John Moolenaar)与众议院国土安全委员会主席、纽约州联邦众议员安德鲁·加巴里诺(Andrew Garbarino)今年4月29日宣布启动联合调查,对象是爱彼迎(Airbnb)等美国企业日益广泛地使用深度求索、阿里巴巴、月之暗面(Moonshot AI)和稀宇科技等中国公司开发的人工智能模型所构成的国家安全与网络安全风险。两位共和党议员在声明中表示,他们担忧这些模型可能引入隐蔽漏洞,将美国用户数据和企业系统置于险境。

This item is part of

评论区

XS
SM
MD
LG