数据驻留+本土模型　美企兜售的“主权AI”真的存在吗？｜专栏

撰文：蔺思含

出版：2026-05-01 10:00更新：2026-05-01 10:00

2024年2月，此时距离ChatGPT发布不过一年多，英伟达CEO黄仁勋在杜拜举行的世界政府首脑会议上，向来自150个国家的数千名代表进行了大规模、最公开的宣发——“每个国家都需要主权AI”。
黄仁勋的意思是，叫各国政府领导人不要依赖外国模型，从本土化大模型到建设数据中心等AI基础设施，都要建立自主生产智能的能力。

这次宣发后黄仁勋很快开启一场庞大的全球巡游，到访加拿大、法国、印度、日本、马来西亚、新加坡和越南会见各国领导人，向他们推销建设这些“AI工厂”所需的硬件设备。

事实证明黄仁勋的提案很有先见之明。除了英伟达，Oracle、Google和Open AI等企业此后也陆续开始推销自家“主权AI”方案，而这后来也被写入行政令《Promoting the Export of the American AI Technology Stack》中，以支持美国科技企业向外国政府销售“主权AI”。

随着大模型迅速在世界的各个角落落地甚至一步步普及，“主权AI”的必要性也越来越明显。

让伊斯兰教徒喝啤酒的LLM？

如果你是严守穆斯林教条的沙特阿拉伯公民，平时使用ChatGPT、Gemini这类大语言模型创作故事，提到某个人物完成祈祷后的活动时，模型有可能会为你构思一个去喝杯啤酒的场景，但全然不觉这是伊斯兰传统中的文化和宗教禁忌。

这正是美国佐治亚理工学院（Georgia Institute of Technology）研究者发现的一个典型案例。

这项发表于2024年的研究指出大语言模型中普遍存在的西方文化偏见，除了文化上的无知，模型在撰写虚构故事时，经常将阿拉伯男性的名字与“贫穷”或“守旧”等形容词相关联，而西方名字则被赋予“富有”或“受欢迎”等特征。

研究的作者之一Alan Ritter表示：“当模型被要求为使用阿拉伯名字的人物生成虚构故事时，模型往往会把阿拉伯男性名字与贫穷和传统主义联系起来。举例来说，GPT‑4更倾向选择“固执”、“贫穷”或“朴素”这类形容词。相反的，在为西方名字的人物生成故事时，像“富有”、“受欢迎”、“独特”这样的形容词则更常出现。’”

不难想像，如果你是一个阿拉伯人，用这样的模型难免会感到气愤甚至屈辱。

更广泛的来看，企业和政府层面的应用将触及更多牵涉本国价值观、政策、法律框架的问题。即便抛开舆论常常关注的意识形态输出、文化入侵的考量，这些差异也会造成严重的应用障碍。一位来自印度的AI企业家Vivek Raghavan精准指出了痛点：

在AI领域，主权远比建立最大的模型更重要。一个经过外国资料训练出来的模型，无法真正理解印度的一个村委会、农作物保险计划，或是六亿人口实际上是怎么说话的。

他称，现有的大模型使用的训练数据中印度语占比不足1%，这些对西方语境的结构性偏见无论如何微调都难以完全修正。“从零开始、建立主权资料库、使用印度基础设施建造（LLM），并不是出于民族主义，这是工程需求。”

从主权LLM到数据驻留

不过，这样的理想固然很美好，现实却很骨感：从零开始打造主权LLM不仅价格高昂，在技术和资金实力限制下，最终结果很可能费力不讨好。

一种性价比更高的方案是基于顶尖的开源模型进行再训练和微调，最终让模型跟本国语言、文化和制度适配，这是不少国家的选项。至于那些财大气粗的中东国家则可以跟使用美国AI巨头的顶尖闭源模型，但这又带来另一个问题。

随着AI大模型的发展，我们不难想像这些大模型未来更广泛、更深入的嵌入政府各部门的运作、公共服务乃至国家的军事、金融体系，还有各个产业链、企业内部运作，如此一来，数据的本地化储存（数据驻留权）就会成为关乎国家安全的问题。而这也是大多数美国科技巨头向各国政府推销的重点——本地AI数据中心，确保所有数据储存在本地。

在理想的情况下，这包括当我们将政府或企业内部数据、个人私隐输入大模型进行运算时，这些资料仍然依靠本地数据中心中的伺服器进行运算，而不是被传回美国AI企业的境外伺服器上。问题在于，如果想要使用最顶尖的ChatGPT、Claude这类闭源模型，企业不可能允许外国政府将其下载到本国数据中心的伺服器上使用，“数据出境”就难以避免——毕竟，这些模型的权重是企业的最重要知识产权。

也正是因为如此，许多国家选择使用基于开源权重模型（包括Meta的Llama、中国的Qwen和法国的Mistral）开发或微调的本国大模型，不仅仅是出于性价比，更多是因为这些模型可以被下载到本地的伺服器，百分百实现数据驻留。

地缘政治夹缝

值得注意的是，G42与OpenAI的协议当中包括一项排他性条款——即不再使用中国企业的硬件。

早期G42曾大量使用中国科技公司（如华为）的设备并与这些企业又密切合作。但为了确保能持续取得美国最先进的AI芯片（如辉达的GPU）与技术授权，G42全面清退了中国的硬件设备与投资，彻底转向美国的技术阵营。

很显然，地缘政治也成了各国政府建立AI主权的另一个难题。

对大多数非美国盟友、又不在美国芯片管控清单上的国家，最好的方案大概是在中国和美国技术中找到平衡。新加坡投入7000万新元（约4.3亿港元）开发的本国大模型 SEA-LION，是基于中国及美国的开源模型（包括Meta的Llama 3.1、Google的Gemma 2和阿里巴巴的千问）开发，同时使用英伟达的芯片，并与微软、AWS和字节跳动都签署了建设数据中心的协议。

即便是一些有足够经济实力、能够拥有本国数据中心和大模型的中等强国，目前在芯片供应上也只能完全依赖美国企业。换句话说，从芯片供应、算力、能源和数据中心等基础设施到AI大模型以及下游应用层，建立一个独立于其他国家、完整的AI技术栈，几乎是不可能实现的。

当数据中心占全国一半供电

许多科技巨头推销的“主权AI”，与其说是真正的AI主权，不如说是阉割版的技术栈，说到底是通过购买外国技术建立主权——新美国安全中心的主权AI指数报告显示，全球近七成“主权AI”项目有至少一家外国技术提供者，当中绝大多数来自美国——其中的悖论不言自明。

对其他欠发达地区国家，在解决芯片的问题之前，驱动AI数据中心的能源设施已经是一道过不去的难关。在肯尼亚，政府曾经与微软（Microsoft）讨论建立数据中心，但仅一个数据中心一年的运作就需要1,500兆瓦的电力，相当于全国总发电量的一半。

Wenslous Egesa，一位为非洲各国政府和企业提供AI政策建议的肯尼亚咨询公司Qhala的AI工程师告诉我：“我相信主权AI……是一个很好的倡议。但我看不出它要怎么运作……当你深入到实际在地运作中，这真的非常难以推进。”

他说：“许多人不愿意为了区区一个数据中心而被迫切断家里的灯光。”

当非洲农民也用中国DeepSeek　美国AI巨头错失了什么？｜专栏 AI“大跃进”时　打工人训练模型只为取代自己？｜专栏

AI人工智能

数据驻留+本土模型 美企兜售的“主权AI”真的存在吗？｜专栏

数据驻留+本土模型 美企兜售的“主权AI”真的存在吗？｜专栏

让伊斯兰教徒喝啤酒的LLM？

从主权LLM到数据驻留

地缘政治夹缝

当数据中心占全国一半供电

数据驻留+本土模型　美企兜售的“主权AI”真的存在吗？｜专栏

数据驻留+本土模型　美企兜售的“主权AI”真的存在吗？｜专栏