数据驻留+本土模型 美企兜售的“主权AI”真的存在吗?|专栏
2024年2月,此时距离ChatGPT发布不过一年多,英伟达CEO黄仁勋在杜拜举行的世界政府首脑会议上,向来自150个国家的数千名代表进行了大规模、最公开的宣发——“每个国家都需要主权AI”。
黄仁勋的意思是,叫各国政府领导人不要依赖外国模型,从本土化大模型到建设数据中心等AI基础设施,都要建立自主生产智能的能力。
这次宣发后黄仁勋很快开启一场庞大的全球巡游,到访加拿大、法国、印度、日本、马来西亚、新加坡和越南会见各国领导人,向他们推销建设这些“AI工厂”所需的硬件设备。
事实证明黄仁勋的提案很有先见之明。除了英伟达,Oracle、Google和Open AI等企业此后也陆续开始推销自家“主权AI”方案,而这后来也被写入行政令《Promoting the Export of the American AI Technology Stack》中,以支持美国科技企业向外国政府销售“主权AI”。
随着大模型迅速在世界的各个角落落地甚至一步步普及,“主权AI”的必要性也越来越明显。
让伊斯兰教徒喝啤酒的LLM?
如果你是严守穆斯林教条的沙特阿拉伯公民,平时使用ChatGPT、Gemini这类大语言模型创作故事,提到某个人物完成祈祷后的活动时,模型有可能会为你构思一个去喝杯啤酒的场景,但全然不觉这是伊斯兰传统中的文化和宗教禁忌。
这正是美国佐治亚理工学院(Georgia Institute of Technology)研究者发现的一个典型案例。
这项发表于2024年的研究指出大语言模型中普遍存在的西方文化偏见,除了文化上的无知,模型在撰写虚构故事时,经常将阿拉伯男性的名字与“贫穷”或“守旧”等形容词相关联,而西方名字则被赋予“富有”或“受欢迎”等特征。
研究的作者之一Alan Ritter表示:“当模型被要求为使用阿拉伯名字的人物生成虚构故事时,模型往往会把阿拉伯男性名字与贫穷和传统主义联系起来。举例来说,GPT‑4更倾向选择“固执”、“贫穷”或“朴素”这类形容词。相反的,在为西方名字的人物生成故事时,像“富有”、“受欢迎”、“独特”这样的形容词则更常出现。’”
不难想像,如果你是一个阿拉伯人,用这样的模型难免会感到气愤甚至屈辱。
更广泛的来看,企业和政府层面的应用将触及更多牵涉本国价值观、政策、法律框架的问题。即便抛开舆论常常关注的意识形态输出、文化入侵的考量,这些差异也会造成严重的应用障碍。一位来自印度的AI企业家Vivek Raghavan精准指出了痛点:
在AI领域,主权远比建立最大的模型更重要。一个经过外国资料训练出来的模型,无法真正理解印度的一个村委会、农作物保险计划,或是六亿人口实际上是怎么说话的。
他称,现有的大模型使用的训练数据中印度语占比不足1%,这些对西方语境的结构性偏见无论如何微调都难以完全修正。“从零开始、建立主权资料库、使用印度基础设施建造(LLM),并不是出于民族主义,这是工程需求。”
从主权LLM到数据驻留
不过,这样的理想固然很美好,现实却很骨感:从零开始打造主权LLM不仅价格高昂,在技术和资金实力限制下,最终结果很可能费力不讨好。
一种性价比更高的方案是基于顶尖的开源模型进行再训练和微调,最终让模型跟本国语言、文化和制度适配,这是不少国家的选项。至于那些财大气粗的中东国家则可以跟使用美国AI巨头的顶尖闭源模型,但这又带来另一个问题。
随着AI大模型的发展,我们不难想像这些大模型未来更广泛、更深入的嵌入政府各部门的运作、公共服务乃至国家的军事、金融体系,还有各个产业链、企业内部运作,如此一来,数据的本地化储存(数据驻留权)就会成为关乎国家安全的问题。而这也是大多数美国科技巨头向各国政府推销的重点——本地AI数据中心,确保所有数据储存在本地。
在理想的情况下,这包括当我们将政府或企业内部数据、个人私隐输入大模型进行运算时,这些资料仍然依靠本地数据中心中的伺服器进行运算,而不是被传回美国AI企业的境外伺服器上。问题在于,如果想要使用最顶尖的ChatGPT、Claude这类闭源模型,企业不可能允许外国政府将其下载到本国数据中心的伺服器上使用,“数据出境”就难以避免——毕竟,这些模型的权重是企业的最重要知识产权。
也正是因为如此,许多国家选择使用基于开源权重模型(包括Meta的Llama、中国的Qwen和法国的Mistral)开发或微调的本国大模型,不仅仅是出于性价比,更多是因为这些模型可以被下载到本地的伺服器,百分百实现数据驻留。
地缘政治夹缝
值得注意的是,G42与OpenAI的协议当中包括一项排他性条款——即不再使用中国企业的硬件。
早期G42曾大量使用中国科技公司(如华为)的设备并与这些企业又密切合作。但为了确保能持续取得美国最先进的AI芯片(如辉达的GPU)与技术授权,G42全面清退了中国的硬件设备与投资,彻底转向美国的技术阵营。
很显然,地缘政治也成了各国政府建立AI主权的另一个难题。
对大多数非美国盟友、又不在美国芯片管控清单上的国家,最好的方案大概是在中国和美国技术中找到平衡。新加坡投入7000万新元(约4.3亿港元)开发的本国大模型 SEA-LION,是基于中国及美国的开源模型(包括Meta的Llama 3.1、Google的Gemma 2和阿里巴巴的千问)开发,同时使用英伟达的芯片,并与微软、AWS和字节跳动都签署了建设数据中心的协议。
即便是一些有足够经济实力、能够拥有本国数据中心和大模型的中等强国,目前在芯片供应上也只能完全依赖美国企业。换句话说,从芯片供应、算力、能源和数据中心等基础设施到AI大模型以及下游应用层,建立一个独立于其他国家、完整的AI技术栈,几乎是不可能实现的。
当数据中心占全国一半供电
许多科技巨头推销的“主权AI”,与其说是真正的AI主权,不如说是阉割版的技术栈,说到底是通过购买外国技术建立主权——新美国安全中心的主权AI指数报告显示,全球近七成“主权AI”项目有至少一家外国技术提供者,当中绝大多数来自美国——其中的悖论不言自明。
对其他欠发达地区国家,在解决芯片的问题之前,驱动AI数据中心的能源设施已经是一道过不去的难关。在肯尼亚,政府曾经与微软(Microsoft)讨论建立数据中心,但仅一个数据中心一年的运作就需要1,500兆瓦的电力,相当于全国总发电量的一半。
Wenslous Egesa,一位为非洲各国政府和企业提供AI政策建议的肯尼亚咨询公司Qhala的AI工程师告诉我:“我相信主权AI……是一个很好的倡议。但我看不出它要怎么运作……当你深入到实际在地运作中,这真的非常难以推进。”
他说:“许多人不愿意为了区区一个数据中心而被迫切断家里的灯光。”