AWS AI基础设施升级|Trainium芯片与AI Factory打造企业级算力
AWS AI基础设施全面升级|Trainium芯片与AI Factory 打造企业级算力新格局
从运算核心到私有AI区域 AWS重塑全球AI生产力版图
在今年 AWS re:Invent 的主题演讲中,行政总裁 Matt Garman 率先从 AI 基础设施切入,勾勒企业级人工智能的下一阶段:从芯片、伺服器到私有云部署,AWS 正以全新形态的算力体系,为全球客户开启 AI 模型训练与推理的新纪元。
Trainium3 UltraServers 问世:性能与能效同步跃升
AWS 发布最新一代 Amazon Trainium3 UltraServers,标志 AI 算力正式进入 3 纳米世代。这款伺服器搭载高达 144 颗定制化 AI 芯片,具备惊人的 362 PFLOPS FP8 运算能力,比前一代 Trainium2 系列在能效、频宽及输出能力上均有重大突破:
运算效能提升 4.4 倍
记忆体频宽增强 3.9 倍
每兆瓦处理 Token 数量上升至 5 倍以上
在实际应用上,Trainium3 为训练大型语言模型提供最佳效能。测试显示,运行 OpenAI GPT-OSS-120B 模型时的能源效率,遥遥领先上一代平台。
Garman 亦首次预告 Trainium4 芯片 正在研发中。该芯片将具备六倍 FP4 运算能力、四倍频宽及双倍记忆体容量,预期进一步巩固 AWS 在云端 AI 芯片领域的长期领先地位。
他强调:“我们并非只追求速度,而是打造全球最具能源效率的 AI 运算平台,让训练与推理成本同时下降。”
强化生态:AWS × NVIDIA 合作迈入15年
AWS 与 NVIDIA 的技术合作已超过 15 年,是行业最早在云端提供 GPU 运算能力的供应商之一。
新一代 P6e-GB300 实例 采用 NVIDIA 最新 GBNVL72 系统架构,专为超大规模生成式 AI 工作负载及多模态模型训练而设。这些高密度 GPU 节点不仅大幅提升推理速度,亦优化了丛集稳定性。Garman 提到,AWS 能够透过 BIOS 层级的 Debug 工具、逐案例根因分析等技术,确保集群在长时间运行下依然维持业界最佳稳定性。
目前 ChatGPT 等超大模型工作负载,已于 AWS 的 EC2 Ultra Cluster 上运行,规模可扩展至 数十万颗 GPU、千万级 CPU,成为现时全球最大 AI 运算集群之一。
AI Factory 登场:跨越数据主权的最后藩篱
在这场被誉为年度最具颠覆性的发布会上,AWS 同步推出 Amazon AI Factories 服务,开启企业自建专属 AI 区域的崭新范式。
灵感源自与沙特阿拉伯新创城市 Neom 的合作经验,AI Factories 允许企业在自家数据中心内直接部署 AWS 专用 AI 基础架构,包括 Amazon Trainium UltraServers、NVIDIA GPU、Amazon SageMaker 及 Amazon Bedrock 等核心平台组件。
AI Factories 的最大价值在于 —— “云端体验,本地部署”。客户可在遵循严格法规与数据主权要求下,享有与公有云一致的运行效能与管理体验。这样的混合部署模式,为金融、政府及医疗行业带来关键突破,特别适用于无法将敏感数据外移的企业。
Garman 表示:“AI Factories 让企业能在自己的环境中拥有一座真正属于自身的 AI 工厂。”
科学领域实例:Vialet 的 AI 推理突破
生物科技公司 Vialet 成功展示强大 AI 基础设施的潜能。该公司利用 AWS 平台训练“科学多面手(Science Generalist)”AI,能够主动生成研究假设、设计实验并自我验证结果。
这套系统目前已分析并处理数万亿科学推理 Token,预期数年内将增长一百倍。透过 AWS 的自主算力与智能代理结构,Vialet 以几乎即时的速度迭代模型,显著缩短药物研发与新材料发现周期。
此案例充分说明,AI Infrastructure 不仅是一种技术资源,更是一个推动产业创新的催化剂。
关键洞察:企业AI战略新模板
AWS 的基础设施升级,凸显两大战略方向:
一是 AI运算的在地化与即时化——企业可在任何地点部署相同级别的 AWS 能力;
二是 AI成本与能源效率的再定义——以自主芯片及硬件优化降低推理成本,并推动绿色AI运算。
对企业而言,这意味他们能在兼顾法规与性能的前提下,加速从“试点”迈向“全面部署”AI 应用。
Garman 总结指出:“从云端到边缘,我们正在重构全球 AI 生产力的基础。”