Google的AI模型Gemini 3.0橫空出世,引爆市場對於AI ASIC挑戰AI GPU的話題,加上Google自研TPU已經十年,Ironwood TPU v7更被視為有機會挑戰NVIDIA最新AI GPU架構的挑戰者,其中,傳出與台灣IC設計龍頭聯發科合作,有望強強聯手,挑戰NVIDIA龐大的生態系。
不過,AWS不讓Google專美於前,在年度大會也正式推出最新自研AI晶片Trainium 4,採用3奈米製程,更宣布整合 NVIDIA NVLink 與 MGX 架構,使其能在高密度 AI 訓練與推論環境中擴大效能表現,雙方展現緊密合作關係。
NVIDIA說明,NVLink Fusion 結合 AWS 自研硬體後,可讓系統在不依賴傳統乙太網路架構的情況下,達成更低延遲、更快互連頻寬,加速模型訓練速度。AWS 目前已大規模部署搭載 NVIDIA GPU 的 MGX 機架,導入 NVLink Fusion 後,可進一步簡化機架設計與冷卻配置,同時提高部署彈性。
供應鏈方面,AWS 將使用 NVLink Fusion 生態系提供的完整元件,涵蓋電力、冷卻與機箱等,使其能更快速落地客製化 AI 伺服器平台,也讓 AWS 在 AI 服務擴張時更具規模經濟性。NVIDIA Vera Rubin 架構也將完全支援 AWS 的 Elastic Fabric Adapter 與 Nitro System,使新的 AI 基礎架構能在保持雲端相容性的前提下,提供更強大的網路效能。
NVIDIA 執行長黃仁勳表示,AI 已形成「運算越多、AI 越聰明;AI 越聰明、應用越廣;應用越廣,又推動運算需求上升」的良性循環。他強調:「隨著 NVLink Fusion 導入 AWS Trainium 4,我們正把 NVIDIA 的垂直擴展架構與 AWS 的客製化晶片結合,打造新一代加速運算平台。」
AWS 執行長 Matt Garman 表示,雙方長達 15 年的合作正在進入新階段,未來透過 NVLink Fusion,AWS 將能為客戶帶來更高效能與擴展性。
在 GPU 部署方面,AWS 宣布導入包括 NVIDIA HGX B300、GB300 NVL72 等 Blackwell GPU,加速推動新一代 AI 訓練與推論。面向視覺運算的 RTX PRO 6000 Blackwell 伺服器 GPU 也將在未來幾週於 AWS 上提供。
這些 GPU 將成為 AWS 新服務「AI Factories」的基礎動能。AI Factories 是由 AWS 代管、建置於客戶自有資料中心的 AI 雲端服務,可讓企業在維持資料主權的前提下,使用先進 AI 架構,滿足日益嚴格的主權 AI 要求。
AWS 與 NVIDIA 也將在全球共同推動主權 AI 雲部署,使企業與政府機構能在遵守在地法規的前提下,取得 Blackwell GPU、Spectrum-X 網路交換器等完整 AI 加速平台。這套架構對公部門意義重大,可用於聯邦級 AI 訓練、高效能運算等需求,同時確保資料安全性與可控性。
在軟體層面,NVIDIA 的開放模型 Nemotron 已整合至 Amazon Bedrock,提供企業在無伺服器架構下快速部署生成式 AI 與智慧代理(agent)。包括 CrowdStrike、BridgeWise 等業者已率先採用。AWS 也將在 OpenSearch Service 引進搭載 cuVS 的 GPU 加速向量索引,早期使用者已看到索引速度提升最多 10 倍、成本降至四分之一,顯示非結構化資料處理正全面轉向 GPU。
此外,NVIDIA Cosmos 世界基礎模型(WFM)也已在 AWS EKS 與 AWS Batch 上提供,用於訓練與模擬機器人模型。多家機器人公司已採用 NVIDIA Isaac 平台結合 AWS 用於資料收集、模擬與驗證,加速物理 AI 的發展。
今年 NVIDIA 獲頒 AWS Global GenAI Infrastructure and Data Partner of the Year,更凸顯雙方長期合作的深度。隨著 NVLink Fusion 與自研晶片整合、Blackwell GPU 進入 AWS 生態系、AI Factories 上線,雙方將共同打造更完整、更高效的全球 AI 基礎架構。
點擊閱讀下一則新聞