AI 推論效能能否提升,關鍵在於如何將複雜模型拆分成不同運算階段。以大型模型的推論流程而言,大致可分為負責處理輸入的預填(prefill),以及產生最終輸出的解碼(decode)兩個階段。

傳統做法將兩個階段綁在同一組 GPU 上,往往導致效能受限,難以發揮硬體最大效益。NVIDIA 近年提出的「解構式服務」(disaggregated serving)則改變了這種分配方式,將不同的運算需求分派到最合適的 GPU 上,不僅提升效率,也讓模型得以擴展至更大規模。

Signal65 首席分析師 Russ Fellows 於技術報告中指出,這種架構搭配 72 顆 NVIDIA Blackwell Ultra GPU,首次創下每秒 110 萬個詞元(token)的聚合輸送量紀錄,證明解構式推論在大規模模型下的效能優勢。

NVIDIA 表示,Dynamo 的核心價值在於把這些原本只存在於實驗與基準測試環境的能力,真正擴展到 GPU 叢集規模,並讓企業能輕鬆部署到雲端服務上。這項技術已在商業應用中展現顯著成效,例如雲端 AI 服務供應商 Baseten 便透過 Dynamo 提升長脈絡程式碼生成的推論服務效率,在完全不增加額外硬體的前提下,推論速度提升兩倍,輸送量也提高至 1.6 倍,使 AI 服務成本大幅下降。

多節點推論之所以重要,除了模型規模擴大,還因雲端部署正走向更高的彈性與分散式架構。NVIDIA 已將 Dynamo 整合進所有主要雲端業者的託管式 Kubernetes 服務,使企業能在主流雲端平台上,直接把解構式推論擴展到數十甚至數百個節點。

Amazon Web Services(AWS)透過 Amazon EKS 搭配 Dynamo 加速生成式 AI 推論;Google Cloud 則在 AI Hypercomputer 架構上推出 Dynamo 配方,協助企業最佳化大型語言模型效能;Microsoft Azure 已採用 Azure Kubernetes Service 搭配 Dynamo 與 ND GB200-v6 GPU 推動多節點推論;Oracle Cloud Infrastructure(OCI)也整合 OCI Superclusters 與 Dynamo,讓大型語言模型推論擴展更為順暢。

除了成熟的超大型 CSP,新興雲端業者 Nebius 也以 NVIDIA 加速運算基礎建設打造平台,並採用 Dynamo 支撐其推論服務。

在多節點推論中,真正的難題並非單純擴大節點數,而是如何在 Kubernetes 上協調預填、解碼、路由等多個功能模組,使其既能保持效能又不互相阻礙。NVIDIA 推出的 Grove API,已與 Dynamo 深度整合,可讓使用者以單一高層級規格描述整個推論架構。

企業只需宣告所需節點數與部署要求,例如預填需要三個 GPU 節點、解碼需要六個 GPU 節點,且各節點需部署於同一高速互連網路之下,Grove 即會自動完成協調、配置、啟動順序與比例維持等複雜工作,使推論系統像是一個整合良好的大型應用,而非多個零碎模組的組合。

NVIDIA 指出,隨著 AI 推論走向更大規模的分散式運算,企業對效能、可靠性與擴展性的要求將更高。Dynamo 與 Grove 的出現,使企業能以更少的成本、更高的效率部署大型 AI 應用,而不必暴增硬體投資。NVIDIA 也提供 AI-at-scale 模擬工具,讓企業能在部署前即預估不同硬體與叢集配置對效能的影響,找出最佳推論策略。

隨著模型體量不斷上升、長脈絡推論需求快速增加,NVIDIA 認為企業級 AI 推論將全面邁向叢集化與多節點化,而 Dynamo 結合 Grove 與 Kubernetes,將成為推動下一階段 AI 工程效能革命的核心基礎。


點擊閱讀下一則新聞 點擊閱讀下一則新聞
AI浪潮帶動半導體設備增長!應材財報佳 仍受對中出口管制影響