輝達指出,本次發布亮點之一,是全球首款用於自動駕駛研究的開放式推理視覺語言動作(VLA)模型NVIDIA DRIVE Alpamayo-R1(AR1)。傳統自駕模型在面對高複雜度場景時,常出現判斷限制,但AR1將「思維鏈(chain-of-thought)」推理與路徑規劃整合,讓車輛能像人類駕駛般評估情境、推論後果,再選出最佳行為路線。

舉例來說,行經行人與自行車交錯區時,AR1會主動整合周遭資訊,預先調整路徑或為突發狀況做好煞車準備,使自駕AI邁向更高階的安全性與解釋能力。

AR1基於NVIDIA Cosmos Reason打造,並以非商業用途開放,研究人員可依需求客製化模型。實驗顯示,AR1在後訓練階段採用強化學習後,其推理能力較預訓練版本更強。NVIDIA將在GitHub與Hugging Face公開模型與訓練資料子集,同步開源模擬框架AlpaSim,以支援模型評估。

NVIDIA提供
NVIDIA提供

除了自駕AI,NVIDIA也強化Cosmos世界基礎模型(WFM)的應用,使其成為物理AI開發的核心基礎。開發者可透過Cosmos Cookbook學習資料整理、合成資料、後訓練等流程,打造各式實驗模型。最新案例包括:能產生高擬真光達資料的LidarGen、修復模糊重建畫面的NuRec Fixer、以及將影片模型轉為機器人策略的Cosmos Policy等。這些工具可在Isaac Lab與Isaac Sim中訓練,再應用於機器人模型如NVIDIA GR00T N。

此外,ETH Zurich等研究團隊也將展示使用Cosmos生成一致3D場景的技術。1X、Figure AI、Gatik、Oxa等NVIDIA合作夥伴也正以Cosmos開發最新機器人與自駕應用,顯示Cosmos已成為物理AI的重要基礎平台。

NVIDIA也強化Cosmos世界基礎模型(WFM)的應用,使其成為物理AI開發的核心基礎。NVIDIA提供
NVIDIA也強化Cosmos世界基礎模型(WFM)的應用,使其成為物理AI開發的核心基礎。NVIDIA提供

在語音AI部分,NVIDIA的Nemotron與NeMo工具組則迎來一系列更新,包括多講者語音辨識模型MultiTalker Parakeet、可快速區分多個聲音來源的Sortformer、跨文字與音訊模態的安全辨識資料集、以及支援強化學習訓練環境的NeMo Gym。NVIDIA也釋出NeMo Data Designer Library,在Apache 2.0授權下完全開源,提供生成高品質合成資料的完整流程。

CrowdStrike、Palantir、ServiceNow等企業已運用Nemotron、生成功能強化的代理型AI,顯示其工具組已在企業採用中加速落地。

研究方面,NVIDIA在NeurIPS提交超過70篇論文,其中語言AI領域成果備受關注,包括音訊語言模型Audio Flamingo 3、模型壓縮技術Minitron-SSM、後訓練架構搜尋Jet-Nemotron、小型高效語言模型Nemotron-Flash,以及延長訓練時間提升推理力的ProRL等,全面展示NVIDIA在模型效率、多模態與推理能力上的突破。

透過跨數位AI、物理AI、自駕與語音的全面開源布局,NVIDIA不僅獲得Artificial Analysis「Openness Index」高度肯定,也以更完善的生態系工具組,強化研究社群在下一世代AI競爭中的基礎。


點擊閱讀下一則新聞 點擊閱讀下一則新聞
0.05秒提前預警!義隆電AI CCTV通過智慧交通高標 展現邊緣AI實力