目前多數AI代理系統需依賴不同模型處理各類資料,例如影像辨識、語音分析與語言理解,資料在不同模型間傳遞不僅耗時,也容易造成情境脈絡斷裂。NVIDIA指出,Nemotron 3 Nano Omni透過單一模型架構整合多模態能力,能有效減少反覆推論所帶來的延遲與成本,讓AI在處理複雜任務時維持一致理解與高效率運作。

從效能表現來看,Nemotron 3 Nano Omni在文件智慧、影音理解與音訊分析等六大指標中名列前茅,並以高準確度與低成本建立多模態模型效率新標竿。該模型採用30B-A3B混合專家(Mixture-of-Experts)架構,整合視覺與音訊編碼器,使系統無需依賴獨立感知模型,即可完成多模態推理。

官方數據顯示,在相同互動條件下,其資料吞吐量可達其他開放式全模態模型的9倍,同時兼顧回應速度與品質,並降低運算成本。

在實際應用場景中,Nemotron 3 Nano Omni可大幅優化代理型系統表現。例如客服AI需同時處理螢幕錄影、語音通話與資料紀錄,金融應用則需解析PDF、試算表與語音備忘錄。過去透過多模型串接方式容易產生延遲與誤差,而單一多模態模型可將不同資料整合於同一推理流程中,提高準確度與一致性。

企業導入方面,已有Aible、Applied Scientific Intelligence(ASI)、Eka Care、鴻海科技集團、H Company、Palantir與Pyler採用該模型;戴爾科技、Docusign、Infosys、Oracle等企業亦正在評估導入。

H Company執行長Gautier Cloix指出,過去AI代理解析高解析度螢幕畫面往往需要數秒時間,Nemotron 3 Nano Omni可即時解析Full HD畫面,使代理在數位環境中的互動能力出現本質性提升。

該模型也支援多種代理應用,包括電腦操作、文件智慧與影音理解。在電腦操作方面,AI可直接在圖形介面中導航並理解畫面變化;文件智慧則能整合圖表、表格與截圖內容進行推理;影音理解則可同步處理語音與影像,維持完整情境脈絡,避免資訊碎片化。

在部署與開發彈性方面,Nemotron 3 Nano Omni採開放權重設計,並提供資料集與訓練技術,讓企業可依需求進行客製化。開發人員可透過NVIDIA NeMo等工具進行優化,並依監管或資料在地化需求,部署於本地端、資料中心或雲端環境。該模型支援從Jetson邊緣裝置到DGX系統與雲端平台的跨場景應用。

NVIDIA指出,Nemotron 3系列模型(包含Nano、Super與Ultra)過去一年下載量已突破5000萬次,此次Omni版本進一步拓展至多模態與代理應用領域。Nemotron 3 Nano Omni目前已於Hugging Face、OpenRouter與官方平台上架,並透過NIM微服務及多元雲端生態系提供企業導入。

隨著AI應用從單一模型走向多模態整合與代理協作,業界普遍認為,能同時兼顧效能、成本與部署彈性的解決方案,將成為企業導入AI的關鍵。Nemotron 3 Nano Omni的推出,顯示多模態AI正從研究階段走向實際商業應用,並加速企業AI轉型進程。

作者簡介

呂承哲

壹蘋新聞網財經科技記者,專注半導體、AI與新能源產業,追蹤台積電、輝達及台廠電子供應鏈動態,並解析市場投資趨勢。


點擊閱讀下一則新聞 點擊閱讀下一則新聞
AFTEE結盟藍新金流攻BNPL市場 串接40萬店衝高交易轉換率