《TechCrunch》報導,AI戰場又有新進化了,比資本越雄厚,也比工程師能力。Google 於上周推出「重新想像版」的研究代理 Gemini Deep Research,核心基於最新模型 Gemini 3 Pro。這項更新不只強化研究報告產出能力,也讓開發者能把 Google 的研究型 AI 能力,直接嵌入自家應用程式。
Google 表示,這項能力是透過全新的互動API,目標是在「代理式 AI(agentic AI)」時代,讓開發者能擁有更高的控制權。
新版 Gemini Deep Research 是一款能整合大量資訊、並處理超大脈絡輸入的研究型代理。Google 指出,目前已有客戶將其用於調查、藥物毒性與安全性研究等任務。
Google 也透露,未來將把這套深度研究代理整合進多項自家服務,包括 Google Search、Google Finance、Gemini App,以及廣受歡迎的 NotebookLM。這被視為邁向一個「人類不再親自 Google,而是由 AI 代理代勞」的世界的重要一步。
Google 強調,Deep Research 受益於 Gemini 3 Pro 被定位為「目前最具事實準確性」的模型,並特別針對複雜任務降低 AI 幻覺風險進行訓練。
所謂 AI 幻覺,是指大型語言模型在沒有依據的情況下「自行編造內容」。對於需要長時間運作、涉及深度推理與多次自主決策的代理式任務來說,這是一個特別嚴重的問題。模型每多做一次選擇,就多一分可能因單一錯誤而讓整個結果失效。
為了佐證其技術進展,Google 也推出了一個全新的評測基準,名為 DeepSearchQA,用來測試 AI 代理在複雜、多步驟資訊搜尋任務中的表現,並已將該基準開源。
此外,Google 也讓 Deep Research 參與其他獨立評測,包括名為 Humanity’s Last Exam 的通識測驗基準,以及專門評估瀏覽器代理任務的 BrowserComp。
如外界預期,Google 的新代理在自家基準與 Humanity’s Last Exam 中表現最佳;不過,OpenAI 的 ChatGPT 5 Pro 緊追在後,整體差距不大,並在 BrowserComp 上小幅勝過 Google。
然而,這些比較結果幾乎在公布當天就顯得過時,因為 OpenAI 同日推出了備受期待的 GPT 5.2,代號「Garlic」。OpenAI 宣稱,最新模型在多項主流基準測試中全面超越競爭對手,特別是 Google。
報導指出,這次發布時機本身也耐人尋味。在全球目光聚焦於 Garlic 即將登場之際,Google 選擇同步釋出自家 AI 重要進展,意味著 AI 競賽的節奏,正變得愈來愈快。
點擊閱讀下一則新聞