TechCrunch報導,以文字翻譯工具聞名的翻譯公司 DeepL,今天(16日)推出全新語音對語音翻譯方案,主打會議、手機與網頁對話,以及第一線工作人員透過客製化 App 進行群組對談等場景。該功能也同步推出 API給企業用戶。
德國 DeepL 執行長庫提洛夫斯基(Jarek Kutylowski)受訪表示,DeepL 在文字翻譯領域耕耘多年後,跨入語音可說是很自然的一步。他說,文字翻譯與文件翻譯已經發展到相當成熟,但市面上一直缺少真正夠好的即時語音翻譯產品。
庫提洛夫斯基(Jarek Kutylowski)指出,即時翻譯產品最困難的地方,在於如何拿捏速度與準確度之間的平衡,也就是一方面要壓低延遲,縮短使用者開口到譯文語音播放之間的時間,另一方面又不能犧牲翻譯品質。
目前 DeepL 已針對 Zoom 與 Microsoft Teams 推出附加功能,讓與會者在他人使用母語發言時,可以直接聽到即時翻譯語音,或在畫面上同步閱讀即時翻譯文字。
這項功能目前仍屬早期開放階段,DeepL 正邀請企業加入候補名單。公司也推出適用於手機與網頁的對話產品,不論面對面或遠端溝通都能使用。
此外,DeepL 也支援多人群組對談,例如教育訓練或工作坊等情境,參與者可透過掃描 QR Code 加入同一場對話。
DeepL 表示,這套語音對語音技術還能學習並適應客製化詞彙,包括產業專有名詞、公司名稱與個人姓名,提升翻譯在真實商務情境中的可用性。
庫提洛夫斯基(Jarek Kutylowski)也說,AI 正在重新定義未來幾年的客服樣貌。
對企業來說,若能加上一層翻譯能力,就更有機會在缺乏合格語言人才、或聘用成本偏高的語種市場中提供支援服務。
DeepL 強調,公司掌握整套語音對語音技術堆疊。
不過現行系統仍是先把語音轉成文字,再進行翻譯,最後再把翻譯結果轉回語音。DeepL 認為,自己長年深耕文字翻譯,因此在翻譯品質上具備優勢。未來則希望開發端對端語音翻譯模型,直接跳過文字這一步。
不過,DeepL 也面臨不少資金充足的新創競爭。像是 Sanas 去年就獲得來自 Quadrille Capital 與 Teleperformance 的 6500萬美元(約21億元台幣)投資,主打即時調整說話者口音,主要鎖定客服中心人員。
總部位於杜拜的 Camb.AI,則專注於語音合成與翻譯,服務媒體與娛樂產業,以及 Amazon Web Services 等客戶,協助大規模配音與影音在地化。
另一家由 Reddit 共同創辦人 奧哈尼安(Alexis Ohanian)旗下創投 Seven Seven Six 支持的 Palabra,則正在打造即時語音翻譯引擎,強調在保留原意的同時,也盡量保留說話者原本的聲音特質,和 DeepL 現在布局的方向更為接近。