台灣人的語言習慣常常是「一句話三種語言」,例如「等一下meeting結束再來處理啦」,國語、台語與英文交錯的說話方式十分常見,但這種跨語言混講(code-switching)對多數國際語音模型仍是一大挑戰,也成為台灣發展在地語音AI的重要原因。

myVoca支援中文、台語、英文與客語混合辨識,並針對台灣常見的多語交錯情境進行訓練。台灣大表示,該模型在算力效率、辨識精準度與即時轉錄速度上皆優於國際知名的OpenAI Whisper-large-v3模型,未來將導入金融、醫療、製造與智慧政府等場景,推動企業AI應用落地。

台灣大哥大與長問科技合作攜手推出myVoca。長問科技長期投入即時語音AI辨識硬體設備與系統研發,其語音AI辨識平台強調台灣在地語言能力,可同時支援國語、台語、英語與客語的輸入與輸出,應用範圍涵蓋金融、電信、醫療、法律、教育與媒體等產業場景,辨識準確率可達95%以上。此次與台灣大合作,則透過結合電信產業的語料優勢與AI演算法能力,進一步提升模型在實際場域中的辨識能力與效率。

在發表會現場,團隊也展示myVoca與Whisper模型的即時辨識對比測試。在中、英、台三語交錯的語音情境下,myVoca辨識準確率可達97%。除了準確度提升外,速度也是重要差異。相較於Whisper通常需在完整聽完一段語音後才開始轉錄或翻譯,myVoca則能做到「邊說邊出」,在開口約1秒內即可完成即時轉錄,大幅提升會議紀錄、客服或跨語言溝通等場景的效率。

台灣大指出,myVoca模型結合雙方技術優勢開發而成。台灣大哥大負責通用語料擴增與產業語料建置,包括蒐集醫療、金融等特定領域語音資料,並進行語料清洗、分類與標註;長問科技則專注於模型架構設計、訓練流程與演算法調整。透過雙方合作,myVoca所需算力僅為傳統模型的八分之一,硬體成本降低約88%,同時辨識速度提升約六倍。

台灣大哥大資訊長蔡祈岩表示,myVoca的推出不只是技術突破,更是將AI轉化為產業競爭力的重要示範。團隊針對台灣常見的跨語言現象(Code-switching)、產業術語以及多樣聲學特徵進行訓練,使模型能真正理解台灣語音環境與產業需求。他指出,AI模型的落地關鍵不只在於規模大小,更在於是否擁有精準且貼近產業的語料。

長問科技總經理陳又碩指出,myVoca在架構上強化推論效率與延遲控制,實現「邊說邊出」的零時差辨識體驗,使ASR技術不再只是單純的語音轉錄工具,而能進一步成為具備互動能力的智慧語音引擎。

台灣大哥大同時宣布將號召資服業者、系統整合商與硬體設備商共同建立ASR生態系,目前已有超過30家夥伴響應,涵蓋政府、金融、醫療、交通、零售與製造等領域。發表會現場也展示多項應用成果,例如智慧機器人支援四語混合辨識、AI透明雙向翻譯機,以及整合至LINE Chatbot的語音互動服務等。台灣大預估,隨著語音AI應用加速落地,今年相關營收規模有機會成長三倍。

為推廣myVoca模型,台灣大也推出試用方案,企業客戶只要在三月底前申請,即可享有ASR語音辨識服務一個月免費串接體驗,同步提供「AI聽寫大哥」不限分鐘數的一個月免費試用。
 

myVoca在處理速度上比Whisper還要快速,能更省下客戶的等待時間。趙筱文攝
myVoca在處理速度上比Whisper還要快速,能更省下客戶的等待時間。趙筱文攝

火線話題 | AI生活進行式

這篇報導屬於「 AI生活進行式 」主題,更多延伸閱讀:

  1. 春節宅家追劇懶人包!MyVideo紅包、friDay影音67折、HamiVideo限時優惠一次看
  2. 獨家|iPhone限綁5G「果粉等半年嘸訊號」 消保官收400件投訴!NCC公平會攤手
  3. 「賓士暢行」充電漫遊擴大 台灣大、遠傳成營運夥伴
作者簡介

趙筱文

壹蘋新聞網財經科技線記者,關注產業動態與消費市場,以清晰專業的方式報導最新科技趨勢與生活議題。


點擊閱讀下一則新聞 點擊閱讀下一則新聞
遠到山頂也能拍?vivo X300 Ultra 400mm長焦鏡頭實拍曝光