Google 發表 Gemini 3.5 Live Translate!支援 70+ 語言即時傳譯

Author:

Published:

- 廣告 -

Google 日前正式推出了全新語音模型「Gemini 3.5 Live Translate」,主打低延遲、無縫的雙向即時語音對譯。這項技術徹底打破了過往「你說一句、機器翻一句」的傳統斷續模式,實現了接近人類專業「同聲傳譯」(Simultaneous Interpretation)的流暢體驗。新功能即日起陸續推送到 Google Translate(Google 翻譯)流動應用程式、Google Meet 視像會議,並透過 API 開放予開發者。

邊聽邊翻譯、維持自然語氣

傳統的語音翻譯系統(如舊版對話模式)通常需要等說話者完全停頓後,系統才開始運算並播放譯文,導致對話充斥著尷尬的停頓。

全新的 Gemini 3.5 Live Translate 採用了連續流式音訊處理技術(Continuous Stream Processing)。系統會一邊聆聽說話者的語音,一邊動態平衡「等待上下文以提升翻譯質量」與「即時翻譯以保持同步」之間的拿捏。最終效果是翻譯語音只落後說話者短短幾秒,即可連貫播放,完全抹去了突兀的語氣中斷。

- 廣告 -

Gemini 3.5 Live Translate 三大核心突破:

1. 跨越 2,000 種語言組合: 支援自動偵測超過 70 種語言,且不再強制以英文為中介,能實現如日語直接對譯西班牙語等高達 2,000 多種對譯組合。

2. 完美複製人聲神韻: 輸出的語音不再是生硬的機械音,系統能保留原說話者的語調(Intonation)、節奏(Pacing)以及音高(Pitch),讓譯文極具人情味。

3. 強大抗噪與容錯: 針對日常溝通優化,即使在嘈雜的街頭、多人聲音重疊或夾雜口語俚語的環境下,依然能準確辨識並翻譯。

獨家 Android「聽筒模式」 沒耳機也能聽

除了常規的耳機接聽模式外,Google 這次特別為 Android 用戶帶來驚喜,推出全新「聽筒模式」(Listening Mode)。當用戶在博物館聽外語導賞,或與外國友人密談時,只需把手機像接聽普通電話一樣貼在耳邊,翻譯後的廣東話或英語就會直接從手機聽筒傳出,既能保障隱私,又免去了隨身攜帶耳機的麻煩。

【教學篇】如何使用 Google Translate 行動版體驗即時翻譯

Gemini 3.5 Live Translate 已正式在 Android 及 iOS 版本的 Google Translate App 中陸續上線。以下為讀者整理詳細的使用與設定指南:

- 廣告 -

 第一步:事前準備

確保你的 Google Translate App 已更新至最新版本。建議連接隨身藍牙耳機(如 Pixel Buds 或 AirPods),以便獲得最佳的雙向雙語流暢體驗。

 第二步:開啟「即時翻譯」功能

打開 Google Translate App,會看見全新的操作介面。點擊畫面左下角的 「Live translate」(即時翻譯 / 現場翻譯) 按鈕,即可進入即時傳譯介面。

 第三步:設定目標語言

在介面上方選擇你們雙方準備溝通的語言(例如:左邊設為「廣東話」,右邊設為「日本語」)。模型會自動辨識雙方誰在說話,無需手動切換麥克風。

 第四步:解鎖 Android 專屬「聽筒模式」(Listening Mode)

如果你是 Android 用戶且手邊沒有耳機,進入 Live translate 畫面後,直接開啟「Listening Mode」,然後將手機直接舉起並貼在耳朵上(如同講電話)。此時你可以一邊看著對方,一邊從聽筒聽到即時的翻譯音訊。

在 Android 的 Google Translate 上,已經可以做到附語言即時翻譯,即使預設了 英文 /中文翻譯,但當聽到日文、德語,都會幫你翻譯。

多場景普及:Google Meet 與企業應用同步受惠

除了大眾日常使用的 App 外,企業用戶亦迎來重大升級。Gemini 3.5 Live Translate 亦已同步進駐 Google Meet 視像會議(企業用戶搶先體驗版)。在跨國大型會議中,多國員工可同時開啟即時翻譯,系統能直接在大會中消化 70 多種語言,大幅降低跨國企業的溝通成本。

此外,東南亞知名生活服務平台 Grab 亦宣佈率先接入 Gemini 3.5 Live Translate API,用於司機與跨國旅客之間的即時語音溝通,解決過往因語言不通引致的接送誤會。

資訊安全:全面植入 SynthID 水印

由於翻譯出來的人聲極度逼真,為了防止技術被惡用作 Deepfake(深度偽造)或語音詐騙,Google 強調,所有由 Gemini 3.5 Live Translate 模型生成的音訊,都會在底層自動植入無法察覺的 SynthID 數碼音訊水印。這能在保障用戶溝通效率的同時,確保音訊源頭的可追溯性與安全性。

- 廣告 -
Buy Me a CPM: PCM 讀者會員資助計劃
Lawrence
Lawrence
《PCM》創刊編輯, 見證電腦由 Monochrome 到 3D,9.6Kbps 撥號到 5G 無線上網年代,DIY、攝影、影音、手機樣樣啱玩。
- 廣告 -

Related Articles

- 廣告 -

Recent Articles

- 廣告 -

最新影片

- 廣告 -