使用 Gemini 3.1 Flash Live 建構即時對話式 Agent
AI 語音朗讀 · Edge TTS
使用 Gemini 3.1 Flash Live 建構即時對話式 Agent
今天,我們透過 Google AI Studio 中的 Gemini Live API 正式推出 Gemini 3.1 Flash Live。Gemini 3.1 Flash Live 協助開發者建構即時的語音與視覺 Agent,這些 Agent 不僅能處理周遭環境的資訊,還能以對話的速度進行回應。
這在延遲、可靠性以及更自然的對話體驗上實現了跨越式的進步,為下一代語音優先的 AI 提供了所需的品質。
體驗更佳的延遲、可靠性與品質
對於即時互動而言,每一毫秒的延遲都會破壞使用者所期待的對話自然流暢感。新模型能更準確地理解語氣、強調重點與意圖,使 Agent 獲得以下關鍵改進:
在嘈雜的現實環境中具備更高的任務完成率:我們顯著提升了模型在即時對話中觸發外部工具並提供資訊的能力。透過更有效地從交通聲或電視聲等環境音中辨識出相關語音,模型能更有效地過濾背景雜音,從而保持可靠性並對指令做出回應。
更佳的指令遵循能力:對複雜系統指令的遵循能力已大幅提升。即使對話出現意料之外的轉折,您的 Agent 仍能維持在操作規範內。
更自然且低延遲的對話:最新模型改進了延遲表現,且與 2.5 Flash Native Audio 相比,在辨識音高與語速等聲音細微差別方面更為有效,讓即時對話感覺更加流暢自然。
多語言能力:該模型支援超過 90 種語言的即時多模態對話。
觀看 Gemini Live API 的實際應用
開發者正積極使用 Gemini Flash Live 模型建構能以自然流暢的節奏進行溝通,並可靠地執行動作的語音 Agent。以下是一些使用該模型來驅動其對話互動的現實應用範例:
Stitch
透過使用 Gemini Live API,Stitch 現在能讓使用者透過語音進行設計交流。該 Agent 可以「看見」畫布與選定的螢幕畫面,並提供設計建議、建立變體等。
Hey Ato
在此展示中,針對老年人的 AI 陪伴裝置 Ato,利用 Gemini 3.1 Flash Live 的多語言能力,將日常對話轉化為使用者之間真實的連結。
Wits End
看看 Weekend 團隊如何整合 Gemini 3.1 Flash Live 強大的角色塑造能力與擬人化的表達方式,為其 RPG 遊戲《Wit’s end》中的遊戲主持人(Game Master)增添獨特的戲劇性風格。
透過不斷擴展的整合生態系統進行建構
Live API 是為生產環境而打造的,但現實世界的系統需要處理多樣化的輸入,從即時影片串流到隨選電話通話。
對於需要 WebRTC 擴展或全球邊緣路由的系統,我們建議探索我們的合作夥伴整合方案,以簡化即時語音與影片 Agent 的開發。

開始使用 Live API
Gemini 3.1 Flash Live 即日起透過 Gemini API 與 Google AI Studio 提供使用。開發者可以使用 Gemini Live API 將該模型整合至他們的應用程式中。
觀看此影片教學,了解如何使用 Gemini 3 建構語音 Agent:
探索我們的開發者文件,了解如何建構即時 Agent。
Gemini Live API 文件:探索多語言支援、工具使用與函式呼叫、工作階段管理(用於管理長時間對話)以及 ephemeral token 等功能。
Gemini Live API 範例:從您今天可以使用該模型建構的語音體驗類型中獲取靈感。
Gemini Live API Skill:供程式撰寫 Agent 學習並使用 Live API 進行建構。
開始使用 Google GenAI SDK:
import asyncio
from google import genai
client = genai.Client(api_key="YOUR_API_KEY")
model = "gemini-3.1-flash-live-preview"
config = {"response_modalities": ["AUDIO"]}
async def main():
async with client.aio.live.connect(model=model, config=config) as session:
print("Session started")
# Send content...
if __name__ == "__main__":
asyncio.run(main())
