Fish Audio 發佈了 S2 新世代文字轉語音系統,這是一套在開源與閉源領域中表現最頂尖的 TTS 解決方案
AI 中文摘要Claude 生成
Fish Audio 發佈了 S2 新世代文字轉語音系統,這是一套在開源與閉源領域中表現最頂尖的 TTS 解決方案。S2 在超過一千萬小時、涵蓋約 50 種語言的音頻資料上訓練,採用強化學習對齊與雙自迴歸架構,能生成自然逼真且情感豐富的語音。
情感控制創新 系統最大特色是支援細粒度的內聯情感控制,使用者可在文字中直接嵌入自然語言標籤如「[笑聲]」、「[低聲細語]」或「[非常開心]」來精確調控語調與表情。S2 同時支援多語言、多話者與多輪生成,可在單次推理中處理多個說話者身份。
效能表現突出 在效能表現上,S2 延遲低於 150 毫秒,在標準測試基準中超越包括閉源系統的競爭者。
開源發佈 該專案採開源發佈,包含完整文件、WebUI 與伺服器推理支援,使開發者與使用者享有高度自由度的語音生成體驗。
Today we launch Fish Audio S2, a new generation of expressive TTS with absurdly controllable emotion.
— Fish Audio (@FishAudio) March 10, 2026
- open-source
- sub 150ms latency
- multi-speaker in one pass
Real freedom of speech starts now 👇 pic.twitter.com/nIXumES4QX
