Fish Audio 發佈了 S2 新世代文字轉語音系統，這是一套在開源與閉源領域中表現最頂尖的 TTS 解決方案

Fish Audio

♥1,574🔁 195

𝕏 (Twitter)🔥2026年3月11日

AI 中文摘要Claude 生成

Fish Audio 發佈了 S2 新世代文字轉語音系統，這是一套在開源與閉源領域中表現最頂尖的 TTS 解決方案。S2 在超過一千萬小時、涵蓋約 50 種語言的音頻資料上訓練，採用強化學習對齊與雙自迴歸架構，能生成自然逼真且情感豐富的語音。

情感控制創新 系統最大特色是支援細粒度的內聯情感控制，使用者可在文字中直接嵌入自然語言標籤如「[笑聲]」、「[低聲細語]」或「[非常開心]」來精確調控語調與表情。S2 同時支援多語言、多話者與多輪生成，可在單次推理中處理多個說話者身份。

效能表現突出 在效能表現上，S2 延遲低於 150 毫秒，在標準測試基準中超越包括閉源系統的競爭者。

開源發佈 該專案採開源發佈，包含完整文件、WebUI 與伺服器推理支援，使開發者與使用者享有高度自由度的語音生成體驗。

Today we launch Fish Audio S2, a new generation of expressive TTS with absurdly controllable emotion.

- open-source
- sub 150ms latency
- multi-speaker in one pass

Real freedom of speech starts now 👇 pic.twitter.com/nIXumES4QX
— Fish Audio (@FishAudio) March 10, 2026