策展精選

AI 技術社群精選內容,按時間排序瀏覽所有策展貼文。74

AIGC
熱度
排序
𝕏🔥

OmniVoice 是由「Kaldi」之父 Daniel Povey 團隊推出的零樣本多語言 TTS 模型。 這款由小米團隊開發的「OmniVoice」模型,採用創新的擴散語言模型架構,支援超過 600 種語言,並透過單階段架構實現了...

Feiteng@FeitengLi
310🔁 58
𝕏🔥

Google 發布 Gemma 4 開放模型系列,主打高效能與行動裝置端部署。 Google DeepMind 推出 Gemma 4 開放模型系列,採用 Apache 2.0 授權,旨在提供業界領先的智慧密度,並支援從行動裝置到伺服器...

Logan Kilpatrick@OfficialLoganK
6.2k🔁 596
𝕏🔥

Google 擴大 AI Pro 訂閱權益,強化 Workspace 與 Chrome 的 Agent 整合能力。 Google 宣布為 AI Pro 訂閱者提升服務價值,不僅將儲存空間翻倍至 5TB,更全面升級 Gemini 在 W...

shimrit ben-yair@shimritby
1.7k🔁 188
𝕏🔥

「H Company」於 2026 年 3 月 31 日發布了全新「Holo3」系列電腦操作模型,該模型在「OSWorld-Verified」基準測試中取得 78.9% 的高分,以僅十分之一的成本超越了「GPT-5.4」與「Opus 4.6...

H@hcompany_ai
2.1k🔁 279
𝕏🔥

「pi-magic-docs」是一項針對「pi」開發的自動化文件維護工具,旨在透過「Haiku」模型作為閘道,解決傳統文件因維護繁瑣而過時的問題。該工具強調透明度,拒絕隱蔽的背景操作,確保所有文件更新均在使用者可見的範圍內進行。 核心運作機...

Michael Livs@micLivs
149🔁 9
𝕏🔥

CREAO 是一款超越傳統對話框限制的 Agent 平台,強調將對話直接轉化為可執行、可排程的自動化工具。核心價值在於降低從想法到實現的門檻。 核心功能 將任何對話儲存為可重複使用的 Agent,支援排程執行 內建完整沙盒環境,可在雲端直接...

Creao AI@CreaoAI
324🔁 69
𝕏🔥

設計 App Store 截圖耗時過長,一位開發者透過 Claude Skill 將這項繁瑣的工作自動化,將原本需要數小時在 Figma 中手工製作的流程縮短至 15 分鐘,最終產出的截圖可直接上傳至 App Store。 核心問題與解決方...

Adam Lyttle@adamlyttleapps
1.7k🔁 118
𝕏🔥

LongCat-Next 是美團開源的原生多模態離散自迴歸模型,將文本、視覺和音訊統一在單一框架中處理,突破了傳統多模態建模的架構分割,在理解、生成和語音交互上實現工業級性能。 核心架構與設計理念 LongCat-Next 建立在「離散原生...

Meituan LongCat@Meituan_LongCat
469🔁 66
𝕏🔥

阿里巴巴推出 Qwen3.5-Omni,是其最新一代完全多模態大語言模型,支援文字、圖像、音訊及音訊-視覺內容的原生理解。該模型系列包含三個規模的 Instruct 版本(Plus、Flash、Light),支援 256k 長文脈輸入。相比...

Tongyi Lab@Ali_TongyiLab
2.3k🔁 287
𝕏🔥

我在 Google Search Console 和 BigQuery 之上建立了 26 個 SEO 工具。它們都是免費的。 Google Search Console 的 API 隱藏了大約 46% 的點擊 (注意:這是查詢層級而非頁面層...

Suganthan Mohanadasan@suganthan
321🔁 39
𝕏🔥

OpenAI 的 Realtime API 正在推動一種新的互動模式:透過語音啟用低延遲、多模態的對話應用。實際案例包括新加坡診所的預約 Agent,可自然地與患者交談、蒐集詳細資訊並即時預約掛號——這代表 Realtime API 已超越...

OpenAI Developers@OpenAIDevs
1.3k🔁 97
𝕏🔥

使用 LTX Studio 製作品牌一致的廣告 在製作現代 3D 動畫風格的品牌廣告時,最大的挑戰並非生成精美的畫面,而是維持一致性。如果沒有策略,外觀就會開始偏離。光線會改變。材質會變化。整體風格會逐漸偏離品牌形象。 在本指南中,我們將詳...

LTX Studio@LTXStudio
80🔁 6