策展精選

AI 技術社群精選內容,按時間排序瀏覽所有策展貼文。16

VLM
熱度
排序
𝕏🔥🔥🔥🔥

Claude Opus 4.7 在「Document Arena」與「Vision Arena」奪冠,領先幅度驚人。 「Arena.ai」公布最新排行,AnthropicAI 的「Claude Opus 4.7」在「Document ...

Arena.ai@arena
510🔁 34
𝕏🔥🔥🔥

FlashDrive實現視覺語言動作模型即時推理,端到端延遲從716ms降至159ms,加速4.5倍無精度損失。 FlashDrive是針對自動駕駛的視覺語言動作(VLA)模型推理優化框架,由Zekai Li、Yihao Liang、...

Zhijian Liu@zhijianliu_
1.2k🔁 137
𝕏🔥🔥🔥🔥🔥

Anthropic推出Claude Design,透過Claude Opus 4.7視覺模型,讓使用者對話式生成原型、簡報與一頁式文件。 Anthropic Labs於2026年4月17日發布Claude Design研究預覽版,限C...

Claude@claudeai
147.5k🔁 15.0k
𝕏🔥

中文書法是一項前沿任務 前沿模型(Frontier models)能夠掌握中文書法的藝術嗎?我們向它們發起挑戰,要求它們重現 20 位書法大師所寫的 88 個高難度漢字。 動機:受限的美學操縱 前沿模型在工具使用、數學和程...

Leonard Tang@leonardtang_
60🔁 8
𝕏🔥

Ai2 發布 MolmoWeb 開源視覺網頁 Agent 與完整訓練資料。 Ai2 推出 MolmoWeb,這是一套完全開源的多模態網頁 Agent,旨在打破當前頂尖網頁 Agent 多為封閉模型的現狀,提供從訓練程式碼到評估工具的完...

Ai2@allen_ai
229🔁 42
𝕏🔥

Liquid AI 發布 LFM2.5-VL-450M 模型,實現邊緣裝置上的即時視覺推理與結構化輸出。 Liquid AI 近期推出 LFM2.5-VL-450M,這是一款專為邊緣裝置設計的視覺語言模型 (VLM),旨在透過單次推論...

Liquid AI@liquidai
1.1k🔁 132
𝕏🔥

Meta 發布 Muse Spark 多模態推理模型。 Meta Superintelligence Labs 推出 Muse Spark,這是其「個人超級智慧」願景下的首款原生多模態推理模型,具備工具使用、視覺思維鏈及多 Agent...

AI at Meta@AIatMeta
9.0k🔁 1.1k
𝕏🔥

Vero:用於視覺推理的開源強化學習配方。 Vero 是一套針對視覺語言模型 (VLM) 的全開源強化學習 (RL) 訓練配方,旨在解決跨領域視覺推理任務,並透過大規模資料與任務路由獎勵機制,實現了超越現有模型的效能。 核心挑戰...

Gabriel Sarch@GabrielSarch
290🔁 58
𝕏🔥

SimpleStream 證明僅靠近期影格即可超越複雜的串流影片理解模型。 SimpleStream 研究指出,現有串流影片理解模型過度依賴複雜的記憶機制,透過僅輸入最近 N 個影格的簡單滑動視窗基準,即可達到甚至超越現有 SOTA ...

Ziwei Liu@liuziwei7
284🔁 38
𝕏🔥

Google 發布 Gemma 4 開放模型系列,支援多模態與邊緣運算。 Google DeepMind 推出 Gemma 4 多模態模型系列,具備 Apache 2.0 開源授權,並針對從邊緣裝置到高效能伺服器等各種場景進行了全面優...

Jeff Boudier 🤗@jeffboudier
17🔁 1
𝕏🔥

Z.AI 推出 GLM-5V-Turbo 多模態程式開發模型,實現視覺化程式撰寫與 Agent 工作流整合。 GLM-5V-Turbo 是 Z.AI 首款專為視覺化程式開發設計的基礎模型,具備原生多模態處理能力,能直接理解圖像、影片及...

Z.ai@Zai_org
5.8k🔁 657
𝕏🔥

微軟發布三款 MAI 模型,以高效能與高性價比搶攻開發者市場。 微軟於 2026 年 4 月 2 日宣布推出三款全新的「MAI」系列模型,並同步開放於「Microsoft Foundry」與「MAI Playground」供開發者使用...

Satya Nadella@satyanadella
1.8k🔁 275