策展精選

AI 技術社群精選內容，按時間排序瀏覽所有策展貼文。共 7 篇

Qwen

熱度

排序

FlashDrive實現視覺語言動作模型即時推理，端到端延遲從716ms降至159ms，加速4.5倍無精度損失。 FlashDrive是針對自動駕駛的視覺語言動作（VLA）模型推理優化框架，由Zekai Li、Yihao Liang、...

@zhijianliu_

♥1.2k🔁 137

MoE 模型中的訓練與推論一致性：數值漂移發生之處當「更快」不等於「相同」：部署 MoE 模型時的數值陷阱在數學上等價的 Kernel 融合（Kernel fusions），在數值上仍可能產生漂移。以下是我們在 Kimi K...

@FireworksAI_HQ

♥182🔁 18

Qwen3.6-35B-A3B開源MoE模型以3B活性參數匹敵10倍大小模型。 Qwen3.6-35B-A3B是稀疏MoE模型，總參數35B、活性參數僅3B，Apache 2.0授權完全開源，於2026/04/15發布，展現高效能Ag...

@Alibaba_Qwen

♥11.6k🔁 1.7k

Anthropic Fellows研究揭露LLM內省覺察機制，具行為穩健性且源自DPO訓練。 Anthropic Fellows最新研究探討大型語言模型（LLM）中的「內省覺察」機制，即模型偵測殘差流中注入的導向向量，並辨識注入概念。...

@uzaymacar

♥410🔁 66

R-Zero實現零外部資料自進化LLM推理能力大幅躍升。「R-Zero」是ICLR 2026論文提出的全自主框架，從單一基礎LLM出發，透過「Challenger」與「Solver」兩個角色互動共進化，生成自身訓練資料並克服人類資料...

@Han_Fang_

♥429🔁 64

SimpleStream 證明僅靠近期影格即可超越複雜的串流影片理解模型。 SimpleStream 研究指出，現有串流影片理解模型過度依賴複雜的記憶機制，透過僅輸入最近 N 個影格的簡單滑動視窗基準，即可達到甚至超越現有 SOTA ...

@liuziwei7

♥284🔁 38

阿里巴巴推出 Qwen3.5-Omni，是其最新一代完全多模態大語言模型，支援文字、圖像、音訊及音訊-視覺內容的原生理解。該模型系列包含三個規模的 Instruct 版本（Plus、Flash、Light），支援 256k 長文脈輸入。相比...

@Ali_TongyiLab

♥2.3k🔁 287