策展精選

AI 技術社群精選內容,按時間排序瀏覽所有策展貼文。7

Qwen
熱度
排序
𝕏🔥🔥🔥

FlashDrive實現視覺語言動作模型即時推理,端到端延遲從716ms降至159ms,加速4.5倍無精度損失。 FlashDrive是針對自動駕駛的視覺語言動作(VLA)模型推理優化框架,由Zekai Li、Yihao Liang、...

Zhijian Liu@zhijianliu_
1.2k🔁 137
𝕏🔥

MoE 模型中的訓練與推論一致性:數值漂移發生之處 當「更快」不等於「相同」:部署 MoE 模型時的數值陷阱 在數學上等價的 Kernel 融合(Kernel fusions),在數值上仍可能產生漂移。以下是我們在 Kimi K...

Fireworks AI@FireworksAI_HQ
182🔁 18
𝕏🔥🔥🔥

Qwen3.6-35B-A3B開源MoE模型以3B活性參數匹敵10倍大小模型。 Qwen3.6-35B-A3B是稀疏MoE模型,總參數35B、活性參數僅3B,Apache 2.0授權完全開源,於2026/04/15發布,展現高效能Ag...

Qwen@Alibaba_Qwen
11.6k🔁 1.7k
𝕏🔥

Anthropic Fellows研究揭露LLM內省覺察機制,具行為穩健性且源自DPO訓練。 Anthropic Fellows最新研究探討大型語言模型(LLM)中的「內省覺察」機制,即模型偵測殘差流中注入的導向向量,並辨識注入概念。...

Uzay Macar@uzaymacar
410🔁 66
𝕏🔥🔥🔥

R-Zero實現零外部資料自進化LLM推理能力大幅躍升。 「R-Zero」是ICLR 2026論文提出的全自主框架,從單一基礎LLM出發,透過「Challenger」與「Solver」兩個角色互動共進化,生成自身訓練資料並克服人類資料...

Han Fang@Han_Fang_
429🔁 64
𝕏🔥

SimpleStream 證明僅靠近期影格即可超越複雜的串流影片理解模型。 SimpleStream 研究指出,現有串流影片理解模型過度依賴複雜的記憶機制,透過僅輸入最近 N 個影格的簡單滑動視窗基準,即可達到甚至超越現有 SOTA ...

Ziwei Liu@liuziwei7
284🔁 38
𝕏🔥

阿里巴巴推出 Qwen3.5-Omni,是其最新一代完全多模態大語言模型,支援文字、圖像、音訊及音訊-視覺內容的原生理解。該模型系列包含三個規模的 Instruct 版本(Plus、Flash、Light),支援 256k 長文脈輸入。相比...

Tongyi Lab@Ali_TongyiLab
2.3k🔁 287