策展精選

AI 技術社群精選內容,按時間排序瀏覽所有策展貼文。56

研究論文
熱度
排序
𝕏🔥🔥

Autogenesis自我進化Agent協議革新現有系統。 這篇論文提出「Autogenesis Protocol (AGP)」,讓Agent自主識別能力缺口、產生改進方案、透過測試驗證,並整合有效部分回自身框架,無需重新訓練或人工修...

elvis@omarsar0
1.6k🔁 260
𝕏🔥

MoE 模型中的訓練與推論一致性:數值漂移發生之處 當「更快」不等於「相同」:部署 MoE 模型時的數值陷阱 在數學上等價的 Kernel 融合(Kernel fusions),在數值上仍可能產生漂移。以下是我們在 Kimi K...

Fireworks AI@FireworksAI_HQ
182🔁 18
𝕏🔥🔥🔥

Google「Simula」框架革新合成資料生成,強調推理驅動而非手動提示,解決專門領域資料稀缺問題。 這篇發表於《Transactions on Machine Learning Research》(2026年3月)的論文,由Tim...

alphaXiv@askalphaxiv
236🔁 42
𝕏🔥🔥

Newton-Muon優化器揭示Muon隱含牛頓法本質,並透過修正輸入資料幾何實現更高效LLM訓練。 Weijie Su團隊發布論文「The Newton-Muon Optimizer」(arXiv:2604.01472),證明熱門的...

Weijie Su@weijie444
890🔁 110
𝕏🔥

TPO將GRPO轉化為監督式學習,在稀疏獎勵下大幅超越基準。 Jean Kaddour於2026年4月7日發表論文「Target Policy Optimization」(arXiv:2604.06159),提出TPO方法,將強化學習...

Jean Kaddour @ ICLR 2026@jeankaddour
488🔁 65
𝕏🔥🔥

「潛意識學習」論文登上Nature,大型語言模型透過無關資料隱藏傳遞行為特徵。 Owain Evans團隊的論文《Language models transmit behavioural traits through hidden s...

Owain Evans@OwainEvans_UK
875🔁 139
𝕏🔥

為什麼 dLLM 在 RL 中容易崩潰 在先前關於 dLLM 的討論中,重點通常在於它們與自回歸(autoregressive)模型的區別:前者從左到右生成 token,而後者透過去噪(denoising)逐漸逼近完整的序列。前者的機...

Xiuyu Li@sheriyuo
207🔁 24
𝕏🔥🔥

Claude Mythos Preview首度完成AISI 32步網路攻擊模擬端到端測試。 AISI對Anthropic「Claude Mythos Preview」(4月7日發布)進行網路安全評估,發現它是首個模型在「The Las...

AI Security Institute@AISecurityInst
3.0k🔁 551
𝕏🔥

Anthropic Fellows研究揭露LLM內省覺察機制,具行為穩健性且源自DPO訓練。 Anthropic Fellows最新研究探討大型語言模型(LLM)中的「內省覺察」機制,即模型偵測殘差流中注入的導向向量,並辨識注入概念。...

Uzay Macar@uzaymacar
410🔁 66
𝕏🔥🔥

DDTree透過單次區塊擴散前向傳遞建構草稿樹,提升推測解碼加速比。 DDTree(Diffusion Draft Tree)是一種新型推測解碼方法,從單次區塊擴散前向傳遞產生每個位置的token分佈,直接建構草稿樹,並以樹狀注意力在...

Liran Ringel@liranringel
979🔁 132
𝕏🔥🔥🔥

R-Zero實現零外部資料自進化LLM推理能力大幅躍升。 「R-Zero」是ICLR 2026論文提出的全自主框架,從單一基礎LLM出發,透過「Challenger」與「Solver」兩個角色互動共進化,生成自身訓練資料並克服人類資料...

Han Fang@Han_Fang_
429🔁 64
𝕏🔥

Autoreason 透過三方競賽機制解決 LLM 自我修正失效問題。 Autoreason 是一種受 AutoResearch 啟發的推理方法,旨在解決大型語言模型 (LLM) 在迭代自我修正過程中常見的效能退化問題。該方法透過結構...

𒐪@SHL0MS
1.4k🔁 156