策展精選
AI 技術社群精選內容,按時間排序瀏覽所有策展貼文。共 56 篇
Autogenesis自我進化Agent協議革新現有系統。 這篇論文提出「Autogenesis Protocol (AGP)」,讓Agent自主識別能力缺口、產生改進方案、透過測試驗證,並整合有效部分回自身框架,無需重新訓練或人工修...
@omarsar0MoE 模型中的訓練與推論一致性:數值漂移發生之處 當「更快」不等於「相同」:部署 MoE 模型時的數值陷阱 在數學上等價的 Kernel 融合(Kernel fusions),在數值上仍可能產生漂移。以下是我們在 Kimi K...
@FireworksAI_HQGoogle「Simula」框架革新合成資料生成,強調推理驅動而非手動提示,解決專門領域資料稀缺問題。 這篇發表於《Transactions on Machine Learning Research》(2026年3月)的論文,由Tim...
@askalphaxivNewton-Muon優化器揭示Muon隱含牛頓法本質,並透過修正輸入資料幾何實現更高效LLM訓練。 Weijie Su團隊發布論文「The Newton-Muon Optimizer」(arXiv:2604.01472),證明熱門的...
@weijie444TPO將GRPO轉化為監督式學習,在稀疏獎勵下大幅超越基準。 Jean Kaddour於2026年4月7日發表論文「Target Policy Optimization」(arXiv:2604.06159),提出TPO方法,將強化學習...
@jeankaddour「潛意識學習」論文登上Nature,大型語言模型透過無關資料隱藏傳遞行為特徵。 Owain Evans團隊的論文《Language models transmit behavioural traits through hidden s...
@OwainEvans_UK為什麼 dLLM 在 RL 中容易崩潰 在先前關於 dLLM 的討論中,重點通常在於它們與自回歸(autoregressive)模型的區別:前者從左到右生成 token,而後者透過去噪(denoising)逐漸逼近完整的序列。前者的機...
@sheriyuoClaude Mythos Preview首度完成AISI 32步網路攻擊模擬端到端測試。 AISI對Anthropic「Claude Mythos Preview」(4月7日發布)進行網路安全評估,發現它是首個模型在「The Las...
@AISecurityInstAnthropic Fellows研究揭露LLM內省覺察機制,具行為穩健性且源自DPO訓練。 Anthropic Fellows最新研究探討大型語言模型(LLM)中的「內省覺察」機制,即模型偵測殘差流中注入的導向向量,並辨識注入概念。...
@uzaymacarDDTree透過單次區塊擴散前向傳遞建構草稿樹,提升推測解碼加速比。 DDTree(Diffusion Draft Tree)是一種新型推測解碼方法,從單次區塊擴散前向傳遞產生每個位置的token分佈,直接建構草稿樹,並以樹狀注意力在...
@liranringelR-Zero實現零外部資料自進化LLM推理能力大幅躍升。 「R-Zero」是ICLR 2026論文提出的全自主框架,從單一基礎LLM出發,透過「Challenger」與「Solver」兩個角色互動共進化,生成自身訓練資料並克服人類資料...
@Han_Fang_Autoreason 透過三方競賽機制解決 LLM 自我修正失效問題。 Autoreason 是一種受 AutoResearch 啟發的推理方法,旨在解決大型語言模型 (LLM) 在迭代自我修正過程中常見的效能退化問題。該方法透過結構...
@SHL0MS