策展精選
AI 技術社群精選內容,按時間排序瀏覽所有策展貼文。共 83 篇
Anthropic Fellows研究揭露LLM內省覺察機制,具行為穩健性且源自DPO訓練。 Anthropic Fellows最新研究探討大型語言模型(LLM)中的「內省覺察」機制,即模型偵測殘差流中注入的導向向量,並辨識注入概念。...
@uzaymacarDDTree透過單次區塊擴散前向傳遞建構草稿樹,提升推測解碼加速比。 DDTree(Diffusion Draft Tree)是一種新型推測解碼方法,從單次區塊擴散前向傳遞產生每個位置的token分佈,直接建構草稿樹,並以樹狀注意力在...
@liranringel單一模型工程時代已經結束 十三個月前,我寫了一篇文章,主張模型選擇器(model picker)是一種設計上的失敗:工具應該自動選擇模型,開發者應該專注於交付產品。 這個月,我們在 Augment Code 中加入了 Gemin...
@augmentcode「1小時提示快取優化微妙,寫入成本高但讀取便宜,效果依使用模式而定。」 Anthropic的「提示快取」功能透過重用提示前綴,優化API使用,降低重複任務的處理時間與成本,但1小時快取的寫入成本為基準輸入token的2倍,讀取僅0.1...
@bchernyR-Zero實現零外部資料自進化LLM推理能力大幅躍升。 「R-Zero」是ICLR 2026論文提出的全自主框架,從單一基礎LLM出發,透過「Challenger」與「Solver」兩個角色互動共進化,生成自身訓練資料並克服人類資料...
@Han_Fang_Autoreason 透過三方競賽機制解決 LLM 自我修正失效問題。 Autoreason 是一種受 AutoResearch 啟發的推理方法,旨在解決大型語言模型 (LLM) 在迭代自我修正過程中常見的效能退化問題。該方法透過結構...
@SHL0MScode-review-graph 透過結構化程式碼地圖,大幅降低 AI 程式開發的 token 消耗與雜訊。 code-review-graph 解決了現有 AI 程式開發工具在處理任務時,因重複讀取整個程式庫而導致的資源浪費與效能...
@tirth_8205Claude Opus 4.6 效能遭大幅削弱,幻覺率激增導致排名暴跌。 根據 BridgeBench 的最新測試,Claude Opus 4.6 的推理能力顯著下降,顯示該模型近期已遭到「削弱」(nerfed),導致其在基準測試中的...
@bridgemindaiGPT 5.4 Pro 的競爭力顯示 OpenAI 下一代旗艦模型將超越 Mythos。 儘管市場焦點多集中於 Mythos 的強勢表現,但數據顯示 GPT 5.4 Pro 在現有評測基準上已展現出極高的競爭力,這預示著 OpenAI...
@chatgpt21研究顯示平行採樣在大型推理模型中優於序列採樣。 Google DeepMind 的研究指出,在大型推理模型 (LRMs) 進行數學與程式撰寫任務時,平行採樣的表現通常優於序列採樣,且關鍵原因在於序列採樣缺乏足夠的探索性。 研究背...
@gu_xiangmingHearth AI 創辦人 Ashe 分享 Agentic 工作流與開發哲學。 Hearth AI 創辦人 Ashe Magalhaes 在訪談中分享了她從 ML 工程師轉型為創業者的歷程,強調在 AI 時代,開發者應將 Agent ...
@OpenAIDevsLatent Briefing:透過 KV Cache Compaction 實現多 Agent 系統的高效記憶共享 多 Agent 系統在協調、複雜推理與平行工作流方面展現了極大的潛力。然而,它們往往存在嚴重的 token 使用效率...
@RampLabs