策展精選

AI 技術社群精選內容,按時間排序瀏覽所有策展貼文。83

LLM
熱度
排序
𝕏🔥

Anthropic Fellows研究揭露LLM內省覺察機制,具行為穩健性且源自DPO訓練。 Anthropic Fellows最新研究探討大型語言模型(LLM)中的「內省覺察」機制,即模型偵測殘差流中注入的導向向量,並辨識注入概念。...

Uzay Macar@uzaymacar
410🔁 66
𝕏🔥🔥

DDTree透過單次區塊擴散前向傳遞建構草稿樹,提升推測解碼加速比。 DDTree(Diffusion Draft Tree)是一種新型推測解碼方法,從單次區塊擴散前向傳遞產生每個位置的token分佈,直接建構草稿樹,並以樹狀注意力在...

Liran Ringel@liranringel
979🔁 132
𝕏🔥

單一模型工程時代已經結束 十三個月前,我寫了一篇文章,主張模型選擇器(model picker)是一種設計上的失敗:工具應該自動選擇模型,開發者應該專注於交付產品。 這個月,我們在 Augment Code 中加入了 Gemin...

Augment Code@augmentcode
189🔁 16
𝕏🔥

「1小時提示快取優化微妙,寫入成本高但讀取便宜,效果依使用模式而定。」 Anthropic的「提示快取」功能透過重用提示前綴,優化API使用,降低重複任務的處理時間與成本,但1小時快取的寫入成本為基準輸入token的2倍,讀取僅0.1...

Boris Cherny@bcherny
1.0k🔁 53
𝕏🔥🔥🔥

R-Zero實現零外部資料自進化LLM推理能力大幅躍升。 「R-Zero」是ICLR 2026論文提出的全自主框架,從單一基礎LLM出發,透過「Challenger」與「Solver」兩個角色互動共進化,生成自身訓練資料並克服人類資料...

Han Fang@Han_Fang_
429🔁 64
𝕏🔥

Autoreason 透過三方競賽機制解決 LLM 自我修正失效問題。 Autoreason 是一種受 AutoResearch 啟發的推理方法,旨在解決大型語言模型 (LLM) 在迭代自我修正過程中常見的效能退化問題。該方法透過結構...

𒐪@SHL0MS
1.4k🔁 156
𝕏🔥

code-review-graph 透過結構化程式碼地圖,大幅降低 AI 程式開發的 token 消耗與雜訊。 code-review-graph 解決了現有 AI 程式開發工具在處理任務時,因重複讀取整個程式庫而導致的資源浪費與效能...

Tirth Kanani@tirth_8205
8🔁 2
𝕏🔥

Claude Opus 4.6 效能遭大幅削弱,幻覺率激增導致排名暴跌。 根據 BridgeBench 的最新測試,Claude Opus 4.6 的推理能力顯著下降,顯示該模型近期已遭到「削弱」(nerfed),導致其在基準測試中的...

BridgeMind@bridgemindai
6.6k🔁 666
𝕏🔥

GPT 5.4 Pro 的競爭力顯示 OpenAI 下一代旗艦模型將超越 Mythos。 儘管市場焦點多集中於 Mythos 的強勢表現,但數據顯示 GPT 5.4 Pro 在現有評測基準上已展現出極高的競爭力,這預示著 OpenAI...

Chris@chatgpt21
1.8k🔁 125
𝕏🔥

研究顯示平行採樣在大型推理模型中優於序列採樣。 Google DeepMind 的研究指出,在大型推理模型 (LRMs) 進行數學與程式撰寫任務時,平行採樣的表現通常優於序列採樣,且關鍵原因在於序列採樣缺乏足夠的探索性。 研究背...

Xiangming Gu@gu_xiangming
167🔁 24
𝕏🔥

Hearth AI 創辦人 Ashe 分享 Agentic 工作流與開發哲學。 Hearth AI 創辦人 Ashe Magalhaes 在訪談中分享了她從 ML 工程師轉型為創業者的歷程,強調在 AI 時代,開發者應將 Agent ...

OpenAI Developers@OpenAIDevs
490🔁 43
𝕏🔥

Latent Briefing:透過 KV Cache Compaction 實現多 Agent 系統的高效記憶共享 多 Agent 系統在協調、複雜推理與平行工作流方面展現了極大的潛力。然而,它們往往存在嚴重的 token 使用效率...

Ramp Labs@RampLabs
1.4k🔁 139