策展精選

AI 技術社群精選內容,按時間排序瀏覽所有策展貼文。25

Benchmark
熱度
排序
𝕏🔥

Cloudflare 新網站僅驗證 Markdown 回傳,基礎不夠完善。 Cloudflare 推出的新網站作為基準,僅檢查 API 是否回傳 Markdown 格式,但未涵蓋完整標準驗證。相較之下,「acceptmarkdown....

Ben Word@retlehs
605🔁 26
𝕏🔥🔥🔥🔥🔥

Kimi K2.6開源模型在程式碼基準領先,強化長視野編碼與Agent叢集。 Kimi K2.6是Moonshot AI最新開源模型,在多項程式碼基準達到SOTA成績,如HLE w/ tools (54.0)、SWE-Bench P...

Kimi.ai@Kimi_Moonshot
13.4k🔁 1.7k
𝕏🔥🔥🔥🔥

Claude Opus 4.7 在「Document Arena」與「Vision Arena」奪冠,領先幅度驚人。 「Arena.ai」公布最新排行,AnthropicAI 的「Claude Opus 4.7」在「Document ...

Arena.ai@arena
510🔁 34
𝕏🔥🔥🔥🔥

Simon Willison升級「Claude Token Counter」工具,揭露Claude Opus 4.7 tokenizer變化導致token數暴增,實際成本大幅上漲。 Simon Willison於2026年4月20日發...

Simon Willison@simonw
1.5k🔁 134
𝕏🔥🔥

我們是如何打造高 token 效率的記憶演算法 全新的 @mem0ai 記憶演算法在 LoCoMo、LongMemEval 和 BEAM 測試中達到了極具競爭力的準確度,且每個查詢使用的 token 數不到 7,000 個(約減少了 ...

mem0@mem0ai
125🔁 19
𝕏🔥🔥

EvoForge:擴展演化式 Harness 優化 為什麼只優化一個 harness,而不試著同時優化多個呢?這就是 EvoForge:一個演化式 harness 優化器。 在 TerminalBench 2.0 測試中...

Leonard Tang@leonardtang_
213🔁 24
𝕏🔥🔥

DDTree透過單次區塊擴散前向傳遞建構草稿樹,提升推測解碼加速比。 DDTree(Diffusion Draft Tree)是一種新型推測解碼方法,從單次區塊擴散前向傳遞產生每個位置的token分佈,直接建構草稿樹,並以樹狀注意力在...

Liran Ringel@liranringel
979🔁 132
𝕏🔥🔥🔥

R-Zero實現零外部資料自進化LLM推理能力大幅躍升。 「R-Zero」是ICLR 2026論文提出的全自主框架,從單一基礎LLM出發,透過「Challenger」與「Solver」兩個角色互動共進化,生成自身訓練資料並克服人類資料...

Han Fang@Han_Fang_
429🔁 64
𝕏🔥

Claude Opus 4.6 效能遭大幅削弱,幻覺率激增導致排名暴跌。 根據 BridgeBench 的最新測試,Claude Opus 4.6 的推理能力顯著下降,顯示該模型近期已遭到「削弱」(nerfed),導致其在基準測試中的...

BridgeMind@bridgemindai
6.6k🔁 666
𝕏🔥

GPT 5.4 Pro 的競爭力顯示 OpenAI 下一代旗艦模型將超越 Mythos。 儘管市場焦點多集中於 Mythos 的強勢表現,但數據顯示 GPT 5.4 Pro 在現有評測基準上已展現出極高的競爭力,這預示著 OpenAI...

Chris@chatgpt21
1.8k🔁 125
𝕏🔥

研究顯示平行採樣在大型推理模型中優於序列採樣。 Google DeepMind 的研究指出,在大型推理模型 (LRMs) 進行數學與程式撰寫任務時,平行採樣的表現通常優於序列採樣,且關鍵原因在於序列採樣缺乏足夠的探索性。 研究背...

Xiangming Gu@gu_xiangming
167🔁 24
𝕏🔥

「HyperMem」透過超圖架構優化長期記憶,在 LoCoMo 基準測試中達到 92.73% 的準確率。 EverMind 團隊發表的最新論文「HyperMem: Hypergraph Memory for Long-Term Con...

EverMind@evermind
53🔁 6