策展精選
AI 技術社群精選內容,按時間排序瀏覽所有策展貼文。共 25 篇
Cloudflare 新網站僅驗證 Markdown 回傳,基礎不夠完善。 Cloudflare 推出的新網站作為基準,僅檢查 API 是否回傳 Markdown 格式,但未涵蓋完整標準驗證。相較之下,「acceptmarkdown....
@retlehsKimi K2.6開源模型在程式碼基準領先,強化長視野編碼與Agent叢集。 Kimi K2.6是Moonshot AI最新開源模型,在多項程式碼基準達到SOTA成績,如HLE w/ tools (54.0)、SWE-Bench P...
@Kimi_MoonshotClaude Opus 4.7 在「Document Arena」與「Vision Arena」奪冠,領先幅度驚人。 「Arena.ai」公布最新排行,AnthropicAI 的「Claude Opus 4.7」在「Document ...
@arenaSimon Willison升級「Claude Token Counter」工具,揭露Claude Opus 4.7 tokenizer變化導致token數暴增,實際成本大幅上漲。 Simon Willison於2026年4月20日發...
@simonw我們是如何打造高 token 效率的記憶演算法 全新的 @mem0ai 記憶演算法在 LoCoMo、LongMemEval 和 BEAM 測試中達到了極具競爭力的準確度,且每個查詢使用的 token 數不到 7,000 個(約減少了 ...
@mem0aiEvoForge:擴展演化式 Harness 優化 為什麼只優化一個 harness,而不試著同時優化多個呢?這就是 EvoForge:一個演化式 harness 優化器。 在 TerminalBench 2.0 測試中...
@leonardtang_DDTree透過單次區塊擴散前向傳遞建構草稿樹,提升推測解碼加速比。 DDTree(Diffusion Draft Tree)是一種新型推測解碼方法,從單次區塊擴散前向傳遞產生每個位置的token分佈,直接建構草稿樹,並以樹狀注意力在...
@liranringelR-Zero實現零外部資料自進化LLM推理能力大幅躍升。 「R-Zero」是ICLR 2026論文提出的全自主框架,從單一基礎LLM出發,透過「Challenger」與「Solver」兩個角色互動共進化,生成自身訓練資料並克服人類資料...
@Han_Fang_Claude Opus 4.6 效能遭大幅削弱,幻覺率激增導致排名暴跌。 根據 BridgeBench 的最新測試,Claude Opus 4.6 的推理能力顯著下降,顯示該模型近期已遭到「削弱」(nerfed),導致其在基準測試中的...
@bridgemindaiGPT 5.4 Pro 的競爭力顯示 OpenAI 下一代旗艦模型將超越 Mythos。 儘管市場焦點多集中於 Mythos 的強勢表現,但數據顯示 GPT 5.4 Pro 在現有評測基準上已展現出極高的競爭力,這預示著 OpenAI...
@chatgpt21研究顯示平行採樣在大型推理模型中優於序列採樣。 Google DeepMind 的研究指出,在大型推理模型 (LRMs) 進行數學與程式撰寫任務時,平行採樣的表現通常優於序列採樣,且關鍵原因在於序列採樣缺乏足夠的探索性。 研究背...
@gu_xiangming「HyperMem」透過超圖架構優化長期記憶,在 LoCoMo 基準測試中達到 92.73% 的準確率。 EverMind 團隊發表的最新論文「HyperMem: Hypergraph Memory for Long-Term Con...
@evermind