策展精選

AI 技術社群精選內容，按時間排序瀏覽所有策展貼文。共 25 篇

Benchmark

熱度

排序

𝕏🔥2026/4/21

Cloudflare 新網站僅驗證 Markdown 回傳，基礎不夠完善。 Cloudflare 推出的新網站作為基準，僅檢查 API 是否回傳 Markdown 格式，但未涵蓋完整標準驗證。相較之下，「acceptmarkdown....

Agent Benchmark 其他 Cloudflare

@retlehs

♥605🔁 26

𝕏🔥🔥🔥🔥🔥2026/4/21

Kimi K2.6開源模型在程式碼基準領先，強化長視野編碼與Agent叢集。 Kimi K2.6是Moonshot AI最新開源模型，在多項程式碼基準達到SOTA成績，如HLE w/ tools (54.0)、SWE-Bench P...

LLM 開源專案 Agent Benchmark Moonshot AI Kimi

@Kimi_Moonshot

♥13.4k🔁 1.7k

𝕏🔥🔥🔥🔥2026/4/21

Claude Opus 4.7 在「Document Arena」與「Vision Arena」奪冠，領先幅度驚人。「Arena.ai」公布最新排行，AnthropicAI 的「Claude Opus 4.7」在「Document ...

Benchmark Claude VLM Anthropic Claude

@arena

♥510🔁 34

𝕏🔥🔥🔥🔥2026/4/20

Simon Willison升級「Claude Token Counter」工具，揭露Claude Opus 4.7 tokenizer變化導致token數暴增，實際成本大幅上漲。 Simon Willison於2026年4月20日發...

功能更新 Benchmark 產業趨勢 Anthropic Claude

@simonw

♥1.5k🔁 134

𝕏🔥🔥2026/4/18

我們是如何打造高 token 效率的記憶演算法全新的 @mem0ai 記憶演算法在 LoCoMo、LongMemEval 和 BEAM 測試中達到了極具競爭力的準確度，且每個查詢使用的 token 數不到 7,000 個（約減少了 ...

開源專案 Agent Benchmark Mem0

@mem0ai

♥125🔁 19

𝕏🔥🔥2026/4/16

EvoForge：擴展演化式 Harness 優化為什麼只優化一個 harness，而不試著同時優化多個呢？這就是 EvoForge：一個演化式 harness 優化器。在 TerminalBench 2.0 測試中...

開源專案 Benchmark Harness CLI EvoForge GPT Codex

@leonardtang_

♥213🔁 24

𝕏🔥🔥2026/4/15

DDTree透過單次區塊擴散前向傳遞建構草稿樹，提升推測解碼加速比。 DDTree（Diffusion Draft Tree）是一種新型推測解碼方法，從單次區塊擴散前向傳遞產生每個位置的token分佈，直接建構草稿樹，並以樹狀注意力在...

研究論文 LLM Benchmark DDTree

@liranringel

♥979🔁 132

𝕏🔥🔥🔥2026/4/14

R-Zero實現零外部資料自進化LLM推理能力大幅躍升。「R-Zero」是ICLR 2026論文提出的全自主框架，從單一基礎LLM出發，透過「Challenger」與「Solver」兩個角色互動共進化，生成自身訓練資料並克服人類資料...

LLM 研究論文 Benchmark R-Zero Qwen

@Han_Fang_

♥429🔁 64

𝕏🔥2026/4/13

Claude Opus 4.6 效能遭大幅削弱，幻覺率激增導致排名暴跌。根據 BridgeBench 的最新測試，Claude Opus 4.6 的推理能力顯著下降，顯示該模型近期已遭到「削弱」（nerfed），導致其在基準測試中的...

LLM Benchmark 功能更新 Anthropic Claude

@bridgemindai

♥6.6k🔁 666

𝕏🔥2026/4/13

GPT 5.4 Pro 的競爭力顯示 OpenAI 下一代旗艦模型將超越 Mythos。儘管市場焦點多集中於 Mythos 的強勢表現，但數據顯示 GPT 5.4 Pro 在現有評測基準上已展現出極高的競爭力，這預示著 OpenAI...

LLM Benchmark 產業趨勢 OpenAI GPT Mythos

@chatgpt21

♥1.8k🔁 125

𝕏🔥2026/4/11

研究顯示平行採樣在大型推理模型中優於序列採樣。 Google DeepMind 的研究指出，在大型推理模型 (LRMs) 進行數學與程式撰寫任務時，平行採樣的表現通常優於序列採樣，且關鍵原因在於序列採樣缺乏足夠的探索性。研究背...

研究論文 LLM Benchmark Google DeepMind Gemini

@gu_xiangming

♥167🔁 24

𝕏🔥2026/4/10

「HyperMem」透過超圖架構優化長期記憶，在 LoCoMo 基準測試中達到 92.73% 的準確率。 EverMind 團隊發表的最新論文「HyperMem: Hypergraph Memory for Long-Term Con...

研究論文 RAG Benchmark EverMind ACL

@evermind

♥53🔁 6