策展精選

AI 技術社群精選內容,按時間排序瀏覽所有策展貼文。56

研究論文
熱度
排序
𝕏🔥

研究顯示平行採樣在大型推理模型中優於序列採樣。 Google DeepMind 的研究指出,在大型推理模型 (LRMs) 進行數學與程式撰寫任務時,平行採樣的表現通常優於序列採樣,且關鍵原因在於序列採樣缺乏足夠的探索性。 研究背...

Xiangming Gu@gu_xiangming
167🔁 24
𝕏🔥

中文書法是一項前沿任務 前沿模型(Frontier models)能夠掌握中文書法的藝術嗎?我們向它們發起挑戰,要求它們重現 20 位書法大師所寫的 88 個高難度漢字。 動機:受限的美學操縱 前沿模型在工具使用、數學和程...

Leonard Tang@leonardtang_
60🔁 8
𝕏🔥

EvoSkill 透過自動化演算法提升程式開發 Agent 的效能。 EvoSkill 是一個與 Agent 無關的工具組,旨在透過自動化發現與優化技能,顯著增強程式撰寫 Agent 的能力,並已獲得學術論文引用。該工具透過自我演化機...

Anita AGI/acc@Anitahityou
104🔁 13
𝕏🔥

Why Is Continual Learning Even Possible Mathematically? 為什麼持續學習在數學上是可能的? To answer this question, we need to step bac...

deep Manifold@BetaTomorrow
710🔁 80
𝕏🔥

Latent Briefing:透過 KV Cache Compaction 實現多 Agent 系統的高效記憶共享 多 Agent 系統在協調、複雜推理與平行工作流方面展現了極大的潛力。然而,它們往往存在嚴重的 token 使用效率...

Ramp Labs@RampLabs
1.4k🔁 139
𝕏🔥

「管理不善的天才」假說 (The "Mismanaged Geniuses" Hypothesis) tldr; AI 模型已經具備實現下一次能力飛躍的條件。 作者:Alex Zhang (@a1zhang), Zhening ...

alex zhang@a1zhang
1.1k🔁 133
𝕏🔥

「Memory Intelligence Agent (MIA)」透過 Manager-Planner-Executor 架構,讓 AI 從被動紀錄轉向主動策略演進。 「Memory Intelligence Agent (MIA)」...

Ksenia_TuringPost@TheTuringPost
124🔁 28
𝕏🔥

「HyperMem」透過超圖架構優化長期記憶,在 LoCoMo 基準測試中達到 92.73% 的準確率。 EverMind 團隊發表的最新論文「HyperMem: Hypergraph Memory for Long-Term Con...

EverMind@evermind
53🔁 6
𝕏🔥

當前主流 AI Agent 評測基準存在嚴重漏洞,研究顯示透過簡單的攻擊手法即可在不解決任何任務的情況下獲得滿分。 研究人員針對八大主流 AI Agent 評測基準進行審計,發現所有基準皆存在可被利用的漏洞,導致模型在未解決任何任務的...

Hao Wang@MogicianTony
667🔁 90
𝕏🔥

DISCO 透過聯合擴散技術實現蛋白質序列與結構的同步設計,突破自然界化學限制。 DISCO (Diffusion for Sequence-structure CO-design) 是一種多模態生成模型,能同時設計蛋白質序列與 3D...

Jarrid Rector-Brooks@jarridrb
1.0k🔁 244
𝕏🔥

KellyBench 揭示頂尖 AI 模型在長期決策任務中表現不佳。 「KellyBench」是一個針對長期、非靜態環境設計的評測基準,旨在測試 AI 模型在真實體育博彩市場中的序列決策能力,結果顯示目前所有頂尖模型皆無法穩定獲利。 ...

General Reasoning@GenReasoning
627🔁 49
𝕏🔥

MegaTrain 實現單 GPU 訓練 100B+ 參數模型。 MegaTrain 透過將主機記憶體作為參數儲存核心,成功在單一 GPU 上實現 100B+ 參數模型的高精度訓練,挑戰了傳統以 GPU 為中心的設計限制。此研究指出,...

Underfox@Underfox3
174🔁 25