策展精選
AI 技術社群精選內容,按時間排序瀏覽所有策展貼文。共 25 篇
當前主流 AI Agent 評測基準存在嚴重漏洞,研究顯示透過簡單的攻擊手法即可在不解決任何任務的情況下獲得滿分。 研究人員針對八大主流 AI Agent 評測基準進行審計,發現所有基準皆存在可被利用的漏洞,導致模型在未解決任何任務的...
@MogicianTonyKellyBench 揭示頂尖 AI 模型在長期決策任務中表現不佳。 「KellyBench」是一個針對長期、非靜態環境設計的評測基準,旨在測試 AI 模型在真實體育博彩市場中的序列決策能力,結果顯示目前所有頂尖模型皆無法穩定獲利。 ...
@GenReasoningThreadWeaver 透過自適應平行推理技術,在維持推理準確度的同時顯著降低大型語言模型的延遲。 ThreadWeaver 是一個開源的平行推理框架,旨在解決大型語言模型 (LLM) 因序列解碼導致的推理延遲問題。該技術透過自適應...
@LongTonyLianGym-Anything 透過自動化流程將各類軟體轉化為 AI Agent 的測試環境。 卡內基美隆大學團隊推出的「Gym-Anything」框架,旨在解決當前 AI Agent 評測僅限於簡單任務與少量應用程式的侷限。該框架透過自動...
@PranjalAggarw16最強大的 AI 模型剛剛輸給了一個 4 層神經網路 在 ARC-AGI-3 發布的前兩天,Jensen Huang 對 Lex Fridman 說:「我認為我們已經實現了 AGI。」 這個時機點很不湊巧。或者,取決於你的觀點,這...
@everyonebpupLiquid AI 發布 LFM2.5-VL-450M 模型,實現邊緣裝置上的即時視覺推理與結構化輸出。 Liquid AI 近期推出 LFM2.5-VL-450M,這是一款專為邊緣裝置設計的視覺語言模型 (VLM),旨在透過單次推論...
@liquidaiMemPalace 推出開源 AI 記憶系統,實現 100% 基準測試分數。 MemPalace 是一個由開發者與 Milla Jovovich (蜜拉·喬娃維琪) 共同開發的開源 AI 記憶系統,透過獨特的「宮殿」架構與「AAAK」...
@bensigSimpleStream 證明僅靠近期影格即可超越複雜的串流影片理解模型。 SimpleStream 研究指出,現有串流影片理解模型過度依賴複雜的記憶機制,透過僅輸入最近 N 個影格的簡單滑動視窗基準,即可達到甚至超越現有 SOTA ...
@liuziwei7auto-harness:具備自動評估功能的自我優化 Agent 系統(已開源!) 連接您的 Agent,讓它在週末期間自行運作。我們剛剛開源了我們的 auto-harness——這是一個自我優化的迴圈,能找出 Agent 的失敗之處...
@gauri__gupta規劃基準測試顯示工具選擇與使用模式對 AI 效能影響巨大。 Matt Maher 的最新基準測試顯示,人工智慧模型的規劃能力不僅取決於模型本身,更受限於所使用的工具與工作流程。測試結果表明,工具選擇與使用模式對最終產出的影響,甚至超過...
@edwinarbusKaggle 正式推出「Standardized Agent Exams (SAE)」實驗性 MVP,旨在為開發者提供一套輕量、無需繁瑣設定的標準化評測機制,以即時評估 AI Agent 的實戰能力並公開排名。此舉意在解決當前評測基準多針對...
@kaggle「H Company」於 2026 年 3 月 31 日發布了全新「Holo3」系列電腦操作模型,該模型在「OSWorld-Verified」基準測試中取得 78.9% 的高分,以僅十分之一的成本超越了「GPT-5.4」與「Opus 4.6...
@hcompany_ai