策展精選
AI 技術社群精選內容,按時間排序瀏覽所有策展貼文。共 83 篇
「管理不善的天才」假說 (The "Mismanaged Geniuses" Hypothesis) tldr; AI 模型已經具備實現下一次能力飛躍的條件。 作者:Alex Zhang (@a1zhang), Zhening ...
@a1zhangLLM 路由服務存在嚴重資安漏洞,恐導致惡意程式碼注入與憑證竊取。 研究指出,現今「Agent」高度依賴第三方 API 路由來分發工具呼叫請求,但這些路由作為應用層代理,能完全存取明文 JSON 負載,且缺乏端到端 (End to E...
@Fried_riceClaude 推出「Advisor Strategy」工具,讓輕量模型能動態呼叫 Opus 進行決策,在降低成本的同時提升 Agent 效能。 Anthropic 近期於 Claude Platform 推出「Advisor Stra...
@claudeaiKellyBench 揭示頂尖 AI 模型在長期決策任務中表現不佳。 「KellyBench」是一個針對長期、非靜態環境設計的評測基準,旨在測試 AI 模型在真實體育博彩市場中的序列決策能力,結果顯示目前所有頂尖模型皆無法穩定獲利。 ...
@GenReasoningMegaTrain 實現單 GPU 訓練 100B+ 參數模型。 MegaTrain 透過將主機記憶體作為參數儲存核心,成功在單一 GPU 上實現 100B+ 參數模型的高精度訓練,挑戰了傳統以 GPU 為中心的設計限制。此研究指出,...
@Underfox3OpenAI 效仿 Anthropic 限制新模型發布以防資安風險。 OpenAI 計畫採取與 Anthropic 類似的策略,僅向少數企業開放其具備進階網路安全能力的新模型,此舉被視為對 AI 自主駭客風險的回應。這項決策極具諷刺意...
@synthwaveddThreadWeaver 透過自適應平行推理技術,在維持推理準確度的同時顯著降低大型語言模型的延遲。 ThreadWeaver 是一個開源的平行推理框架,旨在解決大型語言模型 (LLM) 因序列解碼導致的推理延遲問題。該技術透過自適應...
@LongTonyLian遺忘的幾何學:為什麼大腦與 LLM 會以「完全相同」的方式失效 TL;DR (總結) LLM 的記憶系統遺忘的方式與人類「完全相同」,重現了臨床心理學中一些最常被複製的實驗數據。 在過去幾個月裡,我們一直在探索一個單一觀察結果...
@ashwingopOpenAI 內部模型成功解決五項 Erdős 數學難題。 OpenAI 近期發表了一篇新論文,展示其內部模型成功解決了五項數學界的「Erdős 問題」,證明 AI 在處理複雜數學推論上的進展。 研究成果與亮點 這篇論文(編號...
@mehtaab_sawhney最強大的 AI 模型剛剛輸給了一個 4 層神經網路 在 ARC-AGI-3 發布的前兩天,Jensen Huang 對 Lex Fridman 說:「我認為我們已經實現了 AGI。」 這個時機點很不湊巧。或者,取決於你的觀點,這...
@everyonebpup「aimock」提供了一套全方位的 AI 應用測試基礎設施,透過單一封裝解決 LLM、Agent 及向量資料庫的模擬需求。 核心定位與價值 「aimock」旨在解決 AI 應用開發中測試困難的痛點,特別是針對依賴外部 API(如 L...
@nathan_tarbertTanStack AI 推出 Code Mode,讓 LLM 透過執行 TypeScript 程式碼解決複雜任務。 LLM 在處理數學運算與工具呼叫(Orchestration)時表現不佳,TanStack AI 提出的「Code M...
@tan_stack