策展精選
AI 技術社群精選內容,按時間排序瀏覽所有策展貼文。共 83 篇
Kimi K2.6開源模型在程式碼基準領先,強化長視野編碼與Agent叢集。 Kimi K2.6是Moonshot AI最新開源模型,在多項程式碼基準達到SOTA成績,如HLE w/ tools (54.0)、SWE-Bench P...
@Kimi_MoonshotAC/DC透過共同演化小規模專家LLM群體,超越單一大型模型如GPT-4o。 AC/DC核心概念 Assessment Coevolving w/ Diverse Capabilities (AC/DC) 是一種持續共同演化的方...
@BorisMeinardus循環Transformer區塊實現測試時運算擴展,證明其收斂至固定點,形成類似前饋模型的推理階段。 Grigory Sapunov分享論文《A Mechanistic Analysis of Looped Reasoning Lang...
@che_shr_catLLM推論快取全面指南:降低成本與延遲的關鍵策略。 大型語言模型(LLM)推論過程耗時且昂貴,主要因重複計算系統提示與常見查詢,推論快取透過儲存並重用計算結果,顯著降低token消耗與延遲,無需大幅修改應用邏輯。本文詳解三種主要快取類...
@TeachTheMachine克服 TRL 中訓練器與生成器之間的精度不匹配問題 數值精度差異導致的「幻影 PPO 裁剪」阻礙了 RL 收斂。 簡短總結:我們發現當訓練的前向傳遞(FP32)與 vLLM 推論伺服器(BF16)使用不同的數值精度時,非同步 G...
@DirhousssiAmineParcae透過穩定循環架構實現參數效率提升,達到兩倍Transformer品質。 Parcae是新型穩定循環語言模型,透過層循環增加FLOPs而不擴大參數,解決傳統Transformer在邊緣裝置上記憶體開銷暴增的問題。研究發現,在...
@hayden_prairie一篇新論文揭露ChatGPT使用者普遍犯下的「LLM Fallacy」認知錯誤,使用者誤將LLM輔助產出視為自身獨立能力證明。 這篇論文《The LLM Fallacy: Misattribution in AI-Assisted C...
@ihtesham2005深度層通訊從累加升級為檢索,MoDA透過硬體優化實現高效深度注意力。 過去十年,人工智慧模型架構的第一階段專注擴大層內運算規模,但層間通訊機制幾乎停滯於2015年ResNet的「x + F(x)」殘差連接,導致訊號稀釋與許多層「學會沉...
@lianghui_zhuLLM工程師必讀12篇論文精選。 這份清單彙整人工智慧領域12篇奠基性論文,涵蓋從Transformer架構到模型對齊的關鍵進展,每篇皆由作者解讀其核心洞見,強調對現代大型語言模型(LLM)的實務影響。 Transformer革...
@amitiitbhuClaude Opus 4.7 並非 4.6 的直接替代品 全新的 xhigh 努力程度(effort level)、自適應思考(adaptive thinking)以及 1M context window,改變了你使用 Claude...
@akshay_pachaar我用更實用的工具取代了 Karpathy 的 LLM Wiki 在關於 LLM Wiki 最熱門的影片下方,有一則獲得最多讚的留言說:「對大多數人來說,這基本上毫無價值。」 我想知道他說得對不對。⌕ 我的目標是改善我的決策能力。...
@ArtemXTechMoE 模型中的訓練與推論一致性:數值漂移發生之處 當「更快」不等於「相同」:部署 MoE 模型時的數值陷阱 在數學上等價的 Kernel 融合(Kernel fusions),在數值上仍可能產生漂移。以下是我們在 Kimi K...
@FireworksAI_HQ