策展精選

AI 技術社群精選內容，按時間排序瀏覽所有策展貼文。共 83 篇

LLM

熱度

排序

𝕏🔥🔥🔥🔥🔥2026/4/21

Kimi K2.6開源模型在程式碼基準領先，強化長視野編碼與Agent叢集。 Kimi K2.6是Moonshot AI最新開源模型，在多項程式碼基準達到SOTA成績，如HLE w/ tools (54.0)、SWE-Bench P...

LLM 開源專案 Agent Benchmark Moonshot AI Kimi

@Kimi_Moonshot

♥13.4k🔁 1.7k

𝕏🔥🔥2026/4/21

AC/DC透過共同演化小規模專家LLM群體，超越單一大型模型如GPT-4o。 AC/DC核心概念 Assessment Coevolving w/ Diverse Capabilities (AC/DC) 是一種持續共同演化的方...

LLM 研究論文產業趨勢 Sakana AI OpenAI GPT

@BorisMeinardus

♥168🔁 19

𝕏🔥🔥🔥2026/4/21

循環Transformer區塊實現測試時運算擴展，證明其收斂至固定點，形成類似前饋模型的推理階段。 Grigory Sapunov分享論文《A Mechanistic Analysis of Looped Reasoning Lang...

研究論文 LLM Transformer

@che_shr_cat

♥172🔁 27

𝕏🔥2026/4/20

LLM推論快取全面指南：降低成本與延遲的關鍵策略。大型語言模型（LLM）推論過程耗時且昂貴，主要因重複計算系統提示與常見查詢，推論快取透過儲存並重用計算結果，顯著降低token消耗與延遲，無需大幅修改應用邏輯。本文詳解三種主要快取類...

LLM 教學資源 LLM

@TeachTheMachine

♥28🔁 3

𝕏🔥2026/4/20

克服 TRL 中訓練器與生成器之間的精度不匹配問題數值精度差異導致的「幻影 PPO 裁剪」阻礙了 RL 收斂。簡短總結：我們發現當訓練的前向傳遞（FP32）與 vLLM 推論伺服器（BF16）使用不同的數值精度時，非同步 G...

研究論文 LLM 自動化 TRL vLLM

@DirhousssiAmine

♥72🔁 7

𝕏🔥2026/4/20

Parcae透過穩定循環架構實現參數效率提升，達到兩倍Transformer品質。 Parcae是新型穩定循環語言模型，透過層循環增加FLOPs而不擴大參數，解決傳統Transformer在邊緣裝置上記憶體開銷暴增的問題。研究發現，在...

研究論文 LLM AIGC Parcae Transformer

@hayden_prairie

♥1.2k🔁 167

𝕏🔥🔥2026/4/20

一篇新論文揭露ChatGPT使用者普遍犯下的「LLM Fallacy」認知錯誤，使用者誤將LLM輔助產出視為自身獨立能力證明。這篇論文《The LLM Fallacy: Misattribution in AI-Assisted C...

LLM 研究論文產業趨勢 OpenAI ChatGPT

@ihtesham2005

♥195🔁 47

𝕏🔥2026/4/20

深度層通訊從累加升級為檢索，MoDA透過硬體優化實現高效深度注意力。過去十年，人工智慧模型架構的第一階段專注擴大層內運算規模，但層間通訊機制幾乎停滯於2015年ResNet的「x + F(x)」殘差連接，導致訊號稀釋與許多層「學會沉...

研究論文 LLM AI Research

@lianghui_zhu

♥1.9k🔁 226

𝕏🔥2026/4/20

LLM工程師必讀12篇論文精選。這份清單彙整人工智慧領域12篇奠基性論文，涵蓋從Transformer架構到模型對齊的關鍵進展，每篇皆由作者解讀其核心洞見，強調對現代大型語言模型（LLM）的實務影響。 Transformer革...

LLM 研究論文教學資源 Transformer BERT

@amitiitbhu

𝕏🔥2026/4/20

Claude Opus 4.7 並非 4.6 的直接替代品全新的 xhigh 努力程度（effort level）、自適應思考（adaptive thinking）以及 1M context window，改變了你使用 Claude...

功能更新 LLM Anthropic Claude

@akshay_pachaar

♥347🔁 45

𝕏🔥2026/4/20

我用更實用的工具取代了 Karpathy 的 LLM Wiki 在關於 LLM Wiki 最熱門的影片下方，有一則獲得最多讚的留言說：「對大多數人來說，這基本上毫無價值。」我想知道他說得對不對。⌕ 我的目標是改善我的決策能力。...

LLM 教學資源其他 LLM

@ArtemXTech

♥1.2k🔁 120

𝕏🔥2026/4/18

MoE 模型中的訓練與推論一致性：數值漂移發生之處當「更快」不等於「相同」：部署 MoE 模型時的數值陷阱在數學上等價的 Kernel 融合（Kernel fusions），在數值上仍可能產生漂移。以下是我們在 Kimi K...

LLM 研究論文其他 Kimi Qwen

@FireworksAI_HQ

♥182🔁 18