策展精選

AI 技術社群精選內容，按時間排序瀏覽所有策展貼文。共 1 篇

Memento

熱度

排序

Memento：教導 LLM 自行管理上下文 (Context) 我們教導模型在生成過程中自行壓縮其思維鏈 (Chain-of-Thought)。峰值 KV cache 下降了 2–3 倍，吞吐量幾乎翻倍，且被抹除的推理區塊會在 KV...

@DimitrisPapail

♥886🔁 134