AI 技術社群精選內容,按時間排序瀏覽所有策展貼文。共 1 篇
Memento:教導 LLM 自行管理上下文 (Context) 我們教導模型在生成過程中自行壓縮其思維鏈 (Chain-of-Thought)。峰值 KV cache 下降了 2–3 倍,吞吐量幾乎翻倍,且被抹除的推理區塊會在 KV...