策展精選

AI 技術社群精選內容，按時間排序瀏覽所有策展貼文。共 1 篇

JAX

熱度

排序

TPO將GRPO轉化為監督式學習，在稀疏獎勵下大幅超越基準。 Jean Kaddour於2026年4月7日發表論文「Target Policy Optimization」（arXiv:2604.06159），提出TPO方法，將強化學習...

@jeankaddour

♥488🔁 65