AI 技術社群精選內容,按時間排序瀏覽所有策展貼文。共 1 篇
TPO將GRPO轉化為監督式學習,在稀疏獎勵下大幅超越基準。 Jean Kaddour於2026年4月7日發表論文「Target Policy Optimization」(arXiv:2604.06159),提出TPO方法,將強化學習...