AI 技術社群精選內容,按時間排序瀏覽所有策展貼文。共 1 篇
克服 TRL 中訓練器與生成器之間的精度不匹配問題 數值精度差異導致的「幻影 PPO 裁剪」阻礙了 RL 收斂。 簡短總結:我們發現當訓練的前向傳遞(FP32)與 vLLM 推論伺服器(BF16)使用不同的數值精度時,非同步 G...