近日,阿里通義實驗室智能計算團隊宣布推出新算法FIPO(Future-KL Influenced Policy Optimization),引入Future-KL機制,獎勵關鍵Token,解決純強化學習(Pure RL)訓練中“推理長度停滯”難題。據該團隊介紹,在32B規模的純RL設定下,率先實現對o1-mini與同規模DeepSeek-Zero-MATH的性能反超。
現代實驗室裝備網 實驗室行業專業網絡媒體
4001009187 0731-84444840
?Copyright 2000-2026 現代資訊 All Rights Reserved
QQ:369830746
4001009187 0731-84444840
?Copyright 2000-2026 現代資訊 All Rights Reserved
QQ:369830746





