反向困惑度課程+兩階段RL+測試時尺度化,這套組合拳打下來,後訓練推理模型的天花板又被捅穿了

查看原文
ME News
後訓練推理模型SU-01在奧賽級試題中實現金牌性能
AIMPACT提出將後訓練推理模型轉化為奧林匹克級解題器的系統方法,分三步:用反向困惑度課程進行監督微調灌輸證明搜索與自我檢查;再經兩階段強化學習擴展;測試時再進行尺度化提升。應用於30B-A3B骨幹,使用約34萬條子8K軌跡進行監督微調,隨後200步RL,得到SU-01。該模型能對難題進行穩定推理,軌跡超10萬token,在IMO/USAMO/IPhO等競賽達到金牌級別,並展現跨數學/物理以外領域的科學推理泛化能力。
此頁面可能包含第三方內容,僅供參考(非陳述或保證),不應被視為 Gate 認可其觀點表述,也不得被視為財務或專業建議。詳見聲明
  • 打賞
  • 回覆
  • 轉發
  • 分享
回覆
請輸入回覆內容
請輸入回覆內容
暫無回覆