AIMPACT メッセージ、5 月 16 日（UTC+8）、新しい論文が後訓練推論モデルをオリンピックレベルの解答器に変換するシステム的方法を提案し、その方法に基づいてSU-01モデルを訓練した。
この方法は三つのステップを含む：まず、逆困惑度コースを用いた監督微調整で、厳格な証明探索と自己検査行動を注入する；次に、二段階の強化学習（検証可能な報酬強化学習から証明レベルの強化学習への移行）を通じてこれらの行動を拡張する；最後に、テスト時のスケーリングによって性能を向上させる。
研究チームはこの方法を30B-A3Bバックボーンモデルに適用し、約34万のサブ8Kトークン軌跡を用いて監督微調整を行い、その後200ステップの強化学習を経てSU-01を得た。
このモデルは難しい問題に対して安定した推論を行うことができ、軌跡長は10万トークンを超え、IMO 2025/USAMO 2026やIPhO 2024/2025などの競技で金メダルレベルに達し、数学や物理以外の科学推論分野での一般化能力も示した。（出典：InFoQ）

原文表示

このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております（表明・保証をするものではありません）。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。

11 いいね

報酬
11
11
2
共有

コメントを追加

SeaSaltMintCandy

· 1時間前

SU-01この名前には意味がありますか、それともただ適当に付けられたのですか。

原文表示返信0

StainedGlassSolarArray

· 1時間前

後訓練変換のこのアイデアは、他の研究室もすぐに追随するはずだ

原文表示返信0

GateUser-d2929483

· 2時間前

この仕事が本当なら、コンテストの問題データが値上がりするだろう

原文表示返信0

StopRaisingGasFees.

· 2時間前

200ステップのRLで収束できるのか？それとも単なる公開されている数字なのか？

原文表示返信0

MetalFrameBookPageCross

· 2時間前

两阶段RL扩展具体指什么，有细节吗

返信0

GateUser-7a050ee5

· 2時間前

まだオープンソースや詳細な技術レポートはありません。とりあえずマークしておきます。

原文表示返信0

GateUser-f4b3df7a

· 2時間前

自己点検メカニズムはどのように実現されているのか、専用の訓練目標はありますか

原文表示返信0

GateUser-e3701961

· 2時間前

テスト時のスケーリングアップはセルフコンシステンシーですか、それとも他のテクニックですか

原文表示返信0

LittleBitcoinInTheReflection

· 2時間前

30B-A3Bこの規模でこれを実現できるなら、効率はGPT-4よりずっと高いでしょうね

原文表示返信0

HalfLifeHodler

· 2時間前

クロスドメインの一般化能力に最も注目すべきであり、またベンチマーク過剰適合にならないように注意すべきだ。

原文表示返信0

人気の話題
もっと見る
#
StockTradingChallengeUpTo17000U
16.22M 人気度
#
TrumpBacksCFTCAuthorityOverPredictionMarkets
815.52K 人気度
#
IsraelStrikesIranBTCPlunges
49.55K 人気度
#
GatePredictionMarketAddsSmartMoneyTracking
13.2M 人気度
#
MicronMarketCapBreaks1Trillion
35.95K 人気度

ピン留め

サイトマップ

後訓練推理モデルSU-01は、オリンピックレベルの試験で金牌性能を実現しました

人気の話題

StockTradingChallengeUpTo17000U

TrumpBacksCFTCAuthorityOverPredictionMarkets

IsraelStrikesIranBTCPlunges

GatePredictionMarketAddsSmartMoneyTracking

MicronMarketCapBreaks1Trillion

ピン留め