Last Updated on 2025-04-24 11:03 by admin
2025年4月23日、ノースウェスタン大学、マイクロソフト、スタンフォード大学、ワシントン大学の共同研究チームが、AIエージェントの訓練と評価のための新システム「RAGEN」を発表した。
このチームには元DeepSeek研究者のジーハン・ワン氏(現在ノースウェスタン大学でコンピュータサイエンスの博士号取得中)が含まれている。
RAGENは「State-Thinking-Actions-Reward Policy Optimization(StarPO)」と呼ばれるカスタム強化学習フレームワークを基盤としており、LLM(大規模言語モデル)が単なる暗記ではなく経験を通じて学習する方法を探求している。このシステムは単一ステップの応答ではなく、意思決定の全体的な軌跡に焦点を当てている。
StarPOは2つの交互に行われる段階で動作する:推論によって導かれるLLMが完全な対話シーケンスを生成するロールアウト段階と、正規化された累積報酬を使用してモデルが最適化される更新段階だ。
研究チームは、「エコートラップ」と呼ばれる現象を特定した。これは強化学習システムが時間の経過とともにショートカットに報酬を与え、全体的なパフォーマンスを低下させる反復的な行動につながる問題である。この問題に対処するため、研究者たちはStarPOの安定化バージョンである「StarPO-S」を開発した。StarPO-Sは不確実性ベースのロールアウトフィルタリング、KLペナルティの除去、非対称PPOクリッピングという3つの主要な介入を組み込んでいる。
RAGENは3つの象徴的環境(バンディット、倉庫番、フローズンレイク)でテストされ、各環境は実世界の先入観を最小限に抑え、訓練中に開発された意思決定戦略のみに焦点を当てるように設計されている。
研究チームはアリババのQwenモデル(Qwen 1.5とQwen 2.5を含む)の微調整バージョンを使用してフレームワークを実装・テストした。これらのモデルはオープンウェイトと堅牢な指示追従能力を持つことから選ばれた。
RAGENとそのStarPOおよびStarPO-Sフレームワークは現在、GitHubでオープンソースプロジェクトとして公開されている(https://github.com/RAGEN-AI/RAGEN)。ただし、執筆時点ではGitHubリポジトリに明示的なライセンスが記載されておらず、他者による使用や再配布が制限される可能性がある。
VentureBeatがソーシャルネットワークXで最近実施した調査によると、2025年はAIエージェントの年になると予測されていたにもかかわらず、多くのAIエージェントは依然として実験的なパイロット段階にとどまっている。RAGENはこの状況を改善し、より信頼性が高く堅牢なAIエージェントの開発に貢献することが期待されている。
from:Former DeepSeeker and collaborators release new method for training reliable AI agents: RAGEN
【編集部解説】
2025年4月23日に発表されたRAGENは、AIエージェントの訓練と評価における重要な技術的進歩を示しています。この技術は、元DeepSeek研究者のジーハン・ワン氏を含む複数の研究機関(ノースウェスタン大学、マイクロソフト、スタンフォード大学、ワシントン大学)の共同研究チームによって開発されました。
RAGENの最も注目すべき特徴は、単なる静的なタスク処理ではなく、不確実性の中で適応し、記憶し、推論する能力を持つAIエージェントの訓練に焦点を当てている点です。これは現在のAI開発において重要な転換点と言えるでしょう。
StarPO(State-Thinking-Actions-Reward Policy Optimization)と呼ばれるカスタム強化学習フレームワークを基盤としたこのシステムは、従来の方法とは異なるアプローチを採用しています。特に注目すべきは、単一ステップの応答ではなく、意思決定の全体的な軌跡(trajectory)に焦点を当てている点です。これにより、AIが「何をするか」だけでなく「どのように考えるか」というプロセスも含めた学習が可能になります。
StarPOは2つの交互に行われる段階で動作します:推論によって導かれるLLMが完全な対話シーケンスを生成するロールアウト段階と、正規化された累積報酬を使用してモデルが最適化される更新段階です。この構造により、標準的な方策最適化アプローチと比較して、より安定的で解釈可能な学習ループをサポートします。
研究チームは「エコートラップ」という現象を特定しました。これは強化学習において時間の経過とともにAIがショートカットに報酬を与えられ、全体的なパフォーマンスを低下させる反復的な行動パターンに陥る問題です。この問題に対処するため、StarPOの安定化バージョンであるStarPO-Sが開発されました。StarPO-Sは不確実性ベースのロールアウトフィルタリング、KLペナルティの除去、非対称PPOクリッピングという3つの主要な介入を組み込んでいます。
RAGENの実用性を評価するために、研究チームは3つの象徴的環境(バンディット、倉庫番、フローズンレイク)でテストを行いました。これらの環境は実世界の先入観を最小限に抑え、訓練中に開発された意思決定戦略のみに焦点を当てるように設計されています。バンディット環境では、エージェントはドラゴンとフェニックスのアームが異なる報酬分布を表すと伝えられ、確率を直接伝えられるのではなく、象徴的に推論することが求められます。
この技術の実装には、アリババのQwenモデル(Qwen 1.5とQwen 2.5)が使用されました。これらのモデルはオープンウェイトと堅牢な指示追従能力を持つことから選ばれました。
RAGENの登場は、企業におけるAIエージェントの実用化に大きな影響を与える可能性があります。VentureBeatがソーシャルネットワークXで実施した調査によると、2025年はAIエージェントの年になると予測されていたにもかかわらず、多くのAIエージェントは依然として実験的なパイロット段階にとどまっています。RAGENはこの状況を改善し、より信頼性が高く堅牢なAIエージェントの開発を加速させる可能性を秘めています。
一方で、AIエージェントの自律性が高まることによるリスクも考慮する必要があります。誤った目標設定や意図しない行動、プログラミングの抜け穴の悪用など、技術的・倫理的な課題も存在します。特にマルチエージェントシステムでは、効果的なコミュニケーションと連携が重要でありながら、動的または安全性が重視される環境では実現が困難な場合があります。
RAGENは現在GitHubでオープンソースプロジェクトとして公開されていますが、執筆時点では明示的なライセンスが記載されておらず、他者による使用や再配布が制限される可能性があります。この点は、技術の普及において課題となるかもしれません。
長期的な視点では、RAGENのようなAIエージェント訓練技術の進化は、AIの自律性と推論能力を高め、より複雑なタスクを処理できるシステムの開発につながるでしょう。これにより、カスタマーサービス、ソフトウェア開発、意思決定支援など、様々な分野での応用が期待されます。
しかし、実世界での採用に関してはいくつかの疑問も残されています。例えば、RAGENのアプローチは象徴的なタスクを超えてどの程度転用可能なのか、企業は請求書処理や顧客サポートなどのワークフローでこのシステムを使用するために全く新しい環境と報酬関数を設計する必要があるのかといった点です。
また、スケーラビリティも重要な課題です。StarPO-Sによる強化にもかかわらず、長期的には訓練が最終的に崩壊する可能性があります。オープンエンドまたは継続的に進化するタスクシーケンスにわたって推論を維持するための方法論の確立が今後の研究課題となるでしょう。
RAGENは技術的な貢献としてだけでなく、より自律的で推論能力を持つAIエージェントに向けた概念的な一歩として評価されています。企業AIスタックの一部になるかどうかはまだ不明ですが、エージェント学習ダイナミクスに関する洞察はすでにLLM訓練の最前線を再定義するのに役立っています。
【用語解説】
RAGEN (Reward-Annotated Generation):
AIエージェントの訓練と評価のための新システム。AIが単なる暗記ではなく、経験を通じて学習し、複数ステップの意思決定を行えるようにする技術だ。
StarPO (State-Thinking-Actions-Reward Policy Optimization):
RAGENの基盤となるカスタム強化学習フレームワーク。AIの思考プロセスと行動の両方を考慮した学習を可能にする。2つの段階(ロールアウト段階と更新段階)で動作する。
エコートラップ (Echo Trap):
強化学習において、AIが時間の経過とともに単純なショートカットに報酬を与えられ、全体的なパフォーマンスが低下する現象。特定のフレーズや戦略が早期に高い報酬を得ることで過剰使用を促し、探索を抑制するフィードバックループによって引き起こされる。
強化学習 (Reinforcement Learning, RL):
AIが環境と相互作用しながら、報酬を最大化するように行動を学習する手法。
LLM (Large Language Model):GPT-4やQwenのような大規模言語モデル。膨大なテキストデータから学習し、人間のような文章生成や理解ができるAIモデルだ。
【参考リンク】
RAGEN GitHub リポジトリ(外部)
RAGENのソースコードとドキュメントが公開されているオープンソースプロジェクトのリポジトリ。
Qwen Chat(外部)
アリババが提供するAIチャットサービス。Qwen2.5-Maxなどのモデルが利用可能。
Alibaba Cloud(外部)
アリババのクラウドサービス。QwenのAPIを利用するには、このサービスに登録する必要がある。
【参考動画】
【編集部後記】
AIエージェントの進化に興味をお持ちでしょうか?RAGENのような新技術は、AIが単なる応答生成だけでなく、思考プロセスを含めた意思決定ができるようになる可能性を秘めています。皆さんの業務や日常生活で、どのようなAIエージェントがあれば役立つと思いますか?また、AIが「考える」ことの意味について、どのようなお考えをお持ちですか?ぜひSNSでご意見をお聞かせください。