【論文紹介】Gradual Transition from Bellman Optimality Operator to Bellman Operator in Online Reinforcement Learning
「強化学習(Reinforcement Learning, RL)」は機械学習の一種で、たとえば、ロボットやゲームの操作を学ぶために使われます。 今年7月にカナダのバンクーバーで開催された国際会議 International Conference on Machine Learning (ICML) 2025 では、連続動作向けのRLアルゴリズムに関して、ベルマン最適作用素からベルマン作用素へ徐々に移行する減衰手法を提案する論文 "Gradual Transition from Bellman Optimality Operator to Bellman Operator in Online Reinforcement Learning" を発表しました。この成果により、ロボットが少ない試行回数で効率的に学習できるようになり、これまで学習コストの大きさのために良く学習できなかったいくつかのタスクの学習が可能になりました。将来的には、産業用ロボットや自動運転車など「学習コストが高い分野」で特に役立つ可能性があります。
この記事では、著者の大村 元気(Motoki Omura)が、この論文について解説します。

学会会場でのポスター発表の様子(撮影:長 隆之 先生)
(肖像権への配慮のため、この画像には加工を加えています)
この記事で紹介する論文
この記事では、以下の論文について紹介します。
Motoki Omura, Kazuki Ota, Takayuki Osa, Yusuke Mukuta, Tatsuya Harada. Gradual Transition from Bellman Optimality Operator to Bellman Operator in Online Reinforcement Learning. Proceedings of the International Conference on Machine Learning (ICML), 2025
[論文 PDF (arXiv)] [ソースコード (GitHub)]
論文の概要
連続行動空間においては、Actor-critic 法がオンライン強化学習で広く用いられています。しかし、一般にベルマン最適作用素を用いて最適価値関数をモデル化する離散行動空間向けのRLアルゴリズムとは異なり、連続動作向けのRLアルゴリズムでは通常、現在の方策に対するQ値をベルマン作用素を用いてモデル化します。こうした連続行動向けアルゴリズムは方策の更新のみに依存して性能を向上させるため、サンプル効率が低いという問題があります。
本研究では、Actor-critic の枠組みにベルマン最適作用素を取り入れる有効性を検証します。単純な環境での実験により、最適値のモデル化が学習を加速する一方で、過大評価バイアスを招くことが示されました。これに対処するために、本研究ではベルマン最適作用素からベルマン作用素へ徐々に移行する減衰手法を提案し、学習の加速とバイアスの緩和を両立させます。
我々の手法は、よく使われる強化学習手法であるTD3 [1] およびSAC [2] と組み合わせることで、多様な歩行および操作タスクにおいて既存手法を大きく上回る性能を示し、最適性に関連するハイパーパラメータに対するロバスト性も向上することが確認されました。
この論文で提案された手法・アルゴリズムなど
この研究では Annealed Q-learning (AQ-L) という新しい学習方法を提案しています。これは「強化学習」というAIの学習方法の一種で、ロボットやゲームの操作を学ぶために使われます。従来の方法では2種類の計算方法(Bellman最適演算子とBellman演算子)がありました。
- Bellman最適演算子 → 学習は速いけれど、「過大評価バイアス」という問題が起きやすい
- Bellman演算子 → 学習は遅いけれど、安定して正しい値に近づくことができる
提案手法では、この2つを徐々に切り替えていくことで、学習初期の性能向上が速く、最終的なバイアスが少ない正確な学習を実現しました。
ロボットへの入力が連続値の場合、Bellman最適演算子に含まれる「max」を、直接は計算できないという問題があります。これを解決するため、Expectile回帰という手法を使用しました。これによって「max」の計算とBellman最適演算子・Bellman演算子の間の補間が可能になり、連続値の場合でも徐々に変化させることができました。
実験結果
提案手法(AQ-L)を、よく使われる強化学習手法 TD3 や SAC に組み合わせて、ロボットの移動や物体操作のタスクで実験しました。結果として提案手法 (AQ-TD3, AQ-SAC) は従来の手法よりも大幅に良い成績を出しました。
移動タスク

物体操作タスク

今後の展望
サンプル(データ)を効率的に使えるので、実際の機械を動かすときに必要な試行回数を減らせました。将来的には、産業用ロボットや自動運転車など「学習コストが高い分野」で特に役立つ可能性があります。
参考文献
[1] Fujimoto, S., van Hoof, H., and Meger, D. Addressing function approximation error in actor-critic methods. In Dy, J. and Krause, A. (eds.), Proceedings of the 35th International Conference on Machine Learning, volume 80 of Proceedings of Machine Learning Research, pp. 1587–1596. PMLR, 10–15 Jul 2018.
[2] Haarnoja, T., Zhou, A., Abbeel, P., and Levine, S. Soft actor-critic: Off-policy maximum entropy deep reinforcement learning with a stochastic actor. In Dy, J. and Krause, A. (eds.), Proceedings of the 35th International Conference on Machine Learning, volume 80 of Proceedings of Machine Learning Research, pp. 1861–1870. PMLR, 10–15 Jul 2018.