【論文紹介】Offline Reinforcement Learning with Wasserstein Regularization via Optimal Transport Maps
オフライン強化学習(Reinforcement Learning, RL)は、ロボティクスのようにデータ収集が高コストな状況において有用な手法です。今年8月にカナダのエドモントンで開催された国際会議 Reinforcement Learning Conference (RLC) 2025 では、オフラインRLにおける大きな課題の一つである「分布のずれ」を緩和する新たな手法「Q-DOT」を提案する論文 "Offline Reinforcement Learning with Wasserstein Regularization via Optimal Transport Maps" を発表しました。この成果により、新しいデータを追加で取得しなくても、より安全で安定した学習を行うことが可能になります。無謀な行動を実際に行うことなく効率的に学べるため、自動運転やロボット操作に貢献できる可能性があります。
この記事では、著者の大村 元気(Motoki Omura)が、この論文について解説します。

RLC2025 は、カナダのアルバータ州エドモントンに所在するアルバータ大学で開催された(撮影:大村 元気)
この記事で紹介する論文
この記事では、以下の論文について紹介します。
Motoki Omura, Yusuke Mukuta, Kazuki Ota, Takayuki Osa, Tatsuya Harada. Offline Reinforcement Learning with Wasserstein Regularization via Optimal Transport Maps. Proceedings of the Reinforcement Learning Conference (RLC), 2025
論文の概要
オフライン強化学習(RL)は、静的なデータセットから最適な方策を学習することを目的としており、特にロボティクスのようにデータ収集が高コストな状況で有用です。オフラインRLにおける大きな課題の一つは「分布のずれ」であり、これは学習された方策がデータセットの分布から逸脱し、分布外の信頼性の低い行動を引き起こす可能性があるという問題です。この問題を緩和するために、正則化が用いられています。多くの既存手法では、f-ダイバージェンスなどの密度比に基づく指標を正則化に使用していますが、本研究では、分布外データに対しても頑健で、行動間の類似性を捉えるワッサースタイン距離を用いた手法を提案します。本手法では、Input Convex Neural Networks(ICNNs)を用いて最適輸送写像をモデル化し、識別器を使わずにワッサースタイン距離を計算することで、敵対的学習を回避し、安定した学習を可能にします。本手法は、D4RLベンチマークデータセットにおいて、広く使われている既存手法と同等またはそれ以上の性能を示しました。
この論文で提案された手法・アルゴリズムなど
この研究では Q-DOT という新しい学習方法を提案しています。これはオフライン強化学習(RL)と呼ばれる「すでに集められたデータだけを使って学習する方法」の中で、「ワッサースタイン距離」という数理的な距離を使って学習を安定させる仕組みです。従来は GAN のように識別器と生成器を競わせる方法でこの距離を計算していましたが、この研究では凸関数という関数を使って計算し、安定して学習できるようにしました。
強化学習とは「どう行動すれば得が多いか」を試行錯誤で学ぶ方法です。一方で、オフラインRLは過去に集めたデータしか使えないため、データに含まれていない行動をとったときにうまくいかないことがよくあります。そこでこの研究では「新しい行動がどれだけ元のデータに近いか」を測る工夫をしました。そのために使ったのがワッサースタイン距離という考え方です。これをうまく組み込むことで 無理な行動を避けながら賢く学べるようになります。
従来の方法はワッサースタイン距離を使うときに敵対的学習を必要としていましたが学習が不安定になりやすいという欠点がありました。今回の方法は敵対的学習を使わず 凸関数の勾配を利用して最適な行動への変換を学ぶ仕組みにしました。その結果、学習が安定し計算も正確にできるようになりました。つまり「ワッサースタイン距離を測るのに敵対的学習を使わなくてもよい安定した方法を用いたオフライン強化学習」を初めて提案したことが、この研究の新しさです。
実験結果
有名なオフライン強化学習のベンチマークデータセット D4RL [1] を使って実験したところ 既存の代表的な方法と同じかそれ以上の性能を達成しました。さらに敵対的学習を使う方法 (AdvW) と比べても安定して良い成績を出すことができました。

今後の展望
オフライン強化学習はすでに集められたデータを有効活用するのに有効な手法です。私たちが提案した手法は、より安全で安定した学習を可能とし、実際のロボット操作などに応用できる可能性があります。
参考文献
[1] Justin Fu, Aviral Kumar, Ofir Nachum, George Tucker, and Sergey Levine. D4rl: Datasets for deep data-driven reinforcement learning. arXiv preprint arXiv:2004.07219, 2020.
