【論文紹介】sRGB事前学習モデルをRAW画像に適応させるアプローチ「RAW-Adapter」

私たちの論文「RAW-Adapter: Adapting Pre-trained Visual Model to Camera RAW Images」では、カメラの画像素子からの未処理のセンサーデータからなるRAW画像に着目し、NLPおよびCV分野で進行中のアダプター研究に着想を得て、sRGB事前学習モデルをカメラRAWデータに適応させることを目的とした新しいアプローチ「RAW-Adapter」を提案しています。本稿では著者の崔 子藤がこの研究について解説します。本研究は2024年のThe 18th European Conference on Computer Vision (ECCV 2024)に採択されました。

Code Link: https://github.com/cuiziteng/ECCV_RAW_Adapter​

Paper Link: https://arxiv.org/abs/2408.14802​arxiv.org/abs/2408.14802

イントロダクション

RAW画像に基づくビジョンタスクにおいて、黄色のラインはsRGBの事前学習された重みを利用していない結果を示しており、紫色と青色のラインはsRGBの事前学習された重みを利用した結果を示しています。これにより、sRGBの事前学習された重みがRAWベースのビジョンタスクにおいて非常に重要な役割を果たしていることが分かります。

現在までの研究では、RAWからRGBへのISP(イメージシグナルプロセッサ)の探求が進められており、従来のISPやディープラーニングベースのISPにおいても、優れた効果と汎化性能が得られてきました。これらは各大手スマートフォンメーカーの競争の目玉となっていますが、しかし、RAW画像に基づく高次ビジョンタスクの探求はまだ限られています。RAW画像の利点としては、ISPを経ていないために保存された豊富な照明情報(高いビット深度)、広い色域範囲、規則的なノイズ分布(イメージングの各段階におけるノイズの説明可能性)があります。これにより、RAWは低照度や過剰露出などの悪条件下で大きな強みを持っています。しかし、高次ビジョンタスク(例えば物体検出やセマンティックセグメンテーション)においては、現在のところRAWに特化した大規模データセットや事前学習モデルが存在しないことが大きな課題となっています。したがって、RAW画像とsRGBの事前学習された重みをどのようにうまく組み合わせるかが、今後の研究課題となっています。本論文では、このモチベーションに基づく初歩的な探索結果を示します。

関連研究

ISPはカメラ内部で非常に複雑で専門的なプロセスです。ISP自体の設計は、人間の視覚がより良く感知できるようにするために作られており、従来のISPアルゴリズムでは各ステップで事前知識が必要です。例えば、ホワイトバランスを行う前に光源を推定する必要があります。各メーカーのISPには独自の特徴があり、たとえばSonyやAppleのISPプロセスでは、CCM(カラーチェックマトリックス)やLUT(ルックアップテーブル)などのパラメータが異なります。さらに、各メーカーのISPは基本的にブラックボックス化されており、内部の具体的なステップを把握するのは困難です。

ISPは人間の目に最適化されているため、これらのISPアルゴリズムが必ずしも機械視覚(マシンビジョン)に適しているとは限りません。特に、物体検出やセグメンテーションなどの下流のコンピュータビジョンタスクにおいて、ISPはmAP(平均精度)やIOU(交差検証率)などの指標を必ずしも満たすとは限りません。この傾向は特に低照度のシーンで顕著に現れます。

これに伴い、「マシンビジョン向けISP(Machine Vision Oriented ISP)」という新しい研究分野が派生しました。これらの研究は、検出やセグメンテーションなどのタスクにおいて、機械視覚の性能を向上させるためにISPモデルを設計することを目指しています。具体的には、ISPパラメータを学習可能にする(ハードウェアインザループ)方法や、UNetタイプのネットワーク(Dirty Pixel)を使用する方法、NAS(ニューラルアーキテクチャ探索)を使用して適切なISPパラメータを選択する方法、または新しいエンコーダとしてISPを設計するアプローチなどが存在します。これらの詳細は、私たちの論文の「関連研究(Related Works)」の部分で参照することができます。

特に、ネットワークを使用してプレエンコーダを構築する方法は、特に高解像度入力シーンにおいて、ネットワークに大きな負荷をかける点に注意が必要です。

しかし、これまでの研究は、sRGBの事前学習された重みとRAWビジュアルタスクとの関係性について十分に調査されていませんでした。sRGBの事前学習された重みの重要性が増している現代において、RAWデータは十分な量がなく、大規模な事前学習を行うことが難しいです。そのため、sRGBの事前学習された重みの利点を活かし、RAW画像に対して軽量なアダプターを設計することが、今後の研究における重要な課題となっています。

3. モデル構造:

我々の手法では、2つのAdapterを設計しています。1つはRAW画像をネットワークの入力段階まで処理するための「Input-level Adapter」、もう1つはISP段階の特徴と後続のネットワークを結びつける「Model-level Adapter」です。詳細は原論文をご覧ください。

全体的なモデル構造において、Input-level Adapterは以下の4つのステップで構成されています: 

(1) 前処理 + ノイズ除去 / ゲイン / シャープ化 

(2) ホワイトバランス 

(3) CCMマトリックス 

(4) implicitの3D LUT

各ステップの主な目的は、ISPパラメータを学習可能にし、モデルの逆伝播プロセスに動的に参加させることです。同時に、これらのISPパラメータが異なる画像、照明、データセットに適応するようにすることも目指しています。

RAW-Adapterモデル構造

Input-level Adapterの設計

Input-level Adapterの設計では、Attentionモジュールを利用してISPパラメータを直接推定する手法を採用しています。例えば、ノイズ除去用のぼかしカーネル、ホワイトバランスのパラメータ、およびカメラのCCM(カラーチェックマトリックス)などを推定します。この部分は、私が以前に発表した[BMVC 2022 IAT]で提案したアテンションによる動的パラメータ学習手法を基に設計されています。

動的にISPパラメータを学習することの利点は、特定の画像や照明環境に応じて、最適なパラメータを適応的に調整できる点です。これにより、異なるシーンや光照条件に対してより良い結果を得ることができます。モデルのさらなる詳細については、私たちの原論文を参照してください。

実験設定

実験は、物体検出とセグメンテーションのタスクにおいて行われました。使用したデータセットには、物体検出用のPASCAL RAWデータセットやLODデータセット、セグメンテーション用の合成データセットADE20K-RAW、そして実際のデータセットiPhone XS Maxが含まれています。この実験では、我々の手法がISPアルゴリズムや従来のjoint-training手法に比べて有効であることが証明されました。 特にPASCAL RAWやADE20K-RAWにおいては、低照度や過剰露光のシーンを追加で合成しました。その結果、RAW画像が異常な照明条件下で独自の優位性を持っていることが確認されました。実験の詳細な結果については、原論文をご参照ください。

私たちは、PASCAL RAWデータセットに対して3種類の異なる照明条件を生成し、RAW画像が照明の変化に対してどのように汎化できるかをより詳しく研究しました。この設定により、RAW画像の照明に対する優位性や適応能力を実証し、異常照明環境での性能を検証することが可能になりました。

将来の方向性

私個人の見解として、RAW-Adapterの定義はまだ初歩的な取り組みに過ぎません。すでに競争が激化しているRGBに対して、RAW画像を基にした高次ビジョンタスクには、今後大きな可能性があります。この分野は、大学院生や博士研究者が論文を発表するための貴重な方向性となるでしょう。RAW-Adapterがこの方向における皆さんの足がかりとなり、研究者がこの分野を一歩ずつ探求していけることを願っています。

将来的な方向性としては、これまでのRGBに基づく探求をRAWと組み合わせて試してみることができると思います。例えば、自己教師付き学習、事前学習、ドメイン適応(DA)などです。もちろん、RAW-Adapter自体にもいくつかの欠点があります。例えば、カーネルベースのノイズ除去は非常にシンプルであり、複雑なノイズ状況では無効かもしれません。また、暗黙の3D LUTは必ずしも画像適応型ではないため、これを画像適応型に改良すればより良い結果が得られるでしょう。さらに、Model-level Adapterについても、より良い特徴融合の方法があるはずです。それぞれの部分には大きな探索の余地があります。皆さんと共に励まし合いながら、一緒に進歩していければと思います。