因果指標
因果指標の統一的理解
政治状況が金融市場に影響する,風が吹けば桶屋が儲かる……そんな「原因」と「結果」の関係を一般に「因果関係」と呼びます. 既に人類は気象や株価、生体データなど、膨大な時系列情報を蓄積しています. さらに将来、ロボットなどのシステムが我々の生活環境に入れば,身の回りの情報も大量にデータ化されるでしょう. このようなデータの背後に潜む因果関係を発見できれば,データの変動予測・制御が可能になります. 我々の研究室では、時系列データ間の因果関係をみつける方法を研究しています.
今までも経済分野を筆頭に,因果をみつける指標がいくつか提案されてきました. 我々はデータに「ガウス性」と呼ばれる性質を仮定し,「ベイズ理論」に基づいてこれらの因果指標に統一的な解釈を与えました. これにより,株価のような連続値や発病のようなシンボル値を含めた複数の時系列データから,柔軟な因果関係を抽出できるようになりました. これらの結果は,データマイニングで最も影響力のある国際会議KDDや,物理学誌の権威であるPhysical Reviewなどに採録されています.
- T. Shibuya, T. Harada and Y. Kuniyoshi, "Reliable Index for Measuring Information Flow," Physical Review E, 2011.
- T. Shibuya, T. Harada and Y. Kuniyoshi, "Causality Quantification and Its Applications: Structuring and Modeling of Multivariate Time Series," KDD, 2009.
Causal Flow
例えば全N地点の気象データから,地点間の気象の因果関係のあるなしを全て調べるには,因果が「ある」/「なし」の2通りを O(N^2)のペアで検証することになります. しかし,全体としてO(2^(N^2))のバターンを考えるのは困難です.
我々は,それまで研究してきた因果指標を用いてO(N^2)の計算量で因果構造を推定する方法を開発しました. このような考えを動画像に適用したものが Causal Flow です.
動画の各ピクセルや局所的な領域の画素を時系列データとし,因果関係を動画像の動きとみなします. 動画像の動きの抽出というとオプティカルフローが 有名ですが,Causal Flow はより安定した動きを抽出できます。
- T. Shibuya, T. Harada, Y. Kuniyoshi, "Causality Quantification and Its Applications: Structuring and Modeling of Multivariate Time Series," KDD, 2009.
- Y. Yamashita, T. Harada and Y. Kuniyoshi, "Causal flow," ICME, 2011.
- Y. Yamashita, T. Harada and Y. Kuniyoshi, "Causal flow," IEEE Transactions on Multimedia, 2012.
即時的因果発見
因果指標を精度よく推定するには,多くの情報が必要になります. つまり,10時間よりも10日,10日よりも10ヶ月のデータがあるほうが,因果を精度よく推定できるわけです. しかし,そうすると,ごく短い時間で変化する因果関係については正しく推定できないことになります. このような動的な因果関係をすぐに発見する技術にも,我々は取り組んでいます.
短い時間のデータだけで因果指標を計算するには,限られた情報を「効率的に使い切る」必要があります. 全センサからの時々刻々の時系列データが「時間」と「センサ」に分解できる点に注目し,「双線形形式」を導入することで情報を効率的に使い切る因果発見手法を生み出しました.
非線形因果指標
計算機や通信技術の発達によって,膨大な量のデータがやりとりされ,蓄積されるようになっています. これらの膨大なデータ,例えば画像・文書・音声・株価・気象データなど複数のデータを統一的に扱う手法の開発により,画像であれば写っている物体の分類や,株価であれば変動予測や銘柄間の相互作用など,多くの研究分野で応用できる可能性があります. このように複数のデータを扱う手法を「多変量解析」と呼びます.
一般的にはデータを直接用いず,なんらかの変換によって異なる空間に写像して扱います. 写像には線形写像が用いられることが多いのですが,実世界データはその多くが非線形な構造をしているため,非線形空間に写像するほうが 精度が向上することが知られています. さらに,非線形写像による高次元空間上での解析において有用な変数のみを選択することで汎化性能を向上させたり,計算機への負担を減らしたりする研究が盛んに行われています.
我々は,非線形・線形に関わらず変数選択を効率的かつ高精度で行う手法の開発に取り組んでいます.
偏正準相関分析の確率的解釈
少ないデータからロバストに因果指標を推定するために,『即時的因果発見』では「双線形形式の導入により推定すべきパラメタ数を減らす」というアプローチを取りました.
我々は,さらに,「事前知識を組み込む」「パラメタ推定の不確かさも考慮する」というベイズ推定によるアプローチを提案しました.
このアプローチを行うため,我々はまず因果指標計算手法である『偏正準相関分析』に対して,それと等価な確率的生成モデルである『確率的偏正準相関分析』を提案. これにより,提案モデルにスパース性の事前知識を組み込んだベイズモデルを構築しました.
偏正準相関分析は計算時に因果的な影響を持つ部分空間の次元数を指定する必要がありましたが,提案モデルではスパース性により少サンプルでもロバストに因果指標,次元ともに推定できるようになりました.
この成果は機械学習のトップカンファレンスであるICMLに採録されました.