Research
【論文紹介】SceneProp: Combining Neural Network and Markov Random Field for Scene-Graph Grounding

視覚グラウンディング(visual grounding)は、文章などの特定物体を指し示す記述から画像内の対象物を特定するタスクであり、ロボット操作における指示文の理解や、対象物の特定が不可欠な画像に対する質問応答など、さまざまな応用において重要な役割を果たします。 当研究室から発表された論文 "SceneProp: Combining Neural Network and Markov Random Field for Scene-Graph Grounding" では、文章の代わりに物体間の関係性を構造化した形式を用いることにより、GPT-4o など既存の手法では不可能だった複雑なグラウンディングを可能にしました。 本論文は、主要なコンピュータビジョンの国際学会のひとつであるWinter Conference on Applications of Computer Vision (WACV) 2026にて発表されました。

この成果により、ロボットにおいて指示文へ追従する精度の向上や、視覚言語モデルと組み合わせることにより、さらなる画像に対する質問応答の性能向上が期待できます。

Read more
Research
【論文紹介】Dr. RAW: Towards General High-Level Vision from RAW with Efficient Task Conditioning

標準的なコンピュータビジョンではRGB画像が一般的に使用されていますが、RAWデータを直接扱う方法も注目を集めています。2025年12月にアメリカのサンディエゴで開催された機械学習のトップカンファレンス Neural Information Processing Systems (NeurIPS) 2025で、私たちは、カメラの RAW データから物体検出やセグメンテーションなどの高度なビジョンタスクを効率的に実行するための統合フレームワーク「Dr. RAW」についての論文 "Dr. RAW: Towards General High-Level Vision from RAW with Efficient Task Conditioning" を発表しました。

このフレームワークにより、事前学習済みモデルにセンサーの事前情報を賢く組み込むことで、堅牢で汎用的な視覚システムを構築することが可能になります。

Read more