【ECCV2018 論文メモ#3】StereoNet: Guided Hierarchical Refinement for Real-Time Edge-Aware Depth Prediction
テーマだけで面白そうだったので読んでみた(らgoogle様の論文でした)
今回の論文と出典
StereoNet: Guided Hierarchical Refinement for Real-Time Edge-Aware Depth Prediction
https://arxiv.org/abs/1807.08865
著者
Sameh Khamis, Sean Fanello, Christoph Rhemann, Adarsh Kowdle, Julien Valentin, Shahram Izadi
内容
詳細
- 既存のステレオマッチング手法(SoTa)ではCRFベースのアプローチが存在する
- 精度は良いが、Computational Costが高く遅い
- 一般的にsolvingはNP困難とされている
NP困難わからない場合は下記参考
motojapan.hateblo.jp
- 提案手法は5つに言及
- 古典手法を超えるサブピクセルマッチ精度をDeepで実現
- 上記により、古典手法ステレオマッチングのデプス推定を、非常な効率的なアルゴリズムをもたらす低解像度コストボリューム(Cost Volumes)で導くことを実証
- 以前のDeepアーキ手法では、タスクに対して過剰にパラメタ化されており、これが低コスト化へ役立つことを提示
- 新しい階層的デプス精緻化層は、エッジ情報を保ちながら高品質にアップサンプルが可能
- 提案システムはハイエンドGPUアーキテクチャで動作
(ネットワーク構造:出典より抜粋)
- Networkブロックは下記3つ
- DownSampling Feature Network
- ステレオ推定の主課題は、一致推定の難易度(完璧な特徴量の一致が理想)
- カラー情報などに依存した既存手法より低コストに特徴量抽出を行う
- Siamese networkベース
- 入力は右目と左目のRGB画像
- 受容野を用いて既存手法同等以上の特徴量を得ることを目標とする
- Cost Volume Filtering
- Hierarchical Refinement
- カラー情報をガイドとして、高周波詳細をブレンドするために視差値を拡張させる
- 具体的には、このネットワークはResidualな構造を持ち、出力される視差の残差を加算する
- 更にそれを階層的に粗い推定結果にマージをしていく
- DownSampling Feature Network
- cost volume output出力(下図上)を、refinement networkの結果(下図下)で更新していく動き
(階層的精緻化の結果:出典より抜粋)
- 性能的は精度(precison)と速度(speed)で測定
- 目視でもHashMatchには限界があり、StereoNet w/ refinementがよく効いている
(既存手法
- 1/16解像度時点のコストボリュームで、high qualityな視差マップを生成するに必要な情報を得ている
(階層的精緻化の階層別効果検証:出典より抜粋)
- errorは全体を通して1以上あるが、高速なステレオ推定実行が可能
(古典手法との精度とスループットについて:出典より抜粋)
読み時間2時間:執筆時間45分:勘違い、間違いあれば教えていただけると嬉しいです。
以上。