MotoJapan's Tech-Memo

技術めも

【ECCV2018 論文メモ#3】StereoNet: Guided Hierarchical Refinement for Real-Time Edge-Aware Depth Prediction

テーマだけで面白そうだったので読んでみた(らgoogle様の論文でした)

今回の論文と出典

StereoNet: Guided Hierarchical Refinement for Real-Time Edge-Aware Depth Prediction
https://arxiv.org/abs/1807.08865

著者

Sameh Khamis, Sean Fanello, Christoph Rhemann, Adarsh Kowdle, Julien Valentin, Shahram Izadi

内容

  • StereoNet:リアルタイムエッジ認識デプス推定のためのガイド付き階層的精緻化
  • ステレオRGBを入力にエッジ情報を保存しながらデプスをEnd2Endのネットワークで推定
  • 既存手法に比べてサブピクセル精度でステレオ推定が可能で高速
  • このステレオ推定により、リアルタイムなパフォーマンスを低解像度コストボリューム(Cost Volumes)を用いることで実現している
  • Cost Volumesは、高精度な視差を求めるのに必要な情報をエンコードする
  • Titan X GPUを用いることで720 [p] 60 [fps] を実現
  • 実装は細かく記載あり

詳細

  • 既存のステレオマッチング手法(SoTa)ではCRFベースのアプローチが存在する
    • 精度は良いが、Computational Costが高く遅い
    • 一般的にsolvingはNP困難とされている

NP困難わからない場合は下記参考
motojapan.hateblo.jp

  • 提案手法は5つに言及
  1. 古典手法を超えるサブピクセルマッチ精度をDeepで実現
  2. 上記により、古典手法ステレオマッチングのデプス推定を、非常な効率的なアルゴリズムをもたらす低解像度コストボリューム(Cost Volumes)で導くことを実証
  3. 以前のDeepアーキ手法では、タスクに対して過剰にパラメタ化されており、これが低コスト化へ役立つことを提示
  4. 新しい階層的デプス精緻化層は、エッジ情報を保ちながら高品質にアップサンプルが可能
  5. 提案システムはハイエンドGPUアーキテクチャで動作

f:id:motojapan:20180820234227p:plain
(ネットワーク構造:出典より抜粋)

  • Networkブロックは下記3つ
    • DownSampling Feature Network
      • ステレオ推定の主課題は、一致推定の難易度(完璧な特徴量の一致が理想)
      • カラー情報などに依存した既存手法より低コストに特徴量抽出を行う
      • Siamese networkベース
      • 入力は右目と左目のRGB画像
      • 受容野を用いて既存手法同等以上の特徴量を得ることを目標とする
    • Cost Volume Filtering
      • Cost Volume Filteringは既存手法[25]であり、マッチングのためにカラー情報を直接利用する
      • 一方、提案手法ではピクセルレベルでの特徴量を利用し、マッチングを行う
      • 入力はDownSampling Feature Networkの出力
      • モバイル動くほど軽量化、サブピクセル精度を実現
      • 視差コスト関数は、”soft arg min”を採用
      • このネットワークの出力時点では推定精度は荒い
    • Hierarchical Refinement
      • カラー情報をガイドとして、高周波詳細をブレンドするために視差値を拡張させる
      • 具体的には、このネットワークはResidualな構造を持ち、出力される視差の残差を加算する
      • 更にそれを階層的に粗い推定結果にマージをしていく
  • cost volume output出力(下図上)を、refinement networkの結果(下図下)で更新していく動き

f:id:motojapan:20180820234231p:plain
(階層的精緻化の結果:出典より抜粋)

  • 性能的は精度(precison)と速度(speed)で測定
  • 目視でもHashMatchには限界があり、StereoNet w/ refinementがよく効いている

f:id:motojapan:20180820234236p:plain
(既存手法との比較:出典より抜粋)

  • 1/16解像度時点のコストボリュームで、high qualityな視差マップを生成するに必要な情報を得ている

f:id:motojapan:20180820234240p:plain
(階層的精緻化の階層別効果検証:出典より抜粋)

  • errorは全体を通して1以上あるが、高速なステレオ推定実行が可能

f:id:motojapan:20180820235103p:plain
(古典手法との精度とスループットについて:出典より抜粋)


読み時間2時間:執筆時間45分:勘違い、間違いあれば教えていただけると嬉しいです。

以上。