MotoJapan's Tech-Memo

技術めも

【ECCV2018 論文メモ#4】Person Search by Multi-Scale Matching

人物検索(照合)ですね、単なる人検出ではなくクエリ画像と同じ人物を未加工なシーン情報からロバストに検索するものとなっているようです。

今回の論文と出典

Person Search by Multi-Scale Matching
https://arxiv.org/abs/1807.08582

著者

Xu Lan, Xiatian Zhu, Shaogang Gong

内容

  • マルチスケール対応人物検索
  • 技術としては、人検出と人物認識の組み合わせ
  • 現在の人検出技術は、ミスアライメントや検出ミスなどによるネガティブ効果を軽減することに注力している
  • 提案手法ではFaster-RCNNベースで改善を加え、十分に信頼度の高い人検出を行う(ということは遅いのか?) 
  • 人物検索は人検出より課題をもつタスク(スケール面で)ではあるが、Cross-Level Semantic Alignment (CLSA)という深層学習のアプローチを提案
  • CLSAはResNet50をベースに改善を加えている

f:id:motojapan:20180823070753p:plain
(提案モデルブロック図:出典より抜粋)

詳細

  • 人物認識と人検出は設定されるタスク難易度が異なり、
    • 人物認識は事前処理ですでにクロップ済みの人に対して推論を行うが、
    • 人検出はエラーやミスアライメントの程度もわからない未加工のシーンから得られる様々なスケール画像に検出を行う。
  • そのため、実世界での検証の機会を失っている
  • 既存手法のre-idはスケールなど修正済みで検証されている
  • 下図はデータセットベンチマークのスケール分布をしてしている

f:id:motojapan:20180823070747p:plain
ベンチマーク別のスケールにおけるバイアス:出典より抜粋)

  • 人検出は、Faster-RCNNを改善し、信頼度の高い人検出座標を求める
    • ネットワーク改善
    • バックボーンとしてResNet-50で事前学習
    • 1st-4th層をファインチューニング(低レベルでの特徴量を目的に適用させることが目的)
    • オーバーオールのパフォーマンス向上を実現
  • 人物識別(CLSA)では、End2Endのピラミッド特徴量表現の学習をベースに、 マルチスケールの人画像に対してロバスト性を高める
    • ピラミッドネットワーク特徴量はスケール不変性を学習可能
    • 課題としてネットワークは低レイヤーほど識別能力が低いこと
    • 組み込みピラミッド特徴量はこの性質と高レイヤーの特徴量を共同で使うことで全体性能を下げる可能性があるが、提案手法で工夫

f:id:motojapan:20180823070800p:plain
(Lossの解説:出典より抜粋)

読み時間2時間:執筆時間45分:勘違い、間違いあれば教えていただけると嬉しいです。

以上。