MotoJapan's Tech-Memo

技術めも

【ECCV2018 論文メモ#2】Contemplating Visual Emotions: Understanding and Overcoming Dataset Bias

Maker Faire Tokyo 2018では感情推定ロボットを出展したので感情繋がりでこの論文。

今回の論文と出典

Contemplating Visual Emotions: Understanding and Overcoming Dataset Bias
https://arxiv.org/abs/1808.02212

著者

Rameswar Panda, Jianming Zhang, Haoxiang Li, Joon-Young Lee, Xin Lu, Amit K. Roy-Chowdhury

内容

  • 視覚的感情の考察:データセットバイアスの理解とその克服
  • 感情データセットには、バイアスが存在する
  • 話したいのは3つの話題
  1. 最新のデータセットや精度の話を追わず、既存データセットの持つバイアス問題点を認識し、方法論の見直すこと
  2. Webなどの大規模データを用いることで、バイアス効果を軽減できること、シンプルなカリキュラム(体系的)学習方法を提案し、SoTAを達成したこと
  3. データセットの提案すること

詳細

  • データセットは、Deep Sentiment, Deep Emotion, Deep Emotion-6の3つで話が展開される
  • バイアスの例(Deep Emotion)は、下図の通りで、
    • Postive : amusementな画像は、ほぼamusement parkの画像で、視覚的コンセプトの多様性が低い
    • Negative : sadnessな画像は、amusement parkの画像は無く、その属性を十分に表現できていない

f:id:motojapan:20180818155938p:plain
(バイアスの考察例1:出典より抜粋)

  • データセットの持つバイアスを評価する手法をいくつか紹介している
    • 3データセットを分類する手法 (ResNet-50)
      • 期待値は、全て同じ精度だが偏りがある
      • 高い信頼度を示す画像を見ると、Deep Emotionは「屋外画像が多い」、Deep Emotion-6は「中心に対象物があり、背景はクリア」というバイアスがある

f:id:motojapan:20180818160008p:plain
(データセットを3クラス分類した結果(左)と信頼度の高い画像(右):出典より抜粋)

    • Pos/Neg2クラス分類する手法 (ResNet-60)
      • 感情情報を圧縮して2クラス(Pos/Neg)分類する
      • 各データセットでcrossにtrain/testした結果を考察
      • Binary Coss-Dataset Generationと呼ぶが、これの優位点は次の2点
        • 「シンプルな2値分類は評価の難しいデータセットにフェアな比較が可能」
        • 「シンプルなテストに一般化できていないモデルの場合、適切な粒度に分類したデータでもうなく動かないことがわかる」

f:id:motojapan:20180818160037p:plain
(各データセットをPos/Neg2クラス分類した結果:出典より抜粋)

    • オブジェクトとシーンについて条件付きエントロピーの分布で評価する手法
      • これでデータセットの中のデータ量を調査
      • 条件:確率をふっても変化が少ない感情属性はそもそもデータセットに少ないと解釈できる

f:id:motojapan:20180818160045p:plain
(バイアスの考察例2:出典より抜粋)

  • データセットの提案
    • WEBEmoというデータセットを提案
    • Deep Emotion の12倍のデータ量
    • Web上に存在するデータを既存研究をベースに組織化したもの
    • 良い点は、下記の2点
      • 検索エンジン差を軽減できること」
      • 「異なるタスクを学習することで区別可能な感情特徴量を学習できること」
    • 感情データセットは階層化
      • level 1 : 2 [categories](basic)
      • level 2 : 6 [categories]
      • level 3 : 25 [categories](fine-grained)

f:id:motojapan:20180818160049p:plain
(適切な粒度と呼ばれる25分類:出典より抜粋)

  • 効率的なカリキュラム的学習
    • データセットに跨った様々なタスクに対してパフォーマンスがでる
    • 連続的手順により学習することが可能
    • 基本は、学習ステージを分け、早期ステージではlebel 1、後半に進について高いlevelを学習
    • 上記を満たすようにCNNに情報を挿入していくようなモデル(ResNet-50 base)

f:id:motojapan:20180818160053p:plain
(各データセットでのテスト結果:出典より抜粋)
f:id:motojapan:20180818160057p:plain
(テスト結果:出典より抜粋)

読み時間2時間:執筆時間30分:勘違い、間違いあれば教えていただけると嬉しいです。

以上。