【ECCV2018 論文メモ#2】Contemplating Visual Emotions: Understanding and Overcoming Dataset Bias

Maker Faire Tokyo 2018では感情推定ロボットを出展したので感情繋がりでこの論文。

エッジAIで、顔認識して追っかけてきて、感情推定をして尻尾かとで感情表現をしています！

懐いたり怖がったりして可愛いです。（親バカ）

お時間ある方はぜひお立ち寄りください^^ #カメララボ大崎 #CameraLabOsaki #H0301 #MakerFaireTokyo2018 #MFTokyo2018 pic.twitter.com/GthzhY1TXq
— motoJapan@MFTokyo_H0301 (@motoJapanTw) 2018年8月4日

今回の論文と出典

Contemplating Visual Emotions: Understanding and Overcoming Dataset Bias
https://arxiv.org/abs/1808.02212

著者

Rameswar Panda, Jianming Zhang, Haoxiang Li, Joon-Young Lee, Xin Lu, Amit K. Roy-Chowdhury

内容

視覚的感情の考察：データセットバイアスの理解とその克服
感情データセットには、バイアスが存在する
話したいのは3つの話題

最新のデータセットや精度の話を追わず、既存データセットの持つバイアス問題点を認識し、方法論の見直すこと
Webなどの大規模データを用いることで、バイアス効果を軽減できること、シンプルなカリキュラム（体系的）学習方法を提案し、SoTAを達成したこと
データセットの提案すること

詳細

データセットは、Deep Sentiment, Deep Emotion, Deep Emotion-6の3つで話が展開される
バイアスの例(Deep Emotion)は、下図の通りで、
- Postive : amusementな画像は、ほぼamusement parkの画像で、視覚的コンセプトの多様性が低い
- Negative : sadnessな画像は、amusement parkの画像は無く、その属性を十分に表現できていない

f:id:motojapan:20180818155938p:plain
（バイアスの考察例１：出典より抜粋）

データセットの持つバイアスを評価する手法をいくつか紹介している
- ３データセットを分類する手法 (ResNet-50)
  - 期待値は、全て同じ精度だが偏りがある
  - 高い信頼度を示す画像を見ると、Deep Emotionは「屋外画像が多い」、Deep Emotion-6は「中心に対象物があり、背景はクリア」というバイアスがある

f:id:motojapan:20180818160008p:plain
（データセットを3クラス分類した結果（左）と信頼度の高い画像（右）：出典より抜粋）

- Pos/Neg２クラス分類する手法 (ResNet-60)
  - 感情情報を圧縮して２クラス(Pos/Neg)分類する
  - 各データセットでcrossにtrain/testした結果を考察
  - Binary Coss-Dataset Generationと呼ぶが、これの優位点は次の２点
    - 「シンプルな２値分類は評価の難しいデータセットにフェアな比較が可能」
    - 「シンプルなテストに一般化できていないモデルの場合、適切な粒度に分類したデータでもうなく動かないことがわかる」

f:id:motojapan:20180818160037p:plain
（各データセットをPos/Neg２クラス分類した結果：出典より抜粋）

- オブジェクトとシーンについて条件付きエントロピーの分布で評価する手法
  - これでデータセットの中のデータ量を調査
  - 条件：確率をふっても変化が少ない感情属性はそもそもデータセットに少ないと解釈できる

f:id:motojapan:20180818160045p:plain
（バイアスの考察例２：出典より抜粋）

データセットの提案
- WEBEmoというデータセットを提案
- Deep Emotion の12倍のデータ量
- Web上に存在するデータを既存研究をベースに組織化したもの
- 良い点は、下記の２点
  - 「検索エンジン差を軽減できること」
  - 「異なるタスクを学習することで区別可能な感情特徴量を学習できること」
- 感情データセットは階層化
  - level 1 : 2 [categories](basic)
  - level 2 : 6 [categories]
  - level 3 : 25 [categories](fine-grained)

f:id:motojapan:20180818160049p:plain
（適切な粒度と呼ばれる25分類：出典より抜粋）

効率的なカリキュラム的学習
- データセットに跨った様々なタスクに対してパフォーマンスがでる
- 連続的手順により学習することが可能
- 基本は、学習ステージを分け、早期ステージではlebel 1、後半に進について高いlevelを学習
- 上記を満たすようにCNNに情報を挿入していくようなモデル(ResNet-50 base)

f:id:motojapan:20180818160053p:plain
（各データセットでのテスト結果：出典より抜粋）
f:id:motojapan:20180818160057p:plain
（テスト結果：出典より抜粋）