MotoJapan's Tech-Memo

技術めも

【ECCV2018 論文メモ#5】Multimodal Unsupervised Image-to-Image Translation

生成モデルの論文。
画像の潜在空間は、content空間とstyle空間により構成されている仮説に基づき、encoderとdecoderを定義。
contentは残しながらターゲットドメインのstyleをサンプリングして画像変換を行うものらしい。
犬画像を猫画像にスタイル変換するようなイメージ。
f:id:motojapan:20180825144511p:plain
(画像変換サンプル:出典より抜粋)

今回の論文と出典

Multimodal Unsupervised Image-to-Image Translation
https://arxiv.org/abs/1804.04732

著者

Xun Huang, Ming-Yu Liu, Serge Belongie, Jan Kautz

内容

  • マルチモーダル教師なし画像変換
  • 画像変換における既存手法の決定的モデルの弱点は、可能性のある出力の全分布を捉えることに失敗するということ
  • 仮説は「画像表現はcontent code(ドメイン不変成分)とstyle code(ドメイン依存成分)から成り立つ」ということ
  • 確率的要素を含めてこのロジックで画像を再構成することで画像生成を行う
  • ポイントは次の3点
  1. ラベリングとしてのデータペアは不要で教師なし学習であること
  2. 既存手法のような1-to-1の決定的なマッピングを行うモデルではなく、画像表現マルチモーダルな出力を得ることができること
  3. ユーザがstyleを入力できること

詳細

  • 「画像表現はcontent code(ドメイン不変成分)とstyle code(ドメイン依存成分)から成り立つ」という仮説が前提
  • この前提の下、encoderにより画像からcontent codeを取り出し、targetドメインのstyleをサンプリングしてdecoderで再構成する

f:id:motojapan:20180825144459p:plain
(提案手法の概略図:出典より抜粋)

  • encoder/decoderは決定的であるが、styleサンプリングが確率的(正規分布)であるため、既存手法より多様で連続的な出力を得られるという話らしい

f:id:motojapan:20180825144504p:plain
ドメイン内変換/クロスドメイン変換:出典より抜粋)

  • encoderとdecoder(generator)は逆関数として定義される
  • S2は事前分布に従い、それ自体は単一モーダルであるが、
  • decoderの非線形性が出力画像のマルチモーダル性を生み出している
  • 潜在空間(変数)を推定という点でやっていることはVAEに近い気もする

f:id:motojapan:20180825144508p:plain
(生成モデルブロック図:出典より抜粋)

  • CycleGANに似ているようにも感じるが、入力をドメイン変換してから逆方向に入力すると同じ画像が得られるという特性とは異なる

読み時間2時間:執筆時間45分:勘違い、間違いあれば教えていただけると嬉しいです。

以上。