【ECCV2018 論文メモ#5】Multimodal Unsupervised Image-to-Image Translation
生成モデルの論文。
画像の潜在空間は、content空間とstyle空間により構成されている仮説に基づき、encoderとdecoderを定義。
contentは残しながらターゲットドメインのstyleをサンプリングして画像変換を行うものらしい。
犬画像を猫画像にスタイル変換するようなイメージ。
(画像変換サンプル:出典より抜粋)
今回の論文と出典
Multimodal Unsupervised Image-to-Image Translation
https://arxiv.org/abs/1804.04732
著者
Xun Huang, Ming-Yu Liu, Serge Belongie, Jan Kautz
内容
詳細
- 「画像表現はcontent code(ドメイン不変成分)とstyle code(ドメイン依存成分)から成り立つ」という仮説が前提
- この前提の下、encoderにより画像からcontent codeを取り出し、targetドメインのstyleをサンプリングしてdecoderで再構成する
(提案手法の概略図:出典より抜粋)
- encoder/decoderは決定的であるが、styleサンプリングが確率的(正規分布)であるため、既存手法より多様で連続的な出力を得られるという話らしい
- encoderとdecoder(generator)は逆関数として定義される
- S2は事前分布に従い、それ自体は単一モーダルであるが、
- decoderの非線形性が出力画像のマルチモーダル性を生み出している
- 潜在空間(変数)を推定という点でやっていることはVAEに近い気もする
(生成モデルブロック図:出典より抜粋)
- CycleGANに似ているようにも感じるが、入力をドメイン変換してから逆方向に入力すると同じ画像が得られるという特性とは異なる
読み時間2時間:執筆時間45分:勘違い、間違いあれば教えていただけると嬉しいです。
以上。