ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • [GAN] Pixel-Level Domain Transfer(DTGAN) 논문 리뷰
    Deep-Learning/[Vision] 논문 리뷰 2020. 8. 6. 17:41
    논문: https://arxiv.org/pdf/1603.07442.pdf

    ※ 참고로 위 논문은 2016년 논문

     

    1. Abstract

     위 논문에서 제시하는 모델은 input domain을 semantic level의 target domain으로 전송하고, pixel level의 target image를 생성한다. 실제 target image를 생성하기 위해 real/fake discriminator(GAN)를 사용했을 뿐만 아니라, 생성된 이미지를 입력 이미지와 관련시키기 위해 새로운 domain transfer를 도입시켰다.

     

    2. 서론

     이 논문의 연구 배경은 옷장 앞에서 무엇을 입으면 좋을지 옷걸이에 걸린 옷을 보고 자신의 이미지를 두뇌로 상상하는데에서 시작됐다. 즉, 논문의 초점은 딥러닝을 활용하여 시각적으로 보이는 입력을 다른 형식으로 전송하고, 픽셀 레벨 이미지를 생성해서 다양한 형식으로 시각화하는 것이다.  

     

     이 연구에서는 아래의 그림 1. 과 같이 source domain과 target domain 두 가지의 domain을 정의하였다. 예를 들어, 옷을 착용한 사람의 이미지는 source domain으로 정의하면 착용한 옷이 target domain으로 정의되는 것이다.

     과거, 컴퓨터 비전 연구에서 image domain을 다른 image domain으로 transfer하는 것이 많이 제안되었지만, feature space에서만 이루어진다는 단점이 있다. 하지만, 여기서 제안한 모델은 target image를 직접 생성하는 방법이다.

     

     

    그림 1. Source domain과 target domain의 샘플

     

     이를 위해, 위 논문에서는 source image의 semantic embedding을 위한 Encodertarget image를 생성하기 위한 Decoder로 구성된 Pixel-Level Domain Transfer를 제시한다. 그러나 그림 1. 과 같이 source image가 주어졌을 때, 가능한 target image는 여러 개가 될 수 있다. 이 문제를 해결하기 위한 두 가지 방법이 제안한 모델에 포함되어 있다.

     

     첫 번째로는 Converter(source image를 target image로 변환하는 변환기)를 학습시키기 위해 먼저, Converter 위에 domain discriminator 라는 별도의 네트워크를 배치한다. domain discriminator는 source image와 target image의 쌍을 취하고 서로 연관되어 있는지에 대한 여부를 이진으로 판별되도록 훈련한다. 그 다음 domain discriminator는 converter를 supervise하여 관련 이미지를 생성해낸다. 두 네트워크는 모두 GAN에 의해 학습 및 최적화되며, 이러한 binary supervision은 domain 간의 의미 관계를 학습할 수 있게 된다.

     두 번째로는 domain discriminator 외에도 "real" 또는 "fake"라는 레이블로 supervision되는 GAN 기반의 discriminator를 사용하여 사실적인 이미지를 생성한다.

     

     이 프레임워크는 서로 다른 역할을 하는 세 가지 네트워크로 구성되어 있다. 레이블은 두 개의 discriminator에 부여되며, converter를 supervision하여 사실적인 이미지를 생성한다. 여기서 두 개의 discriminator는 훈련이 완료된 이후에는 불필요해지며 궁극적 사용은 converter를 통해 이미지를 생성해낸다. 

     

     Source domain은 의류를 착용한 사람의 이미지, Target domain은 착용된 의류의 제품 이미지이며, 총 84k의 이미지로 구성된 Lookbook 데이터 셋을 학습에 사용하였다. 8725 pairs로 구성된 이 데이터 셋은 75k의 의류를 착용한 사람의 이미지와 약 10k의 제품 이미지로 구성되어 있다.

     

    3. 관련 연구

     이미지 생성 모델은 두 가지의 접근 방법으로 나눌 수 있다. 첫 번째로는 생성 매개 변수 접근(generative parametric approaches)으로써, 이는 훈련 복잡성에 문제가 있어 자연스러운 이미지를 생성하기에 어렵다. 두 번째로는 적대적 접근(adversarial approache) 방식으로써, 대게 이미지를 생성하는 생성기(Generator)생성된 샘플과 실제 이미지를 구별하는 판별기(Discriminator)로 이루어져 있어 자연스러운 이미지를 생성하기에 적합한 접근 방식이다.

     두 네트워크는 서로 대항하도록 구성되어있다. discriminator는 "real sample"과 "fake sample"을 구별하도록 훈련되고, generator는 discriminator를 confuse하도록 훈련된다.

     

     (이하 생략..)

     

     제안하는 프레임워크는 기존의 GAN 프레임워크에서 사용하던 클래스 조건부(class conditional)와 속성 조건부(attribute conditional)을 이미지 조건부(image conditional) 모델인 Converter로 대체하였다.

     또한, Mathieu(이는 멀티 스케일 비디오를 MSE로 예측하는 논문임)에서 다음 프레임을 생성하기 위해 비디오 프레임으로 컨디셔닝된다는 점에서 유사하지만(이 프레임은 생성기에 MSE를 추가함으로써 입력 프레임과 다음 프레임을 강력하게 관련시킴) Target domain의 non-determinstic한 속성으로 인해 MSE를 사용할 수 없었다. 이에 프레임 워크에서는 domain discriminator를 새롭게 제안한다. 또한, 이 프레임워크는 전이학습과 관련이 있다. source domain에서 훈련된 모델 파라미터를 다른 domain으로 전송하는 것을 목표로 하기 때문이다.

     

     (이하 생략..)

     

    4. Review of GAN 

     Generative Adversarial Nets(GAN)은 시각적 데이터에 활용하는 생성 모델을 위한 일반화된 프레임워크이다. GAN은 generator와 discriminator로 구성되어 있으며, generator는 작은 차원 공간 Z를 픽셀 수준의 이미지 공간에 매핑하는 것이다. 즉, 입력 랜덤 벡터 z∈Z에서 사실적인 이미지를 생성할 수 있도록 하는 것이다.

     

     이러한 generator를 학습하기 위한 것이 discriminator이다. discriminator는 generator가 그린 real image 혹은 fake image가 

    댓글

by KUKLIFE