[논문 세미나] View Synthesis by Appearance Flow
ECCV 2016, 716회 인용

Introduction
주어진 이미지에서 동일 객체(배경)에 대해 다른 시점으로 본 이미지를 생성하는 방식에 대한 논문.
보통 geometric approach와 learning-based approach로 나뉜다.
새로운 시점에 대한 이미지 생성(차 옆모습만 보고 차 앞모습을 생성하기) 측면에서는 learning-based approach가 쓰일 수 밖에 없음.
하지만 이당시에 나온 방식으로 이미지를 생성하면 그림과 같이 이미지가 blurry되는 현상이 나타남.
이를 해결하기위해 appearance flow 개념을 제안 (geometric + learning based의 장점을 사용)
Proposed method

먼저 전체적인 컨셉을 간단히 요약하면,
입력 이미지와, target viewpoint transformation이 들어온 경우 그에 맞는 appearance flow를 생성한다.
여기서 appearance flow란 생성될 이미지가 원본 이미지의 어느 픽셀을 참고해야 하는지에 대한 그 위치를 표시해준다고 보면 된다.
그렇다면 appearance flow의 장점은?
- 기존 방식에서 loss를 줄이기위해 mean color로 채우는 현상이 줄어듬 (blur 현상 감소)
- 생성된 이미지는 기존 객체의 color를 유지하기 용이함
- 모델이 intuitive interpretation이 가능하게 유도함 (다른 시점의 이미지가 생성되려면 기존 이미지에서 어느 부분을 봐야하는지가 학습되기 때문)
이제 본격적인 설명 시작.
먼저 loss를 보면,

여기서 g는 학습할 CNN을 의미.
CNN을 통해 나온 결과가 gt(target view에 대한 이미지)와 유사하도록 학습.
여기서 constraint에 해당하는 부분을 보면,

i번째 위치에 해당하는 pixel값은 bilinear interpolation을 통해 최종적으로 구해짐.
(loss 전파를 좀 더 골고루? continuous? 하게 만드는 느낌..)
아쉬운점은 veiwpoint transformation이 azimuth 만 고려됨. (-180, 180도를 20도 간격으로 나눔)
추가적으로 foreground prediction이 진행.
target view에서 생성될 객체의 mask영역을 prediction 함.
논문에서는 추가적인 network를 사용한다고 함.
또한 multiple input view도 고려 함.

추가적인 output channel을 두어 prediction quality를 예측하도록 함.
이를 통해 single view에서는 알 수 없는 정보를 (front-view에서는 차량의 바퀴에 대한 pixel 정보가 없음) 보완함.
즉 각각 view에서 나온 결과와 prediction quality를 weighted sum해서 최종 결과를 구한다.
Experiment result

확실히 기존 방식에 비해 블러링 효과가 없어짐.

당연하게도 single-view 보다 multi-view가 성능이 더 좋음.

Appearance flow로 매칭된 sample point 결과를 보여줌.