본문 바로가기
Paper Review

[논문리뷰] ISDA: Implicit Semantic Data Augmentation for Deep Networks (NeurIPS 2019)

by 3neutronstar 2022. 7. 5.

이번에는 NeurIPS 2019에 accept 된 Baidu의 Implicit Semantic Data Augmentation for Deep Networks 리뷰하려고 합니다. 자세한 내용은 원문을 참고해주세요. 

 

Data augmentation은 효과적으로 deep neural network를 학습시킬 수 있다는 점이 있었고, 특히 image recognition 분야에서 content는 preserving하면서 transform하는 방식이 발전해왔습니다. 하지만, semantic transform에 대해서는 제대로 바꾼적이 없었습니다. (crop, flip, rotation, color jitter, etc.)

 

이를 잘 해낸 방식이 Generative Adversarial Network라고 할 수 있는데, GAN은 generator로 부터 무한한 수의 sample을 뽑을 수 있다는 장점이 있지만, computationally expensive하다는 단점이 있었습니다.

 

본 논문에서는 ISDA라는 highly efficient하지만, additionally network를 학습하지 않는 방식을 제안합니다. Feature level에서 space는 많은 semantic direction을 가지고 있는 것으로 알려져 있습니다. 그렇기에 data feature sample을 translating하는 것은 feature representation을 다른 sample인데 같은 class identity를 가지는 값으로 이전시킬 수 있다는 것을 의미할 수 있게 됩니다.

 

An overview of ISDA

위의 예시를 고려해보면 feature level에서 intra-clss direction 방향으로 이동하게 되면, different semantic image를 학습하는 것과 유사한 효과를 누릴 수 있다고 말하고 있습니다. 하지만 explicit하게 이러한 semantic한 방향을 찾는 것은 굉장히 어렵겠죠. (explicit은 여기서 일일히 계산해서 정확하게 보여지게끔 나타내는 것이라 생각하면 좋습니다)

 

그래서 본 논문의 contribution을 좀 정리하면

1. non-trivial 한 training process를 막기 위해서 Covariant matrix를 각 class 별로 online estimation을 통해서 feature의 direction을 샘플링합니다. 그리고 그걸 training sample의 feature에 적용해서 augmentation을 진행합니다.

 

2. 더 efficient하게 하기 위해서 cross entropy의 기댓값의 upperbound를 closed form으로 제안함으로써, explicit하게 augmentation을 진행하는 대신 implicit하게 loss function을 minimize하는 방식으로 update합니다.

 

Related Work

- Robust loss function

Loss function으로 잘 알려진 것은 Cross-entropy loss 와 MAE와 같은 것들이 있고, 이를 발전 시켜 balanced noise-robust form형태로 $L_q$ loss가 존재한다. (자세한 내용은 해당 논문 참조)

Object detection에서 유명한 Focal loss도 소개하고 있는데, 가장 흥미로운 것은 Center loss와 논문에서 소개하는 18,19,20,21 reference 논문이다. (해당 부분은 가능하면 추후에 소개)

 

Center loss function은 feature의 center를 각 class에 대해서 학습해서 class center들과 sample간의 거리를 penalize해서 intra-class를 compact하게 만들고 inter-class를 separable하게 만든 loss등등이 있었고, 본 논문에선 CE loss를 margin을 주고 학습하는 것과 유사하다고 생각하면 좋습니다.

 

Method

Semantic direction을 feature level에서 정확하게 찾는 것은 거의 불가능 하다는 문제가 있습니다. 그래서 이를 approximate하는 알고리즘을 제안하는데, covariance matrix를 각 class의 sample에 대해서 구하고 이를 활용하여 zero mean 인 normal distribution을 얻습니다. 이 distribution에서 sampling한 random vector는 정확하지는 않지만 대략적으로 intra-class인 direction을 추천해줬다고 희망하는 것이라고 생각하면 됩니다. Feature를 $a_i$ 라고 할 때, augment된 feature $\hat{a}_{i} ~ N(a_i,\lambda \sum_{y_i})$라고 생각할 수 있게 됩니다. 그러면 $\lambda$는 자연스레 augmentation의 strength처럼 작용할 수 있게됩니다. 하지만, 첫 few epoch는 informative한 feature가 나오지 않아 제대로 학습되지 않을 수 있습니다. (많은 feature level augmentation이 겪는 어려움 입니다.) 그래서 본 논문에서는 $\lambda$를 $\lambda=(t/T)\times\lambda_0$를 통해서 시간이 지날수록 영향력이 강화되도록 조절합니다.

 

ISDA에 대한 내용을 빼고 앞부분을 모두 설명을 드린 것 같은데, ISDA도 앞 문단 내용을 이해하시면 정말 간단합니다. 이런 저런 증명은 생략하도록 하겠습니다.

 

Cross-entropy loss를 생각해보면, 각 동일 이미지의 feature의 M번 augmentation한 feature set을 ${(a^1_i,y_i),...,(a^M_i,y_i)}^N_i=1$ 이라고 생각해볼 때, N개가 이미지 갯수라고 하면 Batch에 대한 cross-entropy loss를 minimizing하는 것은 다음과 같이 서술할 수 있습니다.

이때 w와 b는 fully connected layer의 weight와 bias라고 상상해보면, 딱 맞아 떨어지는 식이 됩니다.

근데이제 M을 무한대로 보내버리면 naive하게 연산하기는 굉장히 어려워집니다. 그래서 Expectation을 통해서 대략적으로 보면 아래의 식과 같습니다.

이 식이 efficient하게 연산이 된다면 explicit하게 sampling해서 augmented feature를 구할 필요가 없어지게 되겠습니다. 하지만 이를 직접 구하기는 어렵기 때문에 upper bound를 구함으로써 제안합니다.

이게 바로 해당 식이 되는데, 정확하지는 않지만 covariance matrix를 구해서 augmented feature를 적용했을 때, proposition에서 가정한 distribution으로 위 식을 풀어 (4)를 구성할 수 있게 됩니다.

이렇게 알고리즘을 풀면 다음과 같이 됩니다. G는 feature extractor라고 생각하면 되며, ResNet으로 생각하면 residual block들의 output를 return하는 function이다 생각하시면 됩니다.

이 알고리즘의 장점은 explicit한 augmentation과 같이 쓸 수 있다는 점입니다. cutout과 AA처럼 input level의 augmentation에도 사용가능합니다. 기본적으로 loss를 통해서 augmentation한 효과를 낸다는 idea여서 GAN과 다양한 loss들을 비교하였습니다. GAN의 경우 feature space의 다양한 이미지를 생성한다는 점에서 차용했습니다.

재밌는 점은 visualization을 진행했다는 점인데요. Reversing convolution network에 대해서 reconstruction loss등을 사용해서 복원한 것을 보여주고 있으며, augment한 이미지들이 implicit하게 다르게 생성됨을 유추할 수 있게 explicit하게 나타낸 것입니다.

간단하지만, 확률과 통계를 모르면 사실 이해하기 어려운 논문인데, 수식을 천천히 따라가다보면 어렵진 않습니다. 해당 논문은 확장되어 TPAMI 2021에도 accept되었을 정도로 citation도 많은 feature level augmentation논문입니다.

 

자세한 내용은 본문을 참조하시면 이해하는데 더 도움이 될 것 같습니다.

 

감사합니다.

댓글