이번에는 CVPR 2020 poster session에 게재된 Regularizing Class-wise Predictions via Self-knowledge Distillation 논문을 리뷰하려고 합니다. 논문은 링크를 참조해주세요.
Introduction
Deep Neural Network(DNN)이 발전함에 따라서 scale이 커지고 깊어진 network들이 등장하였습니다. (DenseNet, ResNet, etc.) 이러한 parameter들의 증가는 overfitting이나 poor generalization 문제가 발생하기 쉽게 만들었습니다.
이러한 문제점들을 극복하기 위해서 사람들은 regularization method를 사용해왔습니다. 이를테면, early stopping, dropout, L1/L2 regularization, batch normalization, data augmentation 등을 사용해서 neural network 내부에서 이를 해결하고자 하였습니다.
이외에도 logits인 predictive distribution을 regularize함으로서 이를 해결하는 방식도 존재하였습니다. Label-smoothing, entropy maximization, angular-margine based method등등을 사용해왔습니다.저자는 Knowledge distillation의 dark knowledge도 regularizer중 하나라고 보고 이를 활용하여 regularization을 할 수 있다고 주장하고 있습니다.
Related Work
제안한 방법을 소개하기 전에 여기서 사용하는 comparing regularization method를 몇 가지 소개하겠습니다. 앞서 말씀드렸던 predictive distribution을 regularize하는 방법들인데요.
첫 번째는 Entropy Maximization입니다. 이 단어를 보고 의아해 하시는 분들이 있을 것이라고 생각하는데, 보통 저희가 classification에 사용하는 것은 cross-entropy loss를 사용하고, 이를 줄여나감으로서 학습을 진행하기 때문입니다. 하지만, Entropy Maximization에서는 지나치게 truth label에 confident해지는 것에 penalty를 부여하고자 기존 cross-entropy $H(p_{\theta}(y|x))$ term에 negative entropy를 추가함으로써 regularization을 진행합니다.
이를 통해서 기존 drop out이나 label smoothing 같은 regularization method보다 낮은 confident지만, 학습 성능은 향상될 수 있다라는 방법론 입니다.
두번째는 Virtual Softmax입니다. Virtual softmax는 개념이 매우 간단합니다. fully connected layer에 out node를 총 class 갯수보다 많이 부여하는 것입니다. C 개의 Class에 K개의 노드를 추가하여 전체에 대해 softmax를 취한 후, cross entropy loss를 취해 사용하며 식은 다음과 같습니다.
이렇게 사용하면, decision boundary가 lower variance를 갖게되면서 elaborate하게 plane이 구분되어 accuracy를 높일 수 있는 방법론입니다. 해당 사항은 아래와 같습니다.
Label-Smoothing (LSR)의 경우, 이전에 제가 리뷰한 논문을 참고하시기 바랍니다.
Proposed Method
이러한 최근 regularization을 predictive distribution에 대해서 하는 방법론들이 있었고, 이를 바탕으로 기존의 knowledge distillation method를 바탕으로 class-wise self-knowledge distillation을 제시합니다. (CS-KD)
Pipeline은 매우 간단합니다. 동일 label을 가진 A data와 B data를 동일한 network에 흘립니다. 이후 A의 cross-entropy loss를 구합니다. B의 logits을 soft-target을 취한 후, A의 logits과 KL divergence로 비교하여 서로간의 distance를 줄이는 loss를 더하여 학습을 진행합니다.
$$L_{CS-KD}=L_{CE}(x,y;\theta)+\lambda_{cls}T^2L_{cls}(x,x′;\theta,T)$$
$$L_{cls}(x,x′;\theta,T)=KL(P(y|x;\theta,T)||P(y|x;\theta,T))$$
위 식에서 $x'$은 B data이고, $x$는 A data입니다. 동일 network에 흘리기 때문에 $\theta$는 동일합니다.
이러한 class-wise regularization의 효과로 두 가지를 본 논문에서 제시합니다. 첫째는 soft-label을 이용하여 overconfident한 prediction을 기존 label-smoothing보다 realistic 한 방식으로 억제한다는 점입니다. 두 번째로는 A data와 B data의 two logits간의 distance를 KL divergence로 최소화하는 방식으로 update하여 intra-class variation을 줄여나간다는 점입니다.
Experiment
실험결과는 간략하게 설명하면 다음과 같습니다. Temperature 4일 때, Cifar100과 Tiny ImageNet을 사용하였을 때, 다른 regularization method보다 나은 결과를 가져왔습니다.
아쉬운 점은 class가 더 많은 ImageNet을 활용한 결과를 보여주지 않았다는 점입니다. class-wise regularization인 경우, class가 많아질수록 더 효과가 적을 수도 있지 않을까라는 의문이 들어서 ImageNet 결과가 첨부되면 더 좋을 것 같다는 table이었던 것 같습니다.
Hierarchical classification accuracy를 기반으로 한 confident는 아래와 같습니다. cs-kd를 적용했을 때, regularization을 적용하였으므로 confident가 낮아지는 대신에 accuracy가 오른거지 않을까 라는 생각을 했는데 그와 반대로 더 높아지는 결과가 나왔습니다.
Conclusion
이 논문은 dark knowledge를 하나의 regularization method로 보고 그 관점에서 출발한 논문입니다. 이전에 리뷰했던 논문'Revisiting Knowledge Distillation via Label Smoothing Regularization(CVPR 2020)'에서 처럼 dark knowledge가 아니고 regularization방법임을 증명하는 관점이 아닌, regularization method로서 dark knowledge를 사용한다 라는 점에서 서로 반대 방향으로 진행하였음을 알 수 있습니다.
자세한 내용은 full paper를 참고하시거나 댓글로 남겨주시기 바랍니다.
댓글