NoisyNN: Exploring the Impact of Information Entropy Change in Learning Systems
ICLR 2024 제출
현재 Imagenet classification에서 독보적으로 1위를 찍음
Introduction

일반적으로 노이즈는 모델을 학습하는데 있어서 안좋은 영향을 미친다고 알려져있다.
하지만 노이즈가 학습하는데 있어서 좋은 영향을 미치는 경우는 없을까?
논문에서는 노이즈를 positive noise와 harmful noise로 구분, PN은 task의 complexity를 낮출 수 있다고 주장.
Proposed method
Conditional entropy

Task에 대한 entropy를 정의.
noise를 추가 했을때 task에 대한 entropy가 떨어지는지 확인


entropy 차이가 positive면 그때의 noise는 positive noise, 그렇지 않으면 harmful noise.
Task에 대한 entropy는 아래와 같이 정의

먼저 이미지에 noise를 추가한 경우 task에 대한 entropy는 아래와 같이 표현할 수 있다.

latent space(feature map)에 noise를 추가한 경우 task에 대한 entropy는 아래와 같이 표현할 수 있다.

여기서 고려하는 noise는 크게 세가지 타입
Gaussian noise, linear transform noise, salt-and-pepper noise
각각의 타입에 대해서 entropy change를 계산
참고로 이미지에 noise를 추가하는 경우는 수식적으로 positive noise가 될 수 없음 (appendix에 증명)
따라서 latent space에 noise를 추가한 경우를 고려
- Gaussian noise

기존 latent space에 gaussian noise가 추가된 경우


결론 항상 negative → harmful noise
2. Linear transform noise

기존 latent space에 linear transform noise가 추가된 경우

여기서 entropy change를 최대화 하는 Q는 아래와 같이 정의할 수 있다.

k는 데이터의 개수, 아래와 같은 조건을 만족하는 Q를 구한다.
linear transform noise가 가해지더라도 기존의 dominant한 information은 유지되도록
norm값은 항상 1이 되도록
해당 조건을 만족하는 Q를 구해서 적용
3. salt-and-pepper noise

결론은 negative, harmful noise.
Experiment result
아래와 같이 노이즈를 세팅

Linear transform noise를 추가한 feature map을 살펴보면, 결국 다른 data의 feature map과의 linear combination한 결과를 도출한다.

Linear transform noise를 추가한 경우 성능이 제일 좋다.

Noise 정도에 따른 성능 비교

확실히 다른 알고리즘 보다 좋은 성능을 보여줌
여기서 optimal한 Q를 사용하면

근데 optimal한 Q가 의미하는건..

이렇게 되면 모든 데이터에 대한 feature map을 uniform하게 linear combination해서 본다는 소리인데..
이렇게 해서 성능이 잘 나온다는게 충격..