-
Detecting Twenty-thousand Classes using Image-level SupervisionContribution 세미나 2024. 4. 17. 10:02
ECCV 2022, 248회


배경:
Object detection DB에는 LVIS라는 좋은 DB가 있음 (1000 class, 120K) 다만 classification DB에 비하면 상대적으로 부족함
이러한 Classification DB를 OD에 효과적으로 활용할 수 없을까 (WSL으로 봐도 무방)

Contribution
:기존의 prediction-based weakly supervised detection 방식과 다르게, non-prediction-based 방식을 사용기존 prediction-based 방식은 간단하게 bounding box에 label을 assign 하는 방식
초기에 아무리 detector가 학습이 잘 되었더라도 novel class에 대해서는 정확도가 떨어질 수 밖에 없음
따라서 해당 모델로 assign을 하게 되면 아무래도 quality가 낮은 pseudo-label이 생성될 수 밖에 없음따라서 bounding box를 detector의 최종 결과(prediction)가 아닌 좀 더 robust한(ex. RPN 결과)결과를 활용해보자
(주 목적은 novel class에서 큰 효과를 보는것처럼 생각됨)Detic으로 명칭 (Detector with image classes)

기존 Detection DB는 기존에 사용하는 loss 그대로 사용 (supervised learning)
Classification DB에 대해서만 본 논문에서 제안하는 loss 사용
여기서는 크게 3가지 방식을 사용하여 비교함

이미지를 하나의 region proposal로 고려

RPN에서 나온 objectness중에 가장 높은 값의 region proposal을 고려

Region proposal중에 가능 큰 박스롤 고려
본 논문에서는 max-size 방식을 최종적으로 사용
실험

LVIS db에 대한 성능 분석
non-prediction based 방식이 기존 prediction-based 방식보다 좋은 성능을 보여줌
특히 LVIS의 novel class를 학습에 사용한것(upper bound)과 비슷한 성능을 보여줌그렇다면 왜 max-size방식이 좋은 성능을 보여줄까?

모델이 어느정도 수렴이 되기 전까지는 모델에서 나온 bounding box가 항상 객체를 전부 포함하지 않는다.
어차피 classification db에서 사용되는 loss에서는 box regression이 들어 가지 않기 때문에
이미지에서 객체만 어느정도 포함하면 bounding box의 regression 정확도가 크게 중요하게 생각되지 않는 느낌

마찬가지로 기존 ViLD 보다도 좋은 성능을 보여줌

검출 예시
한계점
해당 방식의 단점은 모든 image label을 하나의 region에 assign하기 때문에 overall dataset statistics를 고려하지 않음
(하나의 이미지에 여러 class가 포함되어 있는 classification DB를 사용하면 성능이 상대적으로 떨어지지 않을까 생각)'Contribution 세미나' 카테고리의 다른 글