Florence: A New Foundation Model for Computer Vision

Computer vision foundation model이 이러한 다양한 task들에 적용하는데 용이해야 함

이전에 설명했던 UniCL, Dynamic head, METER들이 여기서 사용 (CoSwin은 나중에..)
좀 더 보충설명 하자면
UniCL의 경우
label을 아래와 같이 augmentation 해서 사용
We have to enrich the short description by generating prompt templates such as “A photo of the [WORD]”, “A cropped photo of [WORD]”, as data augmentation.
하지만 이런 augmentation은 아래와 같은 side effect
Although including generated language prompt might not affect classification accuracy, it hurts the performance in retrieval and vision language tasks.
아래 방식으로 해결
In the first stage, we use all data including augmented texts for training; while in the second stage, we exclude all augmented data for continuing training. We trained 1M iterations in the first stage, and continuously trained 180K iterations in the second stage.
Dynamic head는 기존과 동일

여기서는 one-stage ATSS framework 사용
METER도 성능이 가장 좋았던 조합 사용

CLIP보다 성능이 좋음
