Tip-Adapter: Training-free CLIP-Adapter for Better Vision-Language Modeling
1. 배경 CLIP과 같은 VLP (Vision-Language Pretrained Model) 은 대규모 이미지-텍스트 쌍을 학습하여 강력한 Zero-Shot 분류 성능을 보여준다. 하지만 여전히 Downstream Task에서 Fine-Tuning 없이 바로 활용하기에는 한계가 존재한다. 이를 해결하기 위해 다양한 접근법들이 제안되었다. ...