CLIP-Adapter : Better Vision-Language Models with Feature Adapters
최근 VLM(Vision-Language Model) 모델을 단순히 사용하는 것 뿐만 아니라 다양한 학습 방법들에 대해서 연구되고 있다. 오늘은 그 중 소량의 데이터셋으로 CLIP 모델을 학습할 수 있는 방법을 소개한 CLIP-Adapter 논문에 대해서 소개하겠다. 1. 개요 CLIP 은 대규모 이미지-텍스트 쌍으로 학습되어 우수한 zero-...