Tip-Adapter: Training-free CLIP-Adapter for Better Vision-Language Modeling

Posted Oct 1, 2025 Updated Oct 1, 2025

By Coders

3 min read

1. 배경

CLIP과 같은 VLP (Vision-Language Pretrained Model) 은
대규모 이미지-텍스트 쌍을 학습하여 강력한 Zero-Shot 분류 성능을 보여준다.

하지만 여전히 Downstream Task에서 Fine-Tuning 없이 바로 활용하기에는 한계가 존재한다.
이를 해결하기 위해 다양한 접근법들이 제안되었다.

👉 오늘 소개할 Tip-Adapter는
Few-shot 데이터로 학습을 하지 않고도 성능을 개선할 수 있는 방법이다.
비용이 적게 들면서도 효율성이 뛰어나 현업 적용에 적합하다.

CLIP의 Image Encoder로 Few-Shot Training Set 임베딩 → Cache 구축
- Key = 이미지 feature
- Value = 라벨 one-hot vector
추론 시, Test 이미지의 feature와 Cache Key들의 유사도 계산
Cache 기반 예측과 CLIP Zero-shot 예측을 결합하여 최종 결과 산출

좌측 (CLIP-Adapter)
- 작은 모듈을 Few-shot 데이터로 학습(Training) → 성능 개선
우측 (Tip-Adapter)
- 작은 모듈을 학습하지 않고 초기화(Init)만 수행
- 이후 Cache Key들과 유사도 계산을 통해 Value(라벨) 활용

➡️ 핵심 차이점은 “학습 유/무”
즉, CLIP-Adapter는 학습이 필요하지만, Tip-Adapter는 Cache Init만으로도 성능 개선 가능하다.

✅ Fine-Tuning의 대안 제시

✅ Non-parametric 접근의 부활

✅ 효율성과 실용성

This post is licensed under CC BY 4.0 by the author.