Learning Transferable Visual Models From Natural Language Supervision https://arxiv.org/abs/2103.00020 총 48페이지의 방대한 논문으로 다 읽지는 못했다. 하지만 신인의 패기(?)로 첫 세미나를 해당 논문으로 진행했었는데 그 때의 발표자료를 참고하여 리뷰를 작성해보려 한다. 1. IntroductionNLP에서 GPT와 같이 raw text를 이용하여 학습하는 Pre-training 방법이 몇 년간 발전해왔다. 그러나 computer vision에서는 여전히 label 데이터셋을 사용하고 있어 저자들은 web text로부터 pre-training을 하는 방법이 computer vision에 돌파구가 될 것이라 생각했다. 이를..