An Image Is Worth 16X16 Words:Transformers For Image Recognition At Scalehttps://arxiv.org/pdf/2010.11929 0. AbstractNLP에서 Transformer가 사실상 standard가 되었지만 computer vision에는 적용이 제한되어있다. 하지만 저자들은 image classification에서 CNN없이 image patch의 sequence를 적용한 pure transformer를 성공적으로 보여주었다. 많은 양의 data를 pre-train하고 중간이나 작은 사이즈의 image로 구성된 benchmark를 사용했을 때, Vision Transformer(ViT)는 상대적으로 작은 계산량을 필요로하면서 최신 C..