Swin Transformer: Hierarchical Vision Transformer using Shifted Windowshttps://arxiv.org/abs/2103.14030 0. Abstract본 논문은 새로운 vision Transformer인 SwinTransformer를 제안한다. transformer를 language로부터 vision으로 전환하는데 어려움이 있었는데, 예를 들어 시각적 entity의 차이, 텍스트에 비해 큰 해상도가 있다. 이를 다루기 위해, representation을 shifted window로 계산하는 계층적 transformer를 제안한다. shifted window는 self-attention을 overlapping되지 않는 local window로 제한하여..