Attention Is All You Needhttps://arxiv.org/pdf/1706.03762 0. Abstract당시 주요한 sequence 변환 모델들은 complex recurrent 이나 인코더와 디코더를 포함한 convolutional neural network를 기반으로 한다. 또한 최신 성능의 모델들은 attention 메커니즘을 통해 인코더와 디코더가 연결되어 있다. 저자들은 Transformer라고 하는 recurrence와 convolution 전체를 배제한 오직 attention 메커니즘을 기반으로 한 새로운 네트워크 아키텍처를 제시한다. 2개의 기계번역을 대상으로 한 실험은 이 모델들의 품질이 우수함과 동시에 더 병렬 처리가 좋고 학습에 적은 시간을 필요로 한다는 것을 보여..