2017년 겨울에 나온 논문으로 NIPS에 등재된, 기계번역을 공부한다면 공부했을 논문이다. 학부생 인턴 때도 공부하려다가 어영부영 넘어갔던 논문,, 드디어 각 잡고 공부하여 정리했다. 입력 문장을 하나의 벡터로 압축하는 과정없이, RNN과 CNN 구조를 활용하지도 않고 오직 Attention 기법을 적용한 Encoder, Decoder를 반복하였다. 이를 통해 연산량을 줄이고, 성능 역시 개선시킨 Transformer에 대한 논문이다. 모델 아키텍처는 위 사진과 같다. 가장 먼저 좌측과 우측에 각각 N번씩 반복되는 인코더와 디코더 구조가 눈에 띈다. 그림에서도 확인할 수 있듯이 Transformer 구조의 핵심은 다음과 같이 정리된다. Positional Encoding Encoder Self-Att..