Description of the Problem

Translate a sentence from one language to another language.

And the architecture that they use is motivated by the same encoder-decoder architecture.

Untitled

                             Normal Mechanism of Encoder-decoder

                         Normal Mechanism of Encoder-decoder

Normal LSTM 모델은 Underfitting이 발생하는 문제가 있음.

이러한 문제를 해결하는 방법은 여러가지가 있다.

첫번째, Stacking LSTM layers

Untitled

LSTM을 단순히 층층히 쌓아 각 LSTM이 이전의 hidden state 값을 통해 hidden state 값을 만들어 다음으로 전달 하는 방식이다.

허나 Stacked LSTMs도 문제점을 가지고 있다.

Untitled

  1. 대용량 처리에 있어 4계층 까지는 준수한 성능을 보여주나 계층이 많아질 수록 성능이 떨어지는 문제점을 가지고 있으며 8계층에 이르러서는 거—-지 같은 성능을 보여주니 사용할 가치가 없어진다. 이를 해결하기 위해서는 residual connections 을 사용해야 한다.

Untitled

  1. 전체 문장 번역과 같은 많은 정보가 입력되는 상황에서 많은 정보가 encoded 되는 마지막 계층에서는 Encoder 와 Decoder간의 병목 현상이 일어나게 된다.