Transformer
Transformer是完全由Attention和Self-Attention结构搭建的深度神经网络结构。
其中最为重要的就是Attention和Self-Attention结构。
Attention结构
Attention Layer接收两个输入(X = [x_1, x_2, x_3, ..., x_m]),Decoder的输入为 (X' = [x_1^{'}, x_2^{'}, x_3^{'}, ...,x_t^{'}]),得到一个输出(C = [c_1, c_2, c_3, ..., c_t]),包含三个参数:(W_Q, W_K, W_V)。