分类: 未分类

1 篇文章

thumbnail
算法笔记——Transformer
Transformer大致结构如下: 左侧灰框代表Encoder中的一层,右侧灰框是Decoder中的一层 灰框旁边的$N\times$代表多层组成一个完整的Encoder或Decoder Add & Norm代表残差连接和归一化 Transformer的每个模块 位置编码 下面的公式中,2i和2i+1代表位置编码中对应的维度,d代表位置编…