算法笔记——Transformer 2025-5-02 2:15 | 未分类| 34 1053 字| 33 分钟 Transformer大致结构如下: 左侧灰框代表Encoder中的一层,右侧灰框是Decoder中的一层 灰框旁边的$N\times$代表多层组成一个完整的Encoder或Decoder Add & Norm代表残差连接和归一化 Transformer的每个模块 位置编码 下面的公式中,2i和2i+1代表位置编码中对应的维度,d代表位置编…