为什么Transformer 需要进行 Multi-head Attention? - 知乎 Multi-head attention allows the model to jointly attend to information from different representation subspaces at different positions 在说完为什么需要多头注意力机制以及使用多头注意力机制的好处之后,下面我们就来看一看到底什么是多头注意力机制。 图 7 多头注意力机制结构图