multi head attention,head越多越好么? - 知乎 个人理解, multi-head attention 和分组卷积差不多,在多个子空间里计算一方面可以降低计算量,另一方面可以增加特征表达的性能。但是如果 head 无限多,就有些像 depth-wise 卷积了,计算量和参数量大大下降,神经网络的性能也会下降。
猛猿 - 知乎 multi-turn training 系统本身极度复杂且资源消耗巨大。 如何加速 multi-turn training 始终是 RL sys 研究和核心。 本文不会直接提出优化 multi-turn…