|
- 一文了解Transformer全貌(图解Transformer)
自2017年Google推出Transformer以来,基于其架构的语言模型便如雨后春笋般涌现,其中Bert、T5等备受瞩目,而近期风靡全球的大模型ChatGPT和LLaMa更是大放异彩。网络上关于Transformer的解析文章非常大,但本文将力求用浅显易懂的语言,为大家深入解析Transformer的技术内核。
- 如何最简单、通俗地理解Transformer? - 知乎
Transformer最开始应用于NLP领域的机器翻译任务,但是它的通用性很好,除了NLP领域的其他任务,经过变体,还可以用于视觉领域,如ViT(Vision Transformer)。 这些特点让Transformer自2017年发布以来,持续受到关注,基于Transformer的工作和应用层出不穷。
- Transformer模型详解(图解最完整版) - 知乎
Transformer 的整体结构,左图Encoder和右图Decoder 可以看到 Transformer 由 Encoder 和 Decoder 两个部分组成,Encoder 和 Decoder 都包含 6 个 block。Transformer 的工作流程大体如下: 第一步: 获取输入句子的每一个单词的表示向量 X, X 由单词的 Embedding(Embedding就是从原始数据提取出来的Feature) 和单词位置的
- 挑战 Transformer:全新架构 Mamba 详解
与类似规模的 Transformer 相比, Mamba 具有 5 倍的吞吐量, 而且 Mamba-3B 的效果与两倍于其规模的 Transformer 相当。 性能高、效果好,Mamba 成为新的研究热点。
- MoE和transformer有什么区别和联系? - 知乎
Transformer通过自注意力机制捕捉全局依赖关系。 MoE通过专家分工和稀疏计算提升模型的可扩展性。 (3) 应用场景 两者都广泛应用于自然语言处理(NLP)、计算机视觉(CV)等领域。 MoE-Transformer在大规模模型(如GPT、BERT等)中表现出色,能够处理更复杂的任务。
- 如何从浅入深理解 Transformer? - 知乎
Transformer升级之路:12、无限外推的ReRoPE? Transformer升级之路:13、逆用Leaky ReRoPE Transformer升级之路:14、当HWFA遇见ReRoPE 预训练一下,Transformer的长序列成绩还能涨不少! VQ一下Key,Transformer的复杂度就变成线性了 Transformer升级之路:15、Key归一化助力长度外推
- 如何从浅入深理解 Transformer? - 知乎
我敢说100个宣称自己学过Transformer的同学; 真理解Transformer的,可能不足10人。 甚至哪怕你发了一篇基于Transformer的论文; 或者微调了一个基于Transformer的模型; 但对于一些基础问题,可能也没法思路清晰的完整回答出来。 不信,咱们就试试~ ^_^
- 如何理解 Swin Transformer 和 Vision Transformer不同 . . . - 知乎
Swin Transformer 的总体结构 Swin Transformer 总体结构 从上图我们可以观察到在输入端有一个 Patch Partition 的操作,也就是 Vision Transformer 常规的切图。 然后是经过一个线性映射进入第一个 Swin Transformer Block,从而完成 Stage 1 这个模块。
|
|
|