|
- 神经正切核(ntk)的进展如何,好像热度不高了? - 知乎
目前很多Transformer架构的大语言模型使用了RoPE这种位置编码,而如何将大语言模型的上下文扩展到更长以充分利用大语言模型的上下文学习能力依然是一个开放问题。在上下文扩展算法中,有很多在理论推导中使用了NTK理论,如NTK aware scaled RoPE[1,2],YaRN[3]。
- 深度学习理论研究之路 - 知乎
继Neural Tangent Kernel (NTK)之后,深度学习理论出现了一个理论分支,人们常常称它为feature learning (theory)。不同于NTK,feature learning认为神经网络在梯度下降过程中可以学习到数据中的feature或者signal。 Feature learning理论…
- 再论大模型位置编码及其外推性(万字长文) - 知乎
NTK-Aware Scaled RoPE非线性内插,是对base进行修改(base变成 )。 NTK-Aware Scaled RoPE在 不微调的情况下,就能取得不错的外推效果 。 (训练2048长度的文本,就能在较低PPL情况下,外推8k左右的长文本)
- 十分钟读懂旋转编码(RoPE) - 知乎
其中 RoFormer 是一个绝对位置编码替换为 RoPE 的WoBERT模型,后面的参数(512)是微调时截断的maxlen,可以看到 RoPE 确实能较好地处理长文本语义。
- 黄伟 - 知乎
京 ICP 证 110745 号 · 京 ICP 备 13052560 号 - 1 · 京公网安备 11010802020088 号 · 互联网新闻信息服务许可证:11220250001 · 京网文[2022]2674-081 号 · 药品医疗器械网络信息服务备案(京)网药械信息备字(2022)第00334号 · 广播电视节目制作经营许可证:(京)字第06591号 · 互联网宗教信息服务许可证:京(2022
- 蓝屏报错ntkrnlmp. exe怎么解决? - 知乎
知乎,中文互联网高质量的问答社区和创作者聚集的原创内容平台,于 2011 年 1 月正式上线,以「让人们更好的分享知识、经验和见解,找到自己的解答」为品牌使命。知乎凭借认真、专业、友善的社区氛围、独特的产品机制以及结构化和易获得的优质内容,聚集了中文互联网科技、商业、影视
- 300NTK-281主演是谁?急? - 知乎
300NTK-281主演是谁?急? - 知乎 求全名
- 流明,尼特,勒克斯,烛光,坎德拉有什么区别有什么关系啊?怎么使用?为啥屏幕只用尼特来计量? - 知乎
知乎,中文互联网高质量的问答社区和创作者聚集的原创内容平台,于 2011 年 1 月正式上线,以「让人们更好的分享知识、经验和见解,找到自己的解答」为品牌使命。知乎凭借认真、专业、友善的社区氛围、独特的产品机制以及结构化和易获得的优质内容,聚集了中文互联网科技、商业、影视
|
|
|