|
- 十分钟读懂旋转编码(RoPE)
旋转位置编码(Rotary Position Embedding,RoPE)是论文 Roformer: Enhanced Transformer With Rotray Position Embedding 提出的一种能够将相对位置信息依赖集成到 self-attention 中并提升 transformer 架构性能的位置编码方式。而目前很火的 LLaMA、GLM 模型也是采用该位置编码方式。 和相对位置编码相比,RoPE 具有更好的 外推性
- 导师让写审稿意见怎么写? - 知乎
Comment 1 1(第一位审稿人的第一个意见):后面是评语的复制粘贴,或对提出的观点的简短总结。 如果审稿人的评语没有编号,建议自己将审稿意见分为若干个小节,并可以使用斜体突出显示审稿人的评语。
- 第一次sci投稿,大修后小修,下面是审稿人的意见,如果按照审稿人的意见修改了,接收概率有多大? - 知乎
录取率大于99% 以下是我的一篇已发表二区,只改了一次的,的审稿人回复,你可以参考一下 The authors reported on a new rate equation model of CW Tm: YAP Laser which considers re-absorption, the work is original and the simulation fits with the experimental result well I would like to suggest it for publication in Applied Physics B providing address my
- 在知乎怎么删除自己的提问? - 知乎
在你本人的界面下点击更多,点提问,点你要删除的问题。点击问题的右上角,如果你的提问没有人回答,会有删除问题选项。如果提问有回答的就删不了,你要联系答主,删除回答才能删除你的问题。有回答的问题你是删不了的。
- 大模型优化利器:RLHF之PPO、DPO
好在 2023 年 5 月,斯坦福大学提出了 PPO 的简化版: DPO(Direct Preference Optimization)。 只需要加载 2 个模型,而且不需要在线采样数据,极大地节省了训练开销。
- MoE (Mixture-of-Experts)大模型架构的优势是什么?为什么?
MoE 应用于大模型,GPT-4并不是第一个。 在2022年的时候,Google 就提出了MoE大模型 Switch Transformer,模型大小是1571B,Switch Transformer在预训练任务上显示出比 T5-XXL(11B) 模型更高的样本效率。 在相同的训练时间和计算资源下,Switch Transformer 能够达到更好的性能。
- 黎曼猜想(Riemann Hypothesis) - 知乎
黎曼猜想(简称RH)是德国数学家黎曼 (B Riemann)1859年提出的。黎曼于1826 年出生在如今属于德国,当时属于汉诺威王国 (Kingdom of Hanover) 的一座名叫布列斯伦茨 (Breselenz) 的小镇。1859 年,黎曼被选为了柏林科学院的通信院士。“黎曼猜想指的是:对于黎曼泽塔函数,其非平凡零点的实数部分都是1 2
- LORA:大模型轻量级微调
LORA是一种轻量级的大模型微调方法,旨在减少计算资源消耗并提高适应新任务的效率。
|
|
|