|
- 稀疏(sparse)在机器学习中很重要吗?为什么? - 知乎
深度学习论文中经常看到"sparse",所以应该是重要的概念,但一直不理解很困惑; 刚才在quora上的回答感觉很有帮助,尝试总结以下: sparse 代表数据为0,sparse数据的存在让不为0的dense数据聚集在一起; 因为存在数据聚集效应,所以才能学到特征和规律; 如果数据维度很高,噪音很多,原本为0的
- 请问机器学习中的稀疏先验(sparse prior)是什么? - 知乎
还是离不开概率啊。 sparse prior是指在机器学习中,使用一个 概率 分布来描述参数的分布,其中大多数参数的值都是零或接近零。这个概念出自于2006年的论文《Sparse Bayesian Learning and the Relevance Vector Machine》,该论文提出了一种基于稀疏 先验的 机器学习算法,即关联向量机(Relevance Vector Machine)。
- Sparse Transformer - 知乎
Sparse Transformer 减轻计算量的方式通过让连接模式作用到 上,从而减轻 的复杂度。 如式 (3)。 对于第 个时间片的输入,首先使用 Key 和 Value 的权值矩阵乘以输入特征,得到 和 。 然后再将连接模式 作用到 和 上,得到稀疏的特征 和 。
- 通俗理解,Sparse Attention是什么原理? - 知乎
通俗解释 Sparse Attention 的原理: 想象你在读一本长篇小说,如果每一页都要仔细读完全文才能理解剧情,效率会非常低。实际上,你会 快速跳过无关段落,只聚焦关键章节和人物对话,这就是 Sparse Attention(稀疏注意力) 的核心思想——让AI模型像人类一样“选择性关注重点,忽略次要信息
- 如何理解稀疏主成分分析 (Sparse Principal Component Analysis)?
稀疏主成分分析简介 变量经过PCA后得到的主成分通常在多个原始变量上都不为 0 ,这导致进行PCA后的主成分的含义较为模糊,给数据分析带来了一定难度,因此Zou等(2006)提出的一种新的主成分分析方法,稀疏主成分分析(Sparse Principal Component Analysis [1],SPCA)。
- DeepSeek-V3. 2-Exp 和 Qwen3-Next 哪个才是未来? - 知乎
对于(1)来说,dynamic sparse attention就是一个比较promising来解的方向,代表工作包括不限于Native Sparse Attention(NSA),MOBA,以及DeepSeek-V3 2-Exp里面的Deepseek Sparse Attention (DSA)。
- 如何看待Native Sparse Attention? - 知乎
准确率上,sparse 的模型比 full 还要搞一些。 这个我猜一点原因:(1)模型还不算大,NSA 和 full 还没遇到“瓶颈”,所以 full attention 还没摸到其上限,不能和 NSA 拉开差距;(2)sparse attention 本质上可以看做是对训练的一种正则,所以也许会有更好的泛化能力。
- 深度学习中的sparse和dense模型指的是什么? - 知乎
Sparse双塔和Dense双塔是推荐系统中使用的两种不同类型的双塔模型,它们主要的区别在于, 举个例子:以一个复杂的名词开始,比如 sparse Matchnet双塔多目标召回 Sparse MatchNet双塔多目标召回模型是一种在推荐系统中用于处理稀疏数据的模型,它结合了MatchNet和双塔架构来提高召回效率和准确性。为了
|
|
|