|
- 梯度(gradient)到底是个什么东西?物理意义和数学意义分别是什么?
我会使用尽量少的数学符号描述梯度,着重于意义而非计算。一个直观的例子,在机器学习领域有个术语叫「梯度下降」,你可以想象在群山之中,某个山的半山腰有只小兔子打算使用梯度下降的思路去往这片群山最深的山谷里找水喝。
- 梯度(gradient)到底是个什么东西?物理意义和数学意义分别是什么? - 知乎
梯度(gradient) 的概念 在空间的每一个点都可以确定无限多个方向,一个多元函数在某个点也必然有无限多个方向。因此,导数在这无限多个方向导数中最大的一个(它直接反映了函数在这个点的变化率的数量级)等于多少?它是沿什么方向达到的?
- CNN卷积神经网络的始祖文是哪篇? - 知乎
卷积神经网络(CNN)的开创性工作可以追溯到 Yann LeCun 在 1998 年发表的论文,论文题目为:“Gradient-based learning applied to document recognition”。 这篇论文介绍了一种名为 LeNet-5 的卷积神经网络架构,主要应用于手写数字识别任务。
- 哪里有标准的机器学习术语(翻译)对照表? - 知乎
梯度下降法 (Gradient Descent) 一种通过计算并且减小梯度将损失降至最低的技术,它以训练数据为条件,来计算损失相对于模型参数的梯度。 通俗来说,梯度下降法以迭代方式调整参数,逐渐找到权重和偏差的最佳组合,从而将损失降至最低。
- 如何更好的理解共轭梯度方法? - 知乎
感谢《An Introduction to the Conjugate Gradient Method Without the Agonizing Pain》。 作者在文章里说他把这个问题搞明白费了很大力气。 我有一个不成熟的观点:课本和教材有时候限于篇幅,只写是什么,不写为什么,怎么来的,是不是一种对学生时间的浪费呢?
- matlab 函数无法识别有什么原因? - 知乎
知乎,中文互联网高质量的问答社区和创作者聚集的原创内容平台,于 2011 年 1 月正式上线,以「让人们更好的分享知识、经验和见解,找到自己的解答」为品牌使命。知乎凭借认真、专业、友善的社区氛围、独特的产品机制以及结构化和易获得的优质内容,聚集了中文互联网科技、商业、影视
- 如何理解随机梯度下降(stochastic gradient descent,SGD)?
如图所示,我们假设函数是 y=x^2+1,那么如何使得这个函数达到最小值呢,简单的理解,就是对x求导,得到 y‘=\frac{1}{2}x ,然后用梯度下降的方式,如果初始值是(0的左边)负值,那么这是导数也是负值,用梯度下降的公式,使得x更加的靠近0,如果是正值的时候同理。
- 如何理解Adam算法(Adaptive Moment Estimation)? - 知乎
全程为Adaptive Gradient,意思就是,学习参数的更新率要适当地根据每个参数的历史几率调整,怎么调整呢? 我们把每个参数的历史梯度值给加起来,然后更新率和这个值负相关,这样的好处就是:如果每个参数的振荡幅度不一样,我们这样相当于做了某种归一化
|
|
|