|
- 大模型优化利器:RLHF之PPO、DPO
最终,我们可以得出 DPO 的 loss 如下所示: 这就是 DPO 的 loss。 DPO 通过以上的公式转换把 RLHF 巧妙地转化为了 SFT,在训练的时候不再需要同时跑 4 个模型(Actor Model 、Reward Mode、Critic Model 和 Reference Model),而是只用跑 Actor 和 Reference 2 个模型。
- 损失函数|交叉熵损失函数 - 知乎
对所有样本的loss求平均: 我们发现,MSE能够判断出来 模型2 优于 模型1,那为什么不采样这种损失函数呢?
- 究竟什么是损失函数 loss function? - 知乎
如何设计loss函数? Loss函数和你任务的评价准则越相关,二者越接近越好。 如果你任务的评价准则是F1-score(不可导),但一直在使用CrossEntropy Loss来迭代模型,二者之间虽然相关性很高但仍存在非线性。 如何在Pytorch中使用loss函数?
- 强化学习——从Q-Learning到DQN到底发生了什么?
那么我们可以用这个计算出来的Q值作为监督学习的“标签”来设计Loss Function,我们采用如下形式,即近似值和真实值的均方差 采用随机梯度下降法(SGD)来迭代求解,得到我们想要的 ,具体公式和过程还请看参考资料,这里不展开了,其实就是求导啦。
- 深度学习模型训练的时候,一般把epoch设置多大? - 知乎
在机器学习中,epoch 数量是指整个训练集通过模型的次数。一个Epoch意味着训练数据集中的每个样本都有机会更新内部模型参数。 Epoch由一个或多个Batch组成。 选择合适的 epoch 数量是一个关键的问题,因为它会影响到模型的性能和训练时间。 通常,epoch 数量越多,模型在训练数据上的性能越好
- 什么是「过拟合」,如何判断,常见的原因是什么? - 知乎
1 什么是过拟合? 过拟合是机器学习模型的常见问题之一。它指的是模型在训练数据上表现得非常好,但在未见过的测试数据中表现不佳。可以理解为某学生题海战术做太多了,平时都是原题可以做全对,但正式考试反而失去了思考能力,分数很差。 简单来说,过拟合的模型对训练集数据的拟合
- 2024年对比学习 (contrastive learning)有没有深入的理论分析和相关研究? - 知乎
主任务损失函数(Loss for Main Task): 主任务采用batch softmax 损失(用于 top-k 精度优化),形式为: 其中 s (qi,xj)是 query 与 item 的相似度(如向量点积);这是推荐和 NLP 中常用的 top-k 排序优化方法;\tau 是温度参数,用于控制 softmax 分布的平滑程度。
- keras深度学习框架输出acc loss,val_acc val_loss,什么意思?
上图就是一个很典型的过拟合现象,训练集的 loss 已经降到0了,但是验证集的 loss 一直在上升,因此这不是一个很好的模型,因为它太过拟合了。 如果我们非要用这个模型,应该在5~10代的时候停止训练,这个操作叫提前停止,是正则化方法之一。
|
|
|