|
- 如何评价 DeepSeek 的 DeepSeek-V3 模型? - 知乎
DeepSeek-V3据我所知,是第一个(至少在开源社区内)成功使用FP8混合精度训练得到的大号MoE模型。 众所周知,FP8伴随着数值溢出的风险,而MoE的训练又非常不稳定,这导致实际大模型训练中BF16仍旧是主流选择。
- 求问deepseek出现这种情况怎么办啊? - 知乎
DeepSeek 不是告诉你原因和解法了嘛。 原因:当前对话已超出深度思考的最大长度限制 解法:开启一个新对话继续思考吧 至于具体解释,得看这几个参数,DeepSeek R1 的 上下文长度 为64K,意味着一轮对话最多能包含64K的token。
- deepseek官网地址告诉我? - 知乎
DeepSeek简介: DeepSeek,特别是V3版本,因其十分有效的控制训练模型成本和开源免费的模式震惊全球,登顶应用商店的下载排行榜,甚至重创国外的科技股,而且截止到写稿日期(2025年2月9日),已经有很多科技巨头接入DeepSeek,比如英伟达、微软等等。
- 现在这些大模型,哪个在代码编写上表现的最好呀? - 知乎
数据都不太一样,当然清华大学的是2024年11月的榜deepseek还是2 5的版本,但整体的数据还是相差不少。 不过也能说明一个问题就是现阶段全球比较顶尖的AI模型中在编程能力方面比较优秀的就是DeepSeek、Claude、Gemini及Qwen这些了。
- deepseek有多少种无法回答的答复?触发原因是什么?如何让DS自动回避? - 知乎
deepseek有多少种无法回答的答复? 触发原因是什么? 如何让DS自动回避? 我现在遇到的3种DS无法回答的回复 1、系统繁忙,请稍后再试 2、这个问题我无法回答,咱们换个话题聊聊吧 3、对不起,我还没有学会如何思考这类问题,我… 显示全部 关注者 33
- 如何看待DeepSeek开源国产MoE大模型DeepSeek MoE 16B? - 知乎
DeepSeek MoE是国内第一个开源MoE模型,值得学习。放出来的技术报告里面讲了两个对MoE结构的创新点。 DeepSeek-MoE技术报告链接 1 把一个专家做更细粒度切分,如下图(b)。这个方法和我刷到的这篇Mixtral微调思路的知乎文章有点像,民间有高人。 雪地冰激凌:训不动Mixtral,要不试试LLaMA-MoE? 2 分配
- Deepseek是被降智了吗? - 知乎
Deepseek是被降智了吗? 最近用起来感觉反应速度又提升了,但是思考得貌似不如以前深了,难不成被降智了? 显示全部 关注者 48
- DeepSeek深度思考和联网搜索有什么区别? - 知乎
DeepSeek为大家提供了:深度思考R1和联网搜索,两个功能强悍的按钮,但,在和知乎网友的交流过程中,我发现有很多人,不知道这两个强悍的工具如何搭配使用。今天就好好聊聊这个问题。 深度思考模式详解 深度思考模式就像是一个“超级大脑”,当你遇到复杂问题时,它会帮你仔细分析、多角度
|
|
|