|
- deepseek官网地址告诉我? - 知乎
DeepSeek简介: DeepSeek,特别是V3版本,因其十分有效的控制训练模型成本和开源免费的模式震惊全球,登顶应用商店的下载排行榜,甚至重创国外的科技股,而且截止到写稿日期(2025年2月9日),已经有很多科技巨头接入DeepSeek,比如英伟达、微软等等。
- 求问deepseek出现这种情况怎么办啊? ? - 知乎
DeepSeek 不是告诉你原因和解法了嘛。 原因:当前对话已超出深度思考的最大长度限制 解法:开启一个新对话继续思考吧 至于具体解释,得看这几个参数,DeepSeek R1 的 上下文长度 为64K,意味着一轮对话最多能包含64K的token。
- DeepSeek被降智了吗?为什么越用其生成质量越来越低? - 知乎
知乎用户 17 人赞同了该回答 Deepseek 让我想到我小学初中时的班主任 你和它聊心理问题,它第一时间认为你有精神病 你和它聊情感问题,它第一时间认为你想要早恋 你和它聊政治问题,它第一时间认为你打算造反 发布于 2025-07-19 23:18 知乎用户 12 人赞同了该回答
- 如何评价 DeepSeek 的 DeepSeek-V3 模型? - 知乎
尽管DeepSeek-V3展示了per-tile和per-group量化对于模型收敛的重要性,论文中并没有给出对应的FP8矩阵乘法的算子效率。 另外,论文中缺乏per-token加per-channel量化的讨论,不清楚这种实现上更加友好的量化方法对于训练稳定性的影响会有多大。
- DeepSeek - Reddit
Subreddit for the DeepSeek Coder Language Model
- Deepseek是被降智了吗? - 知乎
Deepseek是被降智了吗? 最近用起来感觉反应速度又提升了,但是思考得貌似不如以前深了,难不成被降智了? 显示全部 关注者 52
- DeepSeek - 知乎
DeepSeek-V3 R1 推理系统的优化目标是:更大的吞吐,更低的延迟。 为了实现这两个目标,我们的方案是使用大规模跨节点专家并行(Expert Parallelism EP)。
- deepseek有多少种无法回答的答复?触发原因是什么?如何 . . .
deepseek有多少种无法回答的答复? 触发原因是什么? 如何让DS自动回避? 我现在遇到的3种DS无法回答的回复 1、系统繁忙,请稍后再试 2、这个问题我无法回答,咱们换个话题聊聊吧 3、对不起,我还没有学会如何思考这类问题,我… 显示全部 关注者 34
|
|
|