|
- 现在这些大模型,哪个在代码编写上表现的最好呀? - 知乎
数据都不太一样,当然清华大学的是2024年11月的榜deepseek还是2 5的版本,但整体的数据还是相差不少。 不过也能说明一个问题就是现阶段全球比较顶尖的AI模型中在编程能力方面比较优秀的就是DeepSeek、Claude、Gemini及Qwen这些了。
- 如何评价 DeepSeek 的 DeepSeek-V3 模型? - 知乎
DeepSeek-V3据我所知,是第一个(至少在开源社区内)成功使用FP8混合精度训练得到的大号MoE模型。 众所周知,FP8伴随着数值溢出的风险,而MoE的训练又非常不稳定,这导致实际大模型训练中BF16仍旧是主流选择。
- deepseek有多少种无法回答的答复?触发原因是什么?如何让DS自动回避? - 知乎
deepseek有多少种无法回答的答复? 触发原因是什么? 如何让DS自动回避? 我现在遇到的3种DS无法回答的回复 1、系统繁忙,请稍后再试 2、这个问题我无法回答,咱们换个话题聊聊吧 3、对不起,我还没有学会如何思考这类问题,我… 显示全部 关注者 33
- 求问deepseek出现这种情况怎么办啊? - 知乎
DeepSeek 不是告诉你原因和解法了嘛。 原因:当前对话已超出深度思考的最大长度限制 解法:开启一个新对话继续思考吧 至于具体解释,得看这几个参数,DeepSeek R1 的 上下文长度 为64K,意味着一轮对话最多能包含64K的token。
- DeepSeek - 知乎
DeepSeek-V3 R1 推理系统的优化目标是:更大的吞吐,更低的延迟。 为了实现这两个目标,我们的方案是使用大规模跨节点专家并行(Expert Parallelism EP)。
- DeepSeek深度思考和联网搜索有什么区别? - 知乎
DeepSeek为大家提供了:深度思考R1和联网搜索,两个功能强悍的按钮,但,在和知乎网友的交流过程中,我发现有很多人,不知道这两个强悍的工具如何搭配使用。今天就好好聊聊这个问题。 深度思考模式详解 深度思考模式就像是一个“超级大脑”,当你遇到复杂问题时,它会帮你仔细分析、多角度
- Deekseek r1本地部署,14b和32b最小需要多大显存吗? - 知乎
首先是DeepSeek R1 7B模型,在Q4量化条件下这个模型对内存和显存的占用比较低,可以看到独显的性能还是明显优于核显的,RTX4060TI和RTX4060的推理速度都是780M核显的2-3倍。 核显在内存超频后可以得到12 66%的速度提升,但是还是远远落后于独显。
- 为什么用 DeepSeek 总是提示「服务器繁忙」?怎么解决? - 知乎
为什么用 DeepSeek 总是提示「服务器繁忙」? 怎么解决? 最近使用deepseek时,不知道是不是问问题的方式不对还是服务器不稳定原因,很多问题半天也没有一个回答。 所以deepseek到底该怎么与其交流呢? 显示全部 关注者 667 被浏览
|
|
|