|
- 如何评价 DeepSeek 的 DeepSeek-V3 模型? - 知乎
尽管DeepSeek-V3展示了per-tile和per-group量化对于模型收敛的重要性,论文中并没有给出对应的FP8矩阵乘法的算子效率。 另外,论文中缺乏per-token加per-channel量化的讨论,不清楚这种实现上更加友好的量化方法对于训练稳定性的影响会有多大。
- 普通人怎样用好Deepseek? - 知乎
拜托拜托: 经过长时间大量训练+日常上千次使用,总结出下面这套 《Deepseek最强使用法》,相信也是 目前知乎平台最全+最前沿的Deepseek玩法攻略,耐心看下去,帮你彻底打破信息差,实现弯道超车!点赞收藏就是对我个人的最大支持了! 一 先讲一下Deepseek纯血版、阉割版的概念,普通人用哪个更
- 有必要自己将deepseek部署到本地吗? - 知乎
所以我认为,deepseek部署有可行性就够了,至于有没有必要性,很多人没那么重要。 大家听到openai训练ai需要几千亿美元,让ai推理需要十块H100 (一块280万人民币),部署满血deepseekR1需要几十几百万,可能吓到了。
- 为什么用 DeepSeek 总是提示「服务器繁忙」?怎么解决?
直接在公开课上分享DeepSeek本地部署方法,以及10大使用技巧,包括deepseek做可视化图表、PS脚本、PPT、市场调研报告等。 某宝有人靠卖这些资料,都能赚一波,其实官方的各种公开课全都送的。
- 如何评价2025年8月19日DeepSeek新发布的V3. 1模型?性能 . . .
这次,DeepSeek-V 3 1 使用了 UE8M0 FP8 Scale 的参数精度,而UE8M0 FP8 是专门针对即将发布的下一代国产芯片设计。 好家伙,所以,在外面模型一顿厮杀的时候,DeepSeek 迟迟不发布的原因,可能是做国产芯片的适配?
- 求问deepseek出现这种情况怎么办啊? ? - 知乎
DeepSeek 不是告诉你原因和解法了嘛。 原因:当前对话已超出深度思考的最大长度限制 解法:开启一个新对话继续思考吧 至于具体解释,得看这几个参数,DeepSeek R1 的 上下文长度 为64K,意味着一轮对话最多能包含64K的token。
- DeepSeek深度思考和联网搜索有什么区别? - 知乎
DeepSeek为大家提供了:深度思考R1和联网搜索,两个功能强悍的按钮,但,在和知乎网友的交流过程中,我发现有很多人,不知道这两个强悍的工具如何搭配使用。 今天就好好聊聊这个问题。 深度思考模式详解
- 都说接入的DeepSeek是满血版,为什么感觉还是官方的好用?
都说接入的DeepSeek是满血版,为什么感觉还是官方的好用? 接入DeepSeek的腾讯元宝,纳米,秘塔都说是满血版,但是同一个问题,我感觉解答总是不如官网细致合理,上下文联系也差点意思,就像少了点灵动,请问这是… 显示全部 关注者 409
|
|
|