|
- GitHub - deepseek-ai DeepSeek-V3
We introduce an innovative methodology to distill reasoning capabilities from the long-Chain-of-Thought (CoT) model, specifically from one of the DeepSeek R1 series models, into standard LLMs, particularly DeepSeek-V3
- DeepSeek V3的架构和代码 - 知乎
上面是 DeepSeek V3 技术架构图。 上面的架构图中核心主要是MLA和MoE,对着代码可以看的更清楚一些。
- DeepSeek V3 源码:从入门到放弃! - CSDN博客
花了几天时间,看懂了DeepSeek V3 源码 的逻辑。 源码的逻辑是不难的,但为什么模型结构需要这样设计,为什么参数需要这样设置呢?
- DeepSeek-V3. 2 · Models
DeepSeek-V3 2: Efficient Reasoning Agentic AI Technical Report 👁️ Introduction We introduce DeepSeek-V3 2, a model that harmonizes high computational efficiency with superior reasoning and agent performance Our approach is built upon three key technical breakthroughs:
- DeepSeek-V3本地部署全攻略:开源源码与模型实战指南
本文深度解析DeepSeek-V3推理开源源码与模型本地部署方案,涵盖环境配置、性能优化及典型应用场景,助力开发者与企业实现AI能力自主可控。
- DeepSeek | 深度求索
基于自研训练框架、自建智算集群和万卡算力等资源,深度求索团队仅用半年时间便已发布并开源多个百亿级参数大模型,如DeepSeek-LLM通用大语言模型、DeepSeek-Coder代码大模型,并在2024年1月率先开源国内首个MoE大模型(DeepSeek-MoE),各大模型在公开评测榜单及真实样本外的泛化效果均有超越同级别模型的出色表现。 和 DeepSeek AI 对话,轻松接入 API。
- DeepSeek V3. 2 API - 万码云开发平台
DeepSeek-V3 2 是一款大型语言模型,致力于实现高计算效率与强大的推理及智能体工具使用性能的平衡。它引入了深度求索稀疏注意力(DSA)机制,这是一种细粒度的稀疏注意力架构,可在保证长上下文处理质量的同时显著降低训练与推理成本。DeepSeek V3 2 同样采用大规模智能体任务合成训练流程
- deepseek-ai DeepSeek-V3: DeepSeek-V3 是一个强大的 . . .
We introduce an innovative methodology to distill reasoning capabilities from the long-Chain-of-Thought (CoT) model, specifically from one of the DeepSeek R1 series models, into standard LLMs, particularly DeepSeek-V3
|
|
|