DeepSeek — 探索智能的无限可能

模型矩阵

覆盖从轻量端侧到旗舰级推理的全场景模型家族

🧠

DeepSeek-V4 Pro

旗舰模型

最新一代通用大语言模型，基于革新性 MoE 架构，在推理、编程、数学与多模态理解上达到顶尖水平。

685B MoE 128K 上下文多模态 2025.04

⚡

DeepSeek-R1

推理专精

专为复杂推理任务设计的模型，通过强化学习驱动的思维链推理，在数学竞赛和编程挑战中表现卓越。

长思维链 CoT 推理 RL 训练 2025.01

💎

DeepSeek-V3

高效旗舰

采用 Multi-Token Prediction 等创新技术，在保持顶尖性能的同时大幅降低推理成本，重新定义了性价比标准。

671B MoE MTP FP8 训练 2024.12

🪶

DeepSeek-MoE

轻量系列

面向端侧部署的高效模型，通过细粒度 MoE 架构在有限算力下仍能提供出色的语言理解和生成能力。

16B 端侧可部署开源 2024

👁️

DeepSeek-VL2

多模态

视觉语言模型系列，在文档理解、图表解析和视觉推理等任务上表现出色，支持动态分辨率输入。

动态分辨率多尺寸开源 2024.12

🎵

DeepSeek-Coder

代码专精

专注代码生成与理解的编程模型，在 HumanEval、MBPP 等基准上名列前茅，支持 338 种编程语言。

338 语言 FIM 补全开源 2024

技术创新

持续推动大语言模型技术边界的核心突破

🔀

混合专家架构 (MoE)

创新的细粒度 MoE 架构，单次推理仅激活部分参数，实现算力与性能的最优平衡。支持动态路由，让每个 token 找到最合适的专家网络。

🔗

多头潜在注意力 (MLA)

自研注意力机制，通过低秩键值压缩大幅降低推理时的 KV 缓存开销，在长序列场景中内存占用和吞吐量显著优于传统 MHA。

🎯

多 Token 预测 (MTP)

突破传统单 token 预测范式，一次前向传播同时预测多个未来 token，显著提升训练效率和生成质量。

🔬

强化学习推理

基于 GRPO 算法的大规模强化学习训练，让模型自主涌现出思维链推理能力，无需人工标注中间步骤。

📊

FP8 混合精度训练

在超大规模训练中率先验证 FP8 精度可行性，在保持模型质量的同时大幅降低训练算力需求和能源消耗。

🌍

开源与生态

全系列模型采用 MIT 许可开源发布，提供完整的权重、代码和技术报告，推动全球 AI 社区的协同创新。

性能基准

在权威评测中与国际顶尖模型的对标表现

基准测试	任务类型	DeepSeek-V4
MMLU	综合知识	91.2
HumanEval	代码生成	93.4
MATH-500	数学推理	96.8
GPQA Diamond	研究生级 QA	73.1
LiveCodeBench	编程竞赛	67.9
SWE-bench	软件工程	54.2

我们的理念

驱动 DeepSeek 不断前行的核心价值观

🔓

全面开放

坚信开放科学是 AGI 的正确路径，所有模型权重、训练细节和技术报告面向全球社区公开。

⚡

极致效率

以算法创新替代算力堆砌，通过架构设计实现数倍的训练和推理效率提升，让尖端 AI 触手可及。

🌱

长期主义

专注 AGI 长期目标而非短期商业利益，持续投入基础研究，探索智能的本质与边界。

探索智能的
无限可能

模型矩阵

DeepSeek-V4 Pro

DeepSeek-R1

DeepSeek-V3

DeepSeek-MoE

DeepSeek-VL2

DeepSeek-Coder

技术创新

混合专家架构 (MoE)

多头潜在注意力 (MLA)

多 Token 预测 (MTP)

强化学习推理

FP8 混合精度训练

开源与生态

性能基准

我们的理念

全面开放

极致效率

长期主义

准备好探索
智能的下一站了吗？

探索智能的无限可能

模型矩阵

DeepSeek-V4 Pro

DeepSeek-R1

DeepSeek-V3

DeepSeek-MoE

DeepSeek-VL2

DeepSeek-Coder

技术创新

混合专家架构 (MoE)

多头潜在注意力 (MLA)

多 Token 预测 (MTP)

强化学习推理

FP8 混合精度训练

开源与生态

性能基准

我们的理念

全面开放

极致效率

长期主义

准备好探索智能的下一站了吗？

探索智能的
无限可能

准备好探索
智能的下一站了吗？