最新发布:DeepSeek-V4 Pro

探索智能的
无限可能

DeepSeek 致力于打造通用人工智能的前沿模型,以开放的姿态推动 AI 技术的民主化进程。

开始使用 查看文档 →
Scroll
128K
最大上下文窗口
685B
MoE 总参数量
37B
每 Token 激活参数
100+
支持语言

模型矩阵

覆盖从轻量端侧到旗舰级推理的全场景模型家族

🧠

DeepSeek-V4 Pro

旗舰模型

最新一代通用大语言模型,基于革新性 MoE 架构,在推理、编程、数学与多模态理解上达到顶尖水平。

685B MoE 128K 上下文 多模态 2025.04

DeepSeek-R1

推理专精

专为复杂推理任务设计的模型,通过强化学习驱动的思维链推理,在数学竞赛和编程挑战中表现卓越。

长思维链 CoT 推理 RL 训练 2025.01
💎

DeepSeek-V3

高效旗舰

采用 Multi-Token Prediction 等创新技术,在保持顶尖性能的同时大幅降低推理成本,重新定义了性价比标准。

671B MoE MTP FP8 训练 2024.12
🪶

DeepSeek-MoE

轻量系列

面向端侧部署的高效模型,通过细粒度 MoE 架构在有限算力下仍能提供出色的语言理解和生成能力。

16B 端侧可部署 开源 2024
👁️

DeepSeek-VL2

多模态

视觉语言模型系列,在文档理解、图表解析和视觉推理等任务上表现出色,支持动态分辨率输入。

动态分辨率 多尺寸 开源 2024.12
🎵

DeepSeek-Coder

代码专精

专注代码生成与理解的编程模型,在 HumanEval、MBPP 等基准上名列前茅,支持 338 种编程语言。

338 语言 FIM 补全 开源 2024

技术创新

持续推动大语言模型技术边界的核心突破

🔀

混合专家架构 (MoE)

创新的细粒度 MoE 架构,单次推理仅激活部分参数,实现算力与性能的最优平衡。支持动态路由,让每个 token 找到最合适的专家网络。

🔗

多头潜在注意力 (MLA)

自研注意力机制,通过低秩键值压缩大幅降低推理时的 KV 缓存开销,在长序列场景中内存占用和吞吐量显著优于传统 MHA。

🎯

多 Token 预测 (MTP)

突破传统单 token 预测范式,一次前向传播同时预测多个未来 token,显著提升训练效率和生成质量。

🔬

强化学习推理

基于 GRPO 算法的大规模强化学习训练,让模型自主涌现出思维链推理能力,无需人工标注中间步骤。

📊

FP8 混合精度训练

在超大规模训练中率先验证 FP8 精度可行性,在保持模型质量的同时大幅降低训练算力需求和能源消耗。

🌍

开源与生态

全系列模型采用 MIT 许可开源发布,提供完整的权重、代码和技术报告,推动全球 AI 社区的协同创新。

性能基准

在权威评测中与国际顶尖模型的对标表现

基准测试任务类型DeepSeek-V4对比
MMLU综合知识91.2
HumanEval代码生成93.4
MATH-500数学推理96.8
GPQA Diamond研究生级 QA73.1
LiveCodeBench编程竞赛67.9
SWE-bench软件工程54.2

我们的理念

驱动 DeepSeek 不断前行的核心价值观

🔓

全面开放

坚信开放科学是 AGI 的正确路径,所有模型权重、训练细节和技术报告面向全球社区公开。

极致效率

以算法创新替代算力堆砌,通过架构设计实现数倍的训练和推理效率提升,让尖端 AI 触手可及。

🌱

长期主义

专注 AGI 长期目标而非短期商业利益,持续投入基础研究,探索智能的本质与边界。

准备好探索
智能的下一站了吗?

访问 DeepSeek 官网开始使用我们最新的模型服务。

立即开始 →