DeepSeek 致力于打造通用人工智能的前沿模型,以开放的姿态推动 AI 技术的民主化进程。
覆盖从轻量端侧到旗舰级推理的全场景模型家族
最新一代通用大语言模型,基于革新性 MoE 架构,在推理、编程、数学与多模态理解上达到顶尖水平。
专为复杂推理任务设计的模型,通过强化学习驱动的思维链推理,在数学竞赛和编程挑战中表现卓越。
采用 Multi-Token Prediction 等创新技术,在保持顶尖性能的同时大幅降低推理成本,重新定义了性价比标准。
面向端侧部署的高效模型,通过细粒度 MoE 架构在有限算力下仍能提供出色的语言理解和生成能力。
视觉语言模型系列,在文档理解、图表解析和视觉推理等任务上表现出色,支持动态分辨率输入。
专注代码生成与理解的编程模型,在 HumanEval、MBPP 等基准上名列前茅,支持 338 种编程语言。
持续推动大语言模型技术边界的核心突破
创新的细粒度 MoE 架构,单次推理仅激活部分参数,实现算力与性能的最优平衡。支持动态路由,让每个 token 找到最合适的专家网络。
自研注意力机制,通过低秩键值压缩大幅降低推理时的 KV 缓存开销,在长序列场景中内存占用和吞吐量显著优于传统 MHA。
突破传统单 token 预测范式,一次前向传播同时预测多个未来 token,显著提升训练效率和生成质量。
基于 GRPO 算法的大规模强化学习训练,让模型自主涌现出思维链推理能力,无需人工标注中间步骤。
在超大规模训练中率先验证 FP8 精度可行性,在保持模型质量的同时大幅降低训练算力需求和能源消耗。
全系列模型采用 MIT 许可开源发布,提供完整的权重、代码和技术报告,推动全球 AI 社区的协同创新。
在权威评测中与国际顶尖模型的对标表现
| 基准测试 | 任务类型 | DeepSeek-V4 | 对比 |
|---|---|---|---|
| MMLU | 综合知识 | 91.2 | |
| HumanEval | 代码生成 | 93.4 | |
| MATH-500 | 数学推理 | 96.8 | |
| GPQA Diamond | 研究生级 QA | 73.1 | |
| LiveCodeBench | 编程竞赛 | 67.9 | |
| SWE-bench | 软件工程 | 54.2 |
驱动 DeepSeek 不断前行的核心价值观
坚信开放科学是 AGI 的正确路径,所有模型权重、训练细节和技术报告面向全球社区公开。
以算法创新替代算力堆砌,通过架构设计实现数倍的训练和推理效率提升,让尖端 AI 触手可及。
专注 AGI 长期目标而非短期商业利益,持续投入基础研究,探索智能的本质与边界。