我们介绍了 DeepSeek-V2,这是一种强大的专家混合 (MoE) 语言模型,其特点是经济的训练和高效的推理。它包含 236B 个总参数,其中 21B 为每个令牌激活,并支持 128K 个令牌的上下文长度。DeepSeek-V2 采用多头潜在注意力 (MLA) 和 DeepSeekMoE 等创新架构。MLA 通过将键值 (KV) 缓存显着压缩为潜在向量来保证高效推理,而 DeepSeekMoE 则通过稀疏计算以经济的成本训练强大的模型。与DeepSeek 67B相比,DeepSeek-V2性能明显增强,同时节省了42.5%的训练成本,降低了93.3%的KV缓存,最大生成吞吐量提升至5.76倍。我们在由 8.1T 代币组成的高质量多源语料库上预训练 DeepSeek-V2,并进一步执行监督微调 (SFT) 和强化学习 (RL) 以充分释放其潜力。评估结果表明,即使仅激活了21B参数,DeepSeek-V2及其聊天版本仍能在开源模型中实现顶级性能。模型检查点可在 https://github.com/deepseek-ai/DeepSeek-V2 处使用。
评估基准
DeepSeek-V2 is pretrained on a bilingual corpus, so we evaluate it on a series of benchmarks in English and Chinese. Our evaluation is based on our internal evaluation framework integrated in our HAI-LLM framework. Included benchmarks are categorized and listed as follows, where underlined benchmarks are in Chinese:DeepSeek-V2 是在双语语料库上预先训练的,因此我们在一系列英文和中文基准测试中对其进行了评估。我们的评估基于集成在HAILLM框架中的内部评估框架。所包含的基准标准分类如下,其中带下划线的基准为中文基准:
Multi-subject multiple-choice datasets include MMLU (Hendrycks et al., 2020), C-Eval (Huang et al., 2023), and CMMLU (Li et al., 2023).多主题多项选择数据集包括 MMLU(Hendrycks 等人,2020 年)、C-Eval (Huang 等人,2023 年)和 CMMLU(Li 等人,2023 年)。
Language understanding and reasoning datasets include HellaSwag (Zellers et al., 2019), PIQA (Bisk et al., 2020), ARC (Clark et al., 2018), and BigBench Hard (BBH) (Suzgun et al., 2022).语言理解和推理数据集包括 HellaSwag (Zellers et al., 2019)、PIQA (Bisk et al., 2020)、ARC (Clark et al., 2018) 和 BigBench Hard (BBH) (Suzgun et al., 2022)。
Closed-book question answering datasets include TriviaQA (Joshi et al., 2017) and NaturalQuestions (Kwiatkowski et al., 2019).闭卷问答数据集包括 TriviaQA (Joshi et al., 2017) 和 NaturalQuestions (Kwiatkowski et al., 2019)。
Reading comprehension datasets include RACE Lai et al. (2017), DROP (Dua et al., 2019), C3 (Sun et al., 2019), and CMRC (Cui et al., 2019).阅读理解数据集包括 RACE Lai et al. (2017)、DROP (Dua et al., 2019)、C3 (Sun et al., 2019) 和 CMRC (Cui et al., 2019)。
Reference disambiguation datasets include WinoGrande Sakaguchi et al. (2019) and CLUEWSC (Xu et al., 2020).参考消歧数据集包括 WinoGrande Sakaguchi et al. (2019) 和 CLUEWSC (Xu et al., 2020)。
Language modeling datasets include Pile (Gao et al., 2020).语言建模数据集包括 Pile (Gao et al., 2020)。
Chinese understanding and culture datasets include CHID (Zheng et al., 2019) and CCPM (Li et al., 2021).中国的理解和文化数据集包括 CHID (Zheng et al., 2019) 和 CCPM (Li et al., 2021)。
Math datasets include GSM8K (Cobbe et al., 2021), MATH (Hendrycks et al., 2021), and CMath (Wei et al., 2023).数学数据集包括 GSM8K(Cobbe 等人,2021 年)、数学(Hendrycks 等人,2021 年)和 CMath(Wei 等人,2023 年)。
Code datasets include HumanEval (Chen et al., 2021), MBPP (Austin et al., 2021), and CRUXEval (Gu et al., 2024).代码数据集包括 HumanEval (Chen et al., 2021)、MBPP (Austin et al., 2021) 和 CRUXEval (Gu et al., 2024)。
Standardized exams include AGIEval (Zhong et al., 2023). Note that AGIEval includes both English and Chinese subsets.标准化考试包括 AGIEval(Zhong 等人,2023 年)。请注意,AGIEval 包括英文和中文子集。
Following our previous work (DeepSeek-AI, 2024), we adopt perplexity-based evaluation for datasets including HellaSwag, PIQA, WinoGrande, RACE-Middle, RACE-High, MMLU, ARC-Easy, ARC-Challenge, CHID, C-Eval, CMMLU, C3, and CCPM, and adopt generation-based evaluation for TriviaQA, NaturalQuestions, DROP, MATH, GSM8K, HumanEval, MBPP, CRUXEval, BBH, AGIEval, CLUEWSC, CMRC, and CMath. In addition, we perform language-modeling-based evaluation for Pile-test and use Bits-Per-Byte (BPB) as the metric to guarantee fair comparison among models with different tokenizers.根据我们之前的工作(DeepSeek-AI,2024),我们对包括 HellaSwag、PIQA、WinoGrande、RACE-Middle、RACE-High、MMLU、ARC-Easy、ARC-Challenge、CHID、C-Eval、CMMLU、C3 和 CCPM 在内的数据集采用基于困惑的评估,并对 TriviaQA、NaturalQuestions、DROP、MATH、GSM8K、HumanEval、MBPP、CRUXEval、BBH、AGIEval、CLUEWSC、CMRC 和 CMath 采用基于生成的评估。此外,我们还对Pile-test进行基于语言建模的评估,并使用BPB(Bits-Per-Byte)作为指标,以保证不同分词器模型之间的公平比较。