通过指令调整来增强开源LLM,并对性能进行评估。目标是用定量分析来补充评估。

当前指令遵循LLM(instructtion-following LLM)存在局限性:生成的结果缺乏可信度、使用的模型缺乏透明度,会引起对数据安全的担忧,以及未知的训练配方,无法为特定的需求定制模型。

为什么不知道recipe会给调整模型带来挑战

PandaLLM是第一个面向海外受众的开源中文指令LLM,也是Dandelion Project的第一版LLM,在 Chinese-Wiki-2019、Chinese-News-2016、Chinese-Baike-2018、Chinese-Webtext-2019 和 Translation-2019 Xu (2019) 和 COIG 数据集 Zhang et al. ( 2023) 和 Wei et al. ( 2021) 上进行了训练,并基于 LLaMA 模型 Touvron et al. ( 2023) 进行了指令调优。

PandaLLM的贡献有三方面:

  1. 采用了2-stage训练方法,产生的结果超越了以前所有相同参数的开源中文LLM
  2. 对各个开源的中文LLM进行了评估
  3. 提供了一系列LLM和相应的源码,目的是促进AI的民主化

如何训练一个PandaLLM

强大的Pre-trained LM + 高质量的instruction-following Dataset = 高质量的 instruction-following LLM

2步,一个是强大的预训练模型,一个是高质量的instruction-following数据集。

PandaLLM是选用了各种LLaMA,配上6个开源中文数据集

Untitled

Untitled

Untitled