成本有限创建一个高质量的instruction-following中文LLM,

有两个关键组成部分:

  1. 强大的Pre-trained 语言模型

  2. 高质量的instruction-following数据集。

但如何去评估,怎么样的LM是强大的,怎么样的数据集是高质量的?