成本有限创建一个高质量的instruction-following中文LLM,
有两个关键组成部分:
强大的Pre-trained 语言模型
高质量的instruction-following数据集。
但如何去评估,怎么样的LM是强大的,怎么样的数据集是高质量的?