研究背景

LLM通常是在过滤后的Web数据和精选的高质量语料库(社交媒体对话、书籍或技术论文)进行训练,而这些高质量数据集是有限的,每个来源都需要人工处理,产生的数据量有限。而且训练时获得许可也是个挑战。(比如,Google就不能拿YouTube的数据来训练,即使大家都在用这些数据,即使Google很早就收购了YouTube。)

根据Scaling Law,数据集越大,模型性能越好。大规模网络爬虫能获取大量的数据,但是传统认为,这些数据质量被认为远不如手动整理的数据源,即使网络数据源也接受过精细处理。

这篇论文就是为了在对数据需求越来越大的背景下,简化数据Pipelines,探索如何更好地处理Web数据来显著提高质量,并且让模型性能在精选语料数据集一样,甚至更强大。

Insights

  1. 研究团队引入了RefinedWeb,一个高质量的5万亿tokens的纯Web英语预训练数据集;
  2. 并且证明了,仅Web数据就可以使模型性能优于公共和私人策划的语料库,正如零样本基准所捕获的哪有,向西当前关于数据质量的观点发起了挑战;
  3. 研究团队公开发布了从RefinedWeb里提取的600B tokens,和在其上训练的1/7B参数的LLMs,作为NLP社区的高质量Web数据集新基线。

现阶段的Web数据Pipelines

现在的海量网络数据是建立在CommonCrawl上,这个公开可用的互联网抓取已经运行了12年,并收集了PB级的数据。难点是在于数据处理,因为很大一部分是低质量的机器生成的垃圾邮件或有毒内容(特别是现在,AI生成的内容大量充斥在网络上,属于是垃圾),这些对模型性能的是不良影响。 现阶段的pipelines专注于过滤这些不需要的内容。 广义上讲,主要包含:语言识别、过滤规则和启发式方法、基于ML的质量过滤、重复数据删除。 但是过渡的过滤可能会在模型中引入不良偏差,这导致对少数群体产生过度影响。这就促使采用了伪抓取等做法,比如url手动设置。

重复数据删除

这里是指从数据集中删除重复的数据提取和文档,这些数据提取和文档可以是完全匹配的,每个字符都相同,也可以是基于某些相似性指标的近似匹配。 而且重复数据删除这个工作已经被证明对模型质量的危害越来越大。

三种方式扩展数据集

  1. 聚合和组合跨多个pipeline进行文档准备和过滤最佳实践,并且引入了逐行校正;
  2. 在大规模的数据集上结合了精确和模糊重复数据删除;
  3. 最终数据集规模是5000B tokens,和600B开放使用;

新的Web数据Pipelines——MDR管道

MDR(MacroData Refinement),用于大规模过滤和删除来自CommonCrawl的Web数据pipelines,利用严格的过滤和严格的重复数据删除来提升Web数据的质量,将其提炼成用于训练最先进的聚合语料库质量相匹配的语料库。 主要的设计原则是:先扩展,后严格的重复数据删除,再中性过滤(避免在语言识别之外使用基于ML的过滤,坚持简单的规则和启发式方法,仅对成人内容使用URL过滤)。

(完整的数据管道) 文档准备:主要包括读取数据、过滤URL、提取文本、语言识别 过滤: 逐文档和逐行 重复数据删除:模糊重复数据删除、精确重复数据删除和URL重复数据删除。 ![[Pasted image 20240620112254.png]] 从上述数据看到,后续阶段都删除了最中近90%的文档,但过滤和重复数据都会导致可用数据减半。

其余部分