Task04-大模型的数据

✍内容

这一章主要讲了大模型的数据，作为大模型的起点我们要了解大型语言模型是在什么样的数据上进行训练的。首先文章介绍了大语言模型背后的数据其中包括WebText和OpenWebText数据集以及它们两个的发展历程，接着介绍了爬虫语料库C4，后面接着介绍了5Benchmark的数据污染问题以及两数据集GPT-3的数据集还有The Pile数据集，在最后文章还介绍了数据集文档和数据生态的相关知识。

🖊总结

1.网络数据中存在哪些问题?

大规模数据在全球人口中的代表性仍然不均衡。
网络数据过多地代表了来自发达国家的年轻用户。
GPT-2的训练数据基于Reddit，根据皮尤互联网研究的2016年调查，美国Reddit用户中有67%是男性，64%的年龄在18到29岁之间。
维基百科的编者中只有8.8-15%是女性。
网络上的骚扰可能会让某些人群（如跨性别者、神经发育不同的人）产生排斥感。
过滤"不良词汇"可能进一步边缘化某些人群（如LGBT+）。因此，我们的结论是：理解和记录用于训练大型语言模型的数据集的组成是至关重要的。

2.关于C4语料库的数据信息?

元数据：来源，话语数据。
包含的数据：由机器或人类创作的，社会偏见，数据污染。
排除的数据：医疗或健康数据，人口身份。

3.Benchmark的数据污染问题有哪些?

数据集创建过程中的问题：在从网络数据中过滤得到数据集的过程中，可能会出现数据分配损害，导致数据集的质量下降。例如，由于“不良词汇”过滤的存在，涉及边缘人群的数据更大概率上被过滤掉，特定的方言也更容易被过滤掉。
数据集的清洁度问题：在大模型测试中，由于训练数据和基准数据都源自互联网，很难保证它们的完全清洁，即没有数据污染。基准数据的性能可能会因为基准数据在模型的训练数据中出现过而产生偏差。
数据泄露问题：研究人员发现，数据污染问题并不是由于数据集托管在云端导致的，这表明数据泄露的问题并不存在。
数据偏见问题：如果基准数据在模型的训练数据中出现过，这可能导致模型对基准数据的偏差，因为模型在训练过程中已经见过这些数据。这种偏差可能会影响模型在真实场景中的表现。
数据泛化能力问题：如果模型在训练数据中过度拟合，它可能无法泛化到新的、未见过的数据。这可能会导致模型在新场景中的性能下降。

4.数据文档的主要目的?

它让数据集的创建者有机会反思他们的决策，以及在创建数据集过程中可能产生的潜在危害，比如社会偏见
它让数据集的使用者了解何时可以使用数据集，何时不应使用数据集。

5.在整个数据集的生命周期中要考虑的问题有哪些?

数据集的创建动机，谁是数据集的创建者，数据集的创建是由谁资助的。
数据集的组成部分，需要了解数据集中的实例代表什么，是否有缺失信息，是否包含机密数据等。
收集过程中，需要了解每个实例的数据是如何获取的，谁参与了数据收集，他们是如何获得报酬的，以及是否进行了道德审查等。
预处理、清理和标记阶段，需要了解这些工作是否已经完成，是否有相应的软件可供使用。
数据集的使用方面，需要了解数据集是否已经被用于某些任务，是否有不适合使用该数据集的任务。
分发阶段，需要了解数据集将如何分发，是否有第三方对数据施加了知识产权或其他的限制。
维护阶段，需要了解谁会负责维护数据集，数据集是否会更新。
专门针对自然语言处理（NLP）数据集的工作，比如数据声明，还涵盖了其他方面，例如策划理念，语言多样性，说话人和注释者的人口统计学信息等

6.数据尊严是什么?

数据尊严强调个人对自己数据的控制和管理，以确保数据的安全性、私密性，并保护其免受滥用或未经授权的访问。这一概念的核心是个人对自己数据的所有权和控制权，类似于人权中的尊严概念。