训练??智能语?模型的数据或在???六年耗尽？

时间：2024-04-23

大型语言模型是目前人工智能研究中最热门的领域之一，各公司竞相发布GPT-3一类的模型，他们可以写出令人印象深刻的连贯文章，甚至是计算机代码。

但根据一个人工智能预测团队的说法，一个严峻的问题即将出现：我们未来可能没有足够的数据来训练他们。

大型语言模型是使用维基百科、新闻文章、科学论文和书籍等文本内容进行训练的。

近年来，相关研究的趋势是利用越来越多的数据来训练这些模型，以期望它们更准确、更通用。

问题是，最适合用于训练语言模型的数据类型可能在不久的将来耗尽。人工智能研究和预测组织Epoch在一篇未经同行评审的论文中指出，数据耗尽最早可能出现于2026年。

这个问题源于这样一个事实，即随着研究人员建立更强大、能力更多样的模型，他们必须找到更多的文本来训练他们。

“大型语言模型研究人员越来越担心他们会耗尽这类数据”人工智能公司HuggingFace的研究员泰文·斯考表示。他没有参与Epoch的工作。

另一个可能导致问题的事实是，语言人工智能研究人员将他们用于训练模型的数据分为两类：高质量和低质量。

但论文的第一作者，Epoch研究员巴勃罗·维拉洛博斯指出，这两种类型之间的界限是十分模糊的。

高质量的文本内容通常是由专业作家撰写的，因此被认为写得更好。而被归为低质量的数据包括社交媒体上的帖子或4chan等网站上的评论，这些低质量文本的数量远远超过了那些被认为是高质量的数据。

研究人员通常只使用高质量的数据来训练模型，因为这是他们希望模型学習和效仿的语言类型。

这种方法已经在GPT-3之类的大型语言模型上实现了一些令人印象深刻的成果。

据南加州大学专门研究数据集质量的教授斯瓦巴·斯瓦扬迪普塔表示，克服这些数据限制的一种方法是重新评估何为“高质量”文本，何为“低质量”文本。

斯瓦扬迪普塔认为，如果数据短缺迫使人工智能研究人员将更多样化的数据集纳入到训练过程中，这对语言模型而言是一个“积极因素”。

研究人员还可以努力找到延长语言模型训练数据的使用寿命的方法。目前，由于性能和成本的限制，这些模型只在相同的数据上训练一次。

但斯瓦扬迪普塔表示，使用相同的数据多次训练一个模型也可能是可行的。

一些研究人员认为，对于语言模型来说，更大可能并不意味着更好。斯坦福大学的计算机科学教授珀西·梁说，有证据表明，提高模型的效率可以提高他们的能力，而不仅仅是增加他们的规模。

他解释说：“我们已经看到，在高质量数据上训练的小模型，其性能足以超过在低质量数据上训练的大模型。”

我们致力于保护作者版权，注重分享，被刊用文章因无法核实真实出处，未能及时与作者取得联系，或有版权异议的，请联系管理员，我们会立即处理! 部分文章是来自各大过期杂志,内容仅供学习参考,不准确地方联系删除处理!