• 周一. 6 月 17th, 2024

深度学习读论文GPT-3Language Models are Few-Shot

admin

11 月 19, 2023 #科技

hello,大家好,欢迎来到我的频道,最近主要还是读论文,通过读论文,紧跟学术界的发展趋势和研究热点,并且能够通过论文的描述观察作者的研究思路和方法。如果你恰巧也对该领域比较感兴趣,那么希望该文对你能够产生一些帮助。喜欢的点个关注,持续更新。

今天读的论文是大名鼎鼎的GPT3,我相信你们很多人都用过,能够感受到“她”强大的语言能力,特别是向“她”请教问题,“她”所展现出来的超强的能力,甚至毫不夸张的说,“她”的回答比一般人类的回答要强很多,甚至在编程方面也具有超强的编码能力。

我们总是感叹,为什么我们做不出来ChatGPT,我主观想来是我们不愿意探究真理,只愿意侃侃而谈表面现象,甚至新事物一出来,就说是风口,跟风操作。真正潜心做研究的人得不到尊重和保护,我想如果没有合适的土壤,怎么能结出令人惊叹的果实。

闲话少说,下面我们开始论文的上半部分的翻译。

表2.2:用于训练GPT-3的数据集。“训练组合中的权重”是指在训练期间从给定数据集中抽取的示例的分数。

表2.2显示了我们在训练中使用的数据集的最终组合。CommonCrawl数据是从覆盖2016年至2019年的41个月度CommonCrawl碎片中下载的,过滤前压缩的纯文本为45TB,过滤后为570GB,相当于4000亿个字节对编码的令牌。请注意,在训练过程中,数据集不是按照它们的大小进行采样,而是我们认为质量较高的数据集被更频繁地采样,这样CommonCrawl和Books2数据集在训练过程中被采样的次数少于一次,但其他数据集被采样2-3次。这实际上是以较高质量的训练数据为代价,接受了少量的过拟合。

图2.2:训练过程中使用的总计算量。我们使用比通常更少的标记训练了更大的模型。

当使用大量互联网数据进行预训练的语言模型时,尤其是具有记忆大量内容能力的大型模型,一个主要的方关注点是下游任务可能受到污染,因为它们的测试或开发数据集在预训练过程中无意中被查看。为了减少这种污染,我们搜索并尝试移除与本文研究的所有基准测试的开发和测试数据集的重叠部分。不幸的是,过滤器中的一个错误导致我们忽略了一些重叠,由于训练成本,重新训练模型是不可行的。在第4节中,我们描述了剩余重叠的影响,而在未来的工作中,我们将更积极地消除数据污染。

3.3、训练过程正如[KMH 20, MKAT18]中发现的,较大的模型通常可以使用较大的批量大小,但需要较小的学习率。我们在训练过程中测量梯度噪声规模,并用它来指导我们选择批量大小[MKAT18]。表2.1显示了我们使用的参数设置。为了在不耗尽内存的情况下训练较大的模型,我们在每个矩阵相乘中使用一种模型并行技术,并在网络的各层之间使用模型并行技术。所有模型都在Microsoft提供的高带宽集群的一部分上的V100 GPU上进行训练。训练过程和超参数设置的详细信息请参见附录B。

3.4、评估对于“少样本”学习,我们通过从该任务的训练集中随机抽取K个样本作为条件来评估评估集中的每个样本,根据任务的不同,用1或2个换行符分隔。对于LAMBADA和Storycloze,没有可用的监督训练集,所以我们从开发集中抽取条件样本并在测试集上进行评估。对于Winograd(原始版,而非SuperGLUE版本),只有一个数据集,所以我们直接从其中抽取条件样本。

K可以是从0到模型上下文窗口允许的最大值,对于所有模型,nctx = 2048,通常可以容纳10到100个样本。K的较大值通常(但不总是)更好,所以当有单独的开发集和测试集时,我们在开发集上尝试几个K值,然后在测试集上运行最佳值。对于某些任务(参见附录G),我们还使用自然语言提示,作为演示的补充(或者对于K = 0,作为替代)。

对于涉及从多个选项中选择一个正确答案的任务(多项选择),我们提供K个上下文加正确答案的样本,接着提供一个仅有上下文的样本,然后比较语言模型对每个答案的可能性。对于大多数任务,我们比较每个token的可能性(以归一化长度),但是在少数数据集(ARC,OpenBookQA和RACE)上,通过计算P(完成上下文)/ P(完成答案上下文),我们在开发集上获得了额外的收益,其中答案上下文是字符串Answer: 或A: ,用于提示完成应该是一个答案,但其他方面是通用的。

对于涉及二元分类的任务,我们为选项赋予更具语义意义的名称(例如“True”或“False”,而不是0或1),然后将任务视为多项选择;我们还有时候会将任务框定类似于[RSR 19]所做的那样(详见附录G)。

对于自由形式完成的任务,我们使用与[RSR 19]相同的参数进行束搜索:束宽为4,长度惩罚α=0.6。我们使用F1相似性得分,BLEU或精确匹配来评分模型,具体取决于手头数据集的标准。

当公开可用时,最终结果将在测试集上报告,适用于每个模型大小和学习设置(零样本、单样本和少样本)。当测试集是私有的时候,我们的模型通常太大,无法适应测试服务器,所以我们在开发集上报告结果。我们在少数数据集(SuperGLUE,TriviaQA,PiQa)上提交到测试服务器,我们能够使提交工作,并且仅提交200B多次学习结果,然后报告其他所有内容的开发集结果。

上半部分翻译结束