✍内容-大模型基础学习记录

项目地址: 第1章 引言 (datawhalechina.github.io)

1.👀定义

语言模型(LM), 是一种对令牌序列(token)的概率分布。

2.🤔理解

从定义上来理解是用来分析出各个token序列的概率的,也就是指出哪一个排列序列是最好的。但事实上语言模型必须具有很好的语言能力和世界知识才能更好的指出排列序列哪个才是最好的。我们还可以根据语言模型生成我们想要的序列。

3.❓提出问题

  1. 什么是自回归语言模型?

  2. 什么是前馈神经网络及其工作原理?

  3. 如何理解"退火"?

  4. 总结自回归语言模型?

  5. 什么是信息论?

  6. 什么是熵?

  7. 什么是N-gram模型?

  8. 什么是贝叶斯定理?

  9. N-gram模型的缺点?

  10. 神经语言模型的训练目标是?

4.✌️回答问题

  1. (查询资料)自回归语言模型(Autoregressive Language Model)是一种用于生成文本的统计模型。它基于序列数据的概率分布,通过建模当前词语与前面已生成词语的条件概率来预测下一个词语。自回归语言模型从左到右计算某个词出现的概率,但与一般语言模型不同的是,它同时考虑了词的上文和下文信息。自回归语言模型能够利用大量的文本数据来学习上下文信息和词频分布等语言特征,对每个词语的概率进行建模,并且不断调整模型参数以提高其预测准确性。

  2. (查询资料)前馈神经网络(Feedforward Neural Network,FNN)是一种最简单的人工神经网络,也被称为多层感知机(Multi-Layer Perceptron,MLP)。它由多个神经元组成,每个神经元接收来自上一层神经元的输出,并通过一定的权重和偏置进行加权和处理,最终得到本层神经元的输出,进而作为下一层神经元的输入。该网络的信息流是单向的,只能从输入层流向输出层,因此称为前馈神经网络。前馈神经网络的工作原理可以分为前向传播和反向传播两个阶段。在前向传播阶段,输入数据在每一层被权重和偏置加权后,通过激活函数进行非线性变换,传递至下一层。在反向传播阶段,通过计算输出误差和每一层的梯度,对网络中的权重和偏置进行更新。

  3. (自我理解)退火可以理解成温度参数T,通过不断减小T的值来得出某一个token在每一个token不同序列的位置的概率。通过将原始概率分布的每个元素都取幂 1/T ,然后重新标准化得到的新分布。

  4. 语言模型是一个对序列x_{1:L} 的概率分布p

    • 直观地,一个好的语言模型应该具有语言能力和世界知识。

    • 给定提示 x{1:L} ,自回归语言模型可以有效的方式生成完成x{i+1:L}

    • 温度可以用来控制生成过程中的变化程度。

  5. 信息论是一门研究信息传输、存储、处理和应用的学科,主要关注信息的基本性质、度量方法、传输和压缩等问题。

  6. 熵(Entropy)是指对于概率分布中的一个样本x∼p任何算法需要编码(压缩)它为一个比特串的平均比特数

    • 熵的值越小,表明序列的结构性越强,编码的长度就越短。

    • 直观地理解, \log \frac{1}{p(x)}可以视为用于表示出现概率为p(x)的元素x的编码的长度。

    • 如果p(x)=1/8,我们就需要分配 log_{2}(8)=3个比特(或等价地, log(8)=2.08个自然单位)。

  7. N-gram模型是一种基于统计语言模型的算法,用于预测文本中下一个词的概率分布。该模型假设文本中的每个词的出现概率与前面N-1个词相关,而与其他词无关。

  8. 贝叶斯定理的公式可以表示为: P(A|B) = P(B|A) * P(A),其中:

    • P(A) 是事件A的先验概率(也称边缘概率),即在B事件发生之前,对A事件发生概率的预测。

    • P(B|A) 是事件A发生后,事件B的条件概率。

    • P(A|B) 是事件B发生后,事件A的条件概率。

    • P(B) 是事件B的先验概率(也称边缘概率),即在A事件发生之前,对B事件发生概率的预测。

  9. (查询资料)

    • 数据稀疏性:N-gram模型是基于大规模语料库进行训练的,但在实际应用中,往往面临着数据稀疏的问题,即某些N-gram在语料库中出现的次数很少或者根本未出现。这会导致模型无法准确地估计这些N-gram的概率,进而影响预测的准确性。

    • 上下文依赖性:N-gram模型只考虑当前词的前N-1个词作为上下文,无法捕捉长距离依赖关系。这种局限性可能会导致模型在处理某些语言现象时效果不佳,例如一些复杂的语法结构或 语义关系。

    • 无法处理未知词:N-gram模型对于未知词的处理能力有限。如果某个词在训练语料库中未出现过,模型就无法准确地预测其概率分布。这可能导致模型在处理一些新词或少见词时效果不佳。

    • 参数选择问题:N-gram模型中的N值选择是一个关键问题。如果N值选择不当,可能会导致模型出现过拟合或欠拟合的问题。同时,随着N值的增加,模型的参数数量会急剧增加,导致计算复杂度和存储开销增大。

    • 无法处理连续空间中的词向量:N-gram语言模型是根据相互之间没有任何遗传属性的离散单元词而构建的,不具备连续空间中的词向量所满足的语义上的优势。相似意义的词语具有相似的词向量,当系统模型针对某一词语或词序列调整参数时,相似意义的词语和词序列也会发生改变

  10. 神经语言模型的训练目标是预测给定前一个词的下一个词的概率分布。它使用神经网络来建模词序列的概率分布,其中每个词的出现概率取决于前面的词。通过训练神经网络来最大化预测下一个词的概率,神经语言模型能够逐渐学习到语言的语法、语义和上下文信息。

5.🖊总结

  • 单一的大型语言模型是一个万事通(也是一无所长)。它可以执行广泛的任务,并且能够具备上下文学习等新出现的行为。

  • 它们在现实世界中得到广泛部署。

  • 大型语言模型仍然存在许多重要的风险,这些风险是开放的研究问题。

  • 成本是广泛获取的一大障碍。