语言模型
语言模型是一种自然语言的概率模型。在1980年,提出了第一个重要的统计语言模型,在十年中,IBM进行了“香农风格”实验,其中通过观察和分析人类受试者在预测或纠正文本中的表现来确定语言建模改进的潜在来源。
语言模型对于各种任务很有用,包括语音识别(有助于预测低概率(例如,胡说八道)序列),机器翻译,自然语言产生(生成更类似人类的文本),光学角色识别,手写识别,识别,手写识别,语法诱导和信息检索。
大型语言模型,目前是其最先进的形式,是较大的数据集(经常使用公共互联网上的刮擦单词),馈电神经网络和变形金刚的组合。他们已经取代了基于神经网络的复发模型,该模型以前已经取代了纯统计模型,例如单词n -gram语言模型。
纯统计模型
基於单词n -grams的模型
指数
最大熵语言模型使用特征函数编码单词和n -gram历史记录之间的关系。方程是
在哪里是分区函数, 是参数向量,以及是功能。在最简单的情况下,特征函数只是某个n -gram存在的指示。使用先验是有帮助的或某种形式的正则化。
log-bilinear模型是指数语言模型的另一个示例。
Skip-gram模型
Skip -gram语言模型试图克服面临的数据稀疏问题(即单词n -gram语言模型)。嵌入矢量中代表的单词不一定是连续的,而是会留下跳过的空白。
正式地, k -skip- n -gram是一个长度- n子序列,其中组件最多在彼此之间出现在距离处。
例如,在输入文本中:
- 西班牙的雨主要落在平原上
一组1-Skip-2-grams包括所有的bigram(2克),此外
- 西班牙在西班牙的雨水主要落在西班牙,主要是和平原上。
在跳过的模型中,单词之间的语义关系由线性组合表示,捕获了一种组成性。例如,在某些这样的模型中,如果v是将单词w映射到其n -d vector表示的函数,则
通过规定其右侧必须是左侧值的最近邻居,确切地确定了≈。神经模型
复发性神经网络
在基于神经网络的语言模型(也称为连续的空间语言模型)中产生了连续的表示或单词嵌入。这种连续的空间嵌入有助于减轻维数的诅咒,这是随着词汇量的大小呈指数增加的可能序列序列的结果,进一步导致了数据稀少性问题。神经网络通过将单词表示为神经网中的权重的非线性组合来避免此问题。
大型语言模型
大型语言模型(LLM)是一种以其获得通用语言理解和产生的能力而闻名的语言模型。 LLMS通过在计算密集的自学和半监督培训过程中从文本文档中学习统计关系来获得这些能力。 LLM是变压器体系结构后的人工神经网络。
作为自回归语言模型,它们可以通过获取输入文本并反复预测下一个令牌或单词来起作用。直到2020年,微调是模型可以适应特定任务的唯一方法。但是,可以迅速设计较大尺寸的模型,例如GPT-3 ,以获得相似的结果。人们认为他们可以获取有关人类语言语言中固有的语法,语义和“本体”的知识,但同时也存在于语料库中的不准确性和偏见。
值得注意的例子包括OpenAI的GPT型号(例如,在Chatgpt中使用的GPT-3.5和GPT-4 ), Google的Palm (用于Bard )和Meta的Llama ,以及Bloom ,Ernie 3.0 Titan和Ernie 3.0 Titan和人类的克劳德2 。尽管有时与人类的表现相匹配,但尚不清楚它们是合理的认知模型。至少对于经常性的神经网络,已经表明,他们有时会学习人类不学习的模式,但无法学习人类通常会学习的模式。
评估和基准
与人类创建的样本基准相比,对语言模型的质量进行评估主要是完成的。其他,较少成熟的质量测试检查了语言模型的内在特征或比较两个这样的模型。由于语言模型通常是为了动态的,并从其看到的数据中学习,因此一些建议的模型研究了学习率,例如检查学习曲线。
已经开发了各种数据集来评估语言处理系统。这些包括:
- 语言可接受性
- 胶水基准
- Microsoft研究释义语料库
- 多流派自然语言推论
- 提出自然语言推论
- Quora问题对
- 认识文本需要
- 语义文本相似性基准
- 小队问答测试
- 斯坦福情绪树库
- Winograd Nli
- Boolq,Piqa,Siqa,Hellaswag,Winogrande,Arc,OpenBookQa,hostomquestions,Triviaqa,Race,Race,MMLU(大量的多任务理解),Big Bench Hard,GSM8K,retartoxicityPrompts,prompts,Winogender,Winogender,Winogender,Winogender,Crowspairs 。 ( 骆驼基准)