线性预测编码

线性预测编码LPC )是一种主要用于音频信号处理语音处理的方法,用于使用线性预测模型的信息,以压缩形式的数字信号光谱信封

LPC是语音编码语音合成中最广泛使用的方法。这是一种强大的语音分析技术,也是一种以低比特率来编码高质量语音的有用方法。

概述

LPC首先是假设语音信号是由蜂鸣器在管子末端产生的(用于声音的声音),并偶尔会增加嘶嘶声和弹出声音(用于无声声音,例如sibinantsplosives )。尽管显然很粗糙,但这种源滤波器模型实际上是语音产生现实的紧密近似。声门(声带之间的空间)产生嗡嗡声,其特征是其强度(响度)和频率(音高)。声道(喉咙和嘴巴)形成了管,其特征是其共鸣。这些共振会引起实扣,或产生的声音中增强的频带。嘶嘶声和流行音乐是由舌头,嘴唇和喉咙的动作产生的。

LPC通过估计共振符,从语音信号中消除其影响并估算剩余嗡嗡声的强度和频率来分析语音信号。去除共振剂的过程称为逆滤波,而被过滤的建模信​​号的扣除后的剩余信号称为残基。

描述嗡嗡声,共振体和残基信号的强度和频率的数字可以存储或传输在其他地方。 LPC通过逆转过程来综合语音信号:使用嗡嗡声参数和残基创建源信号,使用实扣来创建过滤器(代表管子),然后通过滤波器运行源,从而导致语音。

由于语音信号随时间而变化,所以此过程是在语音信号的简短块上完成的,该过程称为帧。通常,每秒30到50帧给出了可理解的语音,并具有良好的压缩。

早期历史

线性预测(信号估计)至少可以追溯到1940年代,当时诺伯特·维纳(Norbert Wiener)开发了一种数学理论,用于计算最佳过滤器和预测因子,以检测隐藏在噪声中的信号。克劳德·香农(Claude Shannon)建立了一般编码理论后不久, C. Chapin CutlerBernard M. Oliver和Henry C. Harrison就进行了预测编码的工作。彼得·埃里亚斯(Peter Elias)于1955年发表了两篇有关信号预测编码的论文。

线性预测因子由名古屋大学Fumitada Itakura独立地应用于语音分析,并于1966年和Nippon Telegraph and Telepher的Shuzo Saito应用于1966年,并于1967年由Bishnu S. AtalManfred R. Schroeder和John Burg 。 Itakura和Saito根据最大似然估计描述了一种统计方法。 Atal和Schroeder描述了一种自适应线性预测方法。 Burg根据最大熵原理概述了一种方法。

1969年,伊塔库拉(Itakura)和斋藤(Itakura and Saito)基于部分相关性(Parcor)引入方法,格伦·库勒(Glen Culler)提出了实时语音编码,而Bishnu S. Atal美国声学学会年会上介绍了LPC语音编码员。 1971年, Philco-Ford展示了使用16位LPC硬件的实时LPC;出售了四个单位。 LPC技术由1970年代至1980年代的Bishnu Atal和Manfred Schroeder提出。 1978年,Atal和Vishwanath等。 BBN开发了第一个可变率LPC算法。同年,贝尔实验室(Bell Labs)的Atal和Manfred R. Schroeder提出了一种LPC语音编解码器,称为自适应预测性编码,该编码使用了利用人耳掩蔽属性的心理声音编码算法。后来,这成为1993年推出的MP3音频压缩格式使用的感知编码技术的基础。代码激发的线性预测(CELP)是由Schroeder和Atal于1985年开发的。

LPC是IP (VoIP)技术的基础。 1972年, ARPA鲍勃·卡恩(Bob Kahn )与吉姆·林基(Jim Lookie)(林肯实验室,LL)和戴夫·沃尔登(Dave Walden)( BBN Technologies )开始了包装式演讲的第一个发展,最终将导致IP-IP技术的旁白。根据林肯实验室非正式历史,1973年,Ed Hofstetter实施了第一个实时2400位/S LPC。 1974年,在Culler-Harrison和Lincoln Laboratory之间,ARPANET在ARPANET上完成了第一个实时的双向LPC数据包语音通信。 1976年,第一次LPC会议是使用网络语音协议在Culler-Harrison,ISI,SRI和LL之间的3500位/s之间进行的。

LPC系数表示

LPC经常用于传输光谱包络信息,因此必须耐受传输误差。直接传输滤波器系数(有关系数的定义,请参见线性预测),因为它们对错误非常敏感。换句话说,一个很小的错误会扭曲整个频谱,或者更糟糕的是,一个小错误可能会使预测过滤器不稳定。

有更多高级表示,例如对数面积比(LAR),线光谱对(LSP)分解和反射系数。其中,尤其是LSP分解,因为它确保了预测因子的稳定性,并且光谱误差是小系数偏差的局部性。

申请

LPC是语音编码语音合成中最广泛使用的方法。它通常用于语音分析和重新合成。例如,它被用作电话公司的语音压缩形式,例如在GSM标准中。它也用于安全无线,必须将声音数字化加密并通过狭窄的语音通道发送;一个早期的例子是美国政府的纳瓦霍人

LPC合成可用于构造声码器,其中将乐器用作从歌手的演讲中估计的时变滤波器的激发信号。这在电子音乐中有些流行。保罗·兰斯基(Paul Lansky)使用线性预测编码制作了著名的计算机音乐作品。在1980年代流行的Speak&Spell Educational Toy中使用了第10阶LPC 的闲聊

LPC预测因子用于缩短MPEG-4 ALSFLAC丝绸音频编解码器和其他无损音频编解码器。

LPC已受到一些关注,作为用于小提琴和其他弦乐器的音调分析的工具。

也可以看看