2 基于小波包分解和Volterra自适应模型的语音识别_2019年华北五省（市、自治区）大学生机器人大赛：人工智能与机器人创意设计赛论文集-QQ阅读男频玄幻网

上QQ阅读APP看本书，新人免费读10天

设备和账号都新为新人

2 基于小波包分解和Volterra自适应模型的语音识别

2.1 语音时间序列相空间重构

混沌时间序列的分析、确定和预测在相空间中进行，因此语音时间序列的相空间重构是分析混沌特性的第一步^[3-4]，根据Takens定理，延迟坐标嵌入方法表示如下：

式中，M是相空间中的点数，M =L-(m-1)τ；L是时间序列的结束；τ是延迟时间；m是嵌入维数。

2.2 小波包变换

小波包变换是传统小波变换的扩展。小波变换只能进一步分解信号的低频部分，无法解决高频部分的要求^[5]。小波包变换可以分解低频信号和高频信号，这意味着小波包分解可提供比小波分解更准确的频率分辨率。

根据小波的多分辨率分析，缩放函数φ(t)与小波函数ϕ(t)之间的关系是相互的。二维方程定义如下：

式中，h(k)和g(k)是一对共轭正交镜滤波器，g (k )=(-1)^k h(1-k )。信号通过小波包法被分解为低频信号和高频信号，小波包分解算法如下：

式中，p 是节点号； j是分解级别。在第j-th级分解系数的基础上，通过式（3）和式（4）中的小波包系数递推公式得到第( j+1)-th级分解系数。类似地，所有级别系数都可以通过式（3）和式（4）获得。以上第j-th级所有子带的频率范围为

其中fs是采样频率。

近似小波包分解仍然是更原始的信号频谱信息。图1是语音信号“blue sky”三重db4小波包分解系数的重构子带信号。在“y”是原始语音信号的情况下，“y¹～y⁸”是小波包系数的八个子带。

图1 语音信号“blue sky”，三重db4小波包分解系数图
Fig.1 Speech signal"blue sky", triple db4 wavelet packet decomposition coefficient diagram

2.3 Volterra自适应模型的提取特征

Volterra 函数序列通常可以描述响应和记忆函数的非线性行为，它可以以任意精度逼近任意连续函数。对于非线性系统，基于Volterra的自适应预测滤波方法可以反馈滤波器参数的迭代调整，从而实现最优滤波器^[6-10]。Volterra系列的表现形式如下：

非线性动态系统输入表示为X (n)=[x(n), x(n-1),…, x(n-N+1)] ，输出表示为Y ( n )=x ( n+1)。Volterra 膨胀的非线性动力系统表示如下：

式中， h₁ , h₂ ,…, h _p是Volterra系列的核函数，它是系统的隐函数，反映了语音信号的宏观；p是滤波器长度。根据语音时间序列的特点，为了减少计算量，通常选择二阶Volterra自适应预测模型来截断，表达式如下：

通过Volterra系列扩展的混沌时间序列，该案例是m项二阶Volterra滤波器截止（ m是混沌时间序列的最小嵌入维数）。通过状态扩展，系统总数为M =1+m+m(m-1)/2 ，滤波器系数向量和输入向量分别如下：

由于 Volterra 自适应滤波器系数可以通过线性自适应FIR 滤波器算法直接确定，因此式（7）可以表示为：

本文采用LMS自适应算法，它具有良好的稳定性和简单的结构，并且易于实施，它广泛用于自适应控制和信号处理领域。自适应滤波算法由以下两个过程组成：

（1）滤波过程：计算滤波器输出对输入的响应，并比较实际输出和所需输出，以获得估计误差。

（2）适应过程：根据滤波过程得到的估计误差调整滤波器参数。

上述两个过程形成具有反馈的环结构。首先，使用横向滤波器完成单输入滤波处理。然后，通过自适应控制算法更新和调整横向滤波器抽头权重。

抽头输入向量U (n)为x(n), x(n-1),…, x(n-m+1) ，抽头权重向量 ω(n) 为0ω(n), ₁ω(n),…ω_m_-1 (n)。使用LMS自适应算法计算权重向量，该值表示估计值。主过滤器结构如图2所示。

图2 自适应滤波器控制算法的框图
Fig.2 Block diagram of the adaptive filter control algorithm

预期响应d (n)和抽头输入向量U (n)在滤波过程中同时进行。在上述过程中，实际输出由具有给定输入的滤波器产生；实际输出y(n)显示为：

确定估计误差e(n)为预期响应d (n)与实际输出y(n)之差，即

LMS自适应滤波过程使用最小准则的均方值来调整权重向量，表达式如下：

LMS自适应算法的权重调整过程如下：

（1）使用给定的输入U (n)得到滤波器的输出如下：

（2）计算预期响应d (n)和实际输出y(n)得到估计误差e(n)为：

（3）计算绩效指标的功能如下：

（4）根据性能指标函数、估计误差，自适应调整抽头权重向量如下：

式中，μ是正常数的收敛因子，它用于调整自适应迭代步骤。参数μ决定收敛速度，大步长会使算法变得不稳定；如果μ太小，则会带来额外的错误。

语音信号“blue sky”由3级和6级小波包分解，所有子带信号分别用于 AR 模型和Volterra模型实验。这里我们从3级小波包中选择一个子带信号，两种比较方法的预测结果如图3和图4所示。我们从6级小波包中选择一个子带信号进行预测，两种比较方法的结果显示在图5和图6中（为了清楚地显示，这些图仅显示70个预测值）。

图3 具有3级小波包分解的混沌语音信号的Volterra自适应预测和线性预测
Fig.3 Volterra adaptive prediction and linear prediction of chaotic speech signals with 3-level wavelet packet decomposition

图4 具有3级小波包分解的混沌语音信号的Volterra自适应预测和线性预测误差
Fig.4 Volterra adaptive prediction and linear prediction error of chaotic speech signals with 3-level wavelet packet decomposition

图5 具有6级小波包分解的混沌语音信号的Volterra自适应预测和线性预测
Fig.5 Volterra adaptive prediction and linear prediction of chaotic speech signals with 6-order wavelet packet decomposition

具有3级小波包的Volterra自适应预测误差为0.102，AR模型预测为0.2144。具有6级小波包的Volterra自适应预测误差为0.0612， AR模型预测误差为0.1744。使用传统线性预测方法实现差异预测值的对比效果比前者差。这些结果表明使用语音信号预测模型的非线性系统效果更好。

图6 具有6级小波包分解的混沌语音信号的Volterra自适应预测和线性预测误差
Fig.6 Volterra adaptive prediction and linear prediction error of chaotic speech signals with 6-order wavelet packet decomposition

本周热推：

从机器学习到深度学习：基于scikit-learn与TensorFlow的高效开发实战情感分析进阶水中仿生机器人导论中国人工智能创新链产业链技术专利发展研究基于机器学习的数据缺失值填补：理论与方法