![2019年华北五省(市、自治区)大学生机器人大赛:人工智能与机器人创意设计赛论文集](https://wfqqreader-1252317822.image.myqcloud.com/cover/956/35276956/b_35276956.jpg)
2 基于小波包分解和Volterra自适应模型的语音识别
2.1 语音时间序列相空间重构
混沌时间序列的分析、确定和预测在相空间中进行,因此语音时间序列的相空间重构是分析混沌特性的第一步[3-4],根据Takens定理,延迟坐标嵌入方法表示如下:
![](https://epubservercos.yuewen.com/CA9355/18822094501534106/epubprivate/OEBPS/Images/37659_34_01.jpg?sign=1738884259-7RiOUfqiobDkTiNJWenZiOS4W23dIHeQ-0-32edc97c0d1eda82777a6c76e85fbb5d)
式中,M是相空间中的点数,M =L-(m-1)τ;L是时间序列的结束;τ是延迟时间;m是嵌入维数。
2.2 小波包变换
小波包变换是传统小波变换的扩展。小波变换只能进一步分解信号的低频部分,无法解决高频部分的要求[5]。小波包变换可以分解低频信号和高频信号,这意味着小波包分解可提供比小波分解更准确的频率分辨率。
根据小波的多分辨率分析,缩放函数φ(t)与小波函数ϕ(t)之间的关系是相互的。二维方程定义如下:
![](https://epubservercos.yuewen.com/CA9355/18822094501534106/epubprivate/OEBPS/Images/37659_35_01.jpg?sign=1738884259-XEMXKzxvd6qA79yUzL5qnQlsPsP4hLkg-0-bbc6f095376451b013a45c38b63e88dd)
式中,h(k)和g(k)是一对共轭正交镜滤波器,g (k )=(-1)k h(1-k )。信号通过小波包法被分解为低频信号和高频信号,小波包分解算法如下:
![](https://epubservercos.yuewen.com/CA9355/18822094501534106/epubprivate/OEBPS/Images/37659_35_02.jpg?sign=1738884259-UHGhIUpXnDkNx34IJVQqFpH7PUeYrwlx-0-0ebf63e14838d3c3b5275e033213f531)
式中,p 是节点号; j是分解级别。在第j-th级分解系数的基础上,通过式(3)和式(4)中的小波包系数递推公式得到第( j+1)-th级分解系数。类似地,所有级别系数都可以通过式(3)和式(4)获得。以上第j-th级所有子带的频率范围为
![](https://epubservercos.yuewen.com/CA9355/18822094501534106/epubprivate/OEBPS/Images/37659_35_03.jpg?sign=1738884259-345Yww2bKAhxNzSJM92bz5R1vEeZL9uS-0-bb1cfb23d94d99e6ea70b8539bc156eb)
其中fs是采样频率。
近似小波包分解仍然是更原始的信号频谱信息。图1是语音信号“blue sky”三重db4小波包分解系数的重构子带信号。在“y”是原始语音信号的情况下,“y1~y8”是小波包系数的八个子带。
![](https://epubservercos.yuewen.com/CA9355/18822094501534106/epubprivate/OEBPS/Images/37659_35_04.jpg?sign=1738884259-h0zHLsgUWVHdNVHZlrd32f70guYXtfCR-0-595f460b029bb948079aaa8e2cc4e4e4)
图1 语音信号“blue sky”,三重db4小波包分解系数图
Fig.1 Speech signal"blue sky", triple db4 wavelet packet decomposition coefficient diagram
2.3 Volterra自适应模型的提取特征
Volterra 函数序列通常可以描述响应和记忆函数的非线性行为,它可以以任意精度逼近任意连续函数。对于非线性系统,基于Volterra的自适应预测滤波方法可以反馈滤波器参数的迭代调整,从而实现最优滤波器[6-10]。Volterra系列的表现形式如下:
![](https://epubservercos.yuewen.com/CA9355/18822094501534106/epubprivate/OEBPS/Images/37659_35_05.jpg?sign=1738884259-WrfGC1qquxDFA6nUJgPzBzaMBCArLaaS-0-094be9ea813e7d004cabd58caf63444a)
非线性动态系统输入表示为X (n)=[x(n), x(n-1),…, x(n-N+1)] ,输出表示为Y ( n )=x ( n+1)。Volterra 膨胀的非线性动力系统表示如下:
![](https://epubservercos.yuewen.com/CA9355/18822094501534106/epubprivate/OEBPS/Images/37659_35_06.jpg?sign=1738884259-AOVhTJWQPnwAdNMMKxEYgNTtV7SK3PC4-0-60292ed5848d1a4662352aa53e0f8ca5)
式中, h1 , h2 ,…, h p是Volterra系列的核函数,它是系统的隐函数,反映了语音信号的宏观;p是滤波器长度。根据语音时间序列的特点,为了减少计算量,通常选择二阶Volterra自适应预测模型来截断,表达式如下:
![](https://epubservercos.yuewen.com/CA9355/18822094501534106/epubprivate/OEBPS/Images/37659_36_01.jpg?sign=1738884259-Mz5EMIvCUTBEKQ0n0jjOxbMKadhr14PL-0-96e4503b7e962f9a4d64c61e9930ffe6)
通过Volterra系列扩展的混沌时间序列,该案例是m项二阶Volterra滤波器截止( m是混沌时间序列的最小嵌入维数)。通过状态扩展,系统总数为M =1+m+m(m-1)/2 ,滤波器系数向量和输入向量分别如下:
![](https://epubservercos.yuewen.com/CA9355/18822094501534106/epubprivate/OEBPS/Images/37659_36_02.jpg?sign=1738884259-b4pyhc0ypC6FnoA027htuwnOkELILklM-0-64a1c9dd5c9b131808e9a1f37b97a715)
由于 Volterra 自适应滤波器系数可以通过线性自适应FIR 滤波器算法直接确定,因此式(7)可以表示为:
![](https://epubservercos.yuewen.com/CA9355/18822094501534106/epubprivate/OEBPS/Images/37659_36_03.jpg?sign=1738884259-8C2WND8j5Vn2MDcdyKv98HqjbXOOVtG3-0-096604be32e58ba6bebd678614763348)
本文采用LMS自适应算法,它具有良好的稳定性和简单的结构,并且易于实施,它广泛用于自适应控制和信号处理领域。自适应滤波算法由以下两个过程组成:
(1)滤波过程:计算滤波器输出对输入的响应,并比较实际输出和所需输出,以获得估计误差。
(2)适应过程:根据滤波过程得到的估计误差调整滤波器参数。
上述两个过程形成具有反馈的环结构。首先,使用横向滤波器完成单输入滤波处理。然后,通过自适应控制算法更新和调整横向滤波器抽头权重。
抽头输入向量U (n)为x(n), x(n-1),…, x(n-m+1) ,抽头权重向量 ω(n) 为0ω(n), 1ω(n),…ωm-1 (n)。使用LMS自适应算法计算权重向量,该值表示估计值。主过滤器结构如图2所示。
![](https://epubservercos.yuewen.com/CA9355/18822094501534106/epubprivate/OEBPS/Images/37659_36_04.jpg?sign=1738884259-izDA6eabBBbFTGZmOTlkgjCDRnS6oP11-0-1355e89ed229344f494148dd9a20ebb4)
图2 自适应滤波器控制算法的框图
Fig.2 Block diagram of the adaptive filter control algorithm
预期响应d (n)和抽头输入向量U (n)在滤波过程中同时进行。在上述过程中,实际输出由具有给定输入的滤波器产生;实际输出y(n)显示为:
![](https://epubservercos.yuewen.com/CA9355/18822094501534106/epubprivate/OEBPS/Images/37659_36_05.jpg?sign=1738884259-DO8ff5jXvENdHpTaLWf6DqD67b9oFwIS-0-e9ad320da6927ccf9cbcb3370cb2fc60)
确定估计误差e(n)为预期响应d (n)与实际输出y(n)之差,即
![](https://epubservercos.yuewen.com/CA9355/18822094501534106/epubprivate/OEBPS/Images/37659_36_06.jpg?sign=1738884259-AvuVrMLCP5NiYPZrNrQ8un1hjh5AJBQb-0-ebe940c745d0f9ce4ab4cbc960137050)
LMS自适应滤波过程使用最小准则的均方值来调整权重向量,表达式如下:
![](https://epubservercos.yuewen.com/CA9355/18822094501534106/epubprivate/OEBPS/Images/37659_36_07.jpg?sign=1738884259-HJyfNwT6lWbn9yIKgj6WSv7OoKerzWJf-0-936f2f7b8865087a963e5c577e27339e)
LMS自适应算法的权重调整过程如下:
(1)使用给定的输入U (n)得到滤波器的输出如下:
![](https://epubservercos.yuewen.com/CA9355/18822094501534106/epubprivate/OEBPS/Images/37659_36_08.jpg?sign=1738884259-mDPHp1ZnIXTTn4l8hSiHOIaw2BYFcXUS-0-320a225d780e90ea0258550bae802268)
(2)计算预期响应d (n)和实际输出y(n)得到估计误差e(n)为:
![](https://epubservercos.yuewen.com/CA9355/18822094501534106/epubprivate/OEBPS/Images/37659_37_01.jpg?sign=1738884259-dgD06PaubNxJnHQwaDMUFigNLQZSQ1FR-0-f550babefdeea284af67b2a5a0b7e499)
(3)计算绩效指标的功能如下:
![](https://epubservercos.yuewen.com/CA9355/18822094501534106/epubprivate/OEBPS/Images/37659_37_02.jpg?sign=1738884259-5EBwYhw2fzcpXaiRJ8QVolr4aFGqOedP-0-360387ec7f476a7445952c3430f43c9e)
(4)根据性能指标函数、估计误差,自适应调整抽头权重向量如下:
![](https://epubservercos.yuewen.com/CA9355/18822094501534106/epubprivate/OEBPS/Images/37659_37_03.jpg?sign=1738884259-dLMkTlGgzJJfIR7Su0bVmwj30wJO5pIA-0-10eff150a8fd4e06cf10d9ebf90adba8)
式中,μ是正常数的收敛因子,它用于调整自适应迭代步骤。参数μ决定收敛速度,大步长会使算法变得不稳定;如果μ太小,则会带来额外的错误。
语音信号“blue sky”由3级和6级小波包分解,所有子带信号分别用于 AR 模型和Volterra模型实验。这里我们从3级小波包中选择一个子带信号,两种比较方法的预测结果如图3和图4所示。我们从6级小波包中选择一个子带信号进行预测,两种比较方法的结果显示在图5和图6中(为了清楚地显示,这些图仅显示70个预测值)。
![](https://epubservercos.yuewen.com/CA9355/18822094501534106/epubprivate/OEBPS/Images/37659_37_04.jpg?sign=1738884259-mLGtDJ78twwEiqz45mK9cn19YKV3TYfx-0-f663f731491b7659762b20a44f745691)
图3 具有3级小波包分解的混沌语音信号的Volterra自适应预测和线性预测
Fig.3 Volterra adaptive prediction and linear prediction of chaotic speech signals with 3-level wavelet packet decomposition
![](https://epubservercos.yuewen.com/CA9355/18822094501534106/epubprivate/OEBPS/Images/37659_37_05.jpg?sign=1738884259-WsHjeyliet7ljweOq6QxWcKqh2W1gmTd-0-cdaf3f9c307334262957a7728307063d)
图4 具有3级小波包分解的混沌语音信号的Volterra自适应预测和线性预测误差
Fig.4 Volterra adaptive prediction and linear prediction error of chaotic speech signals with 3-level wavelet packet decomposition
![](https://epubservercos.yuewen.com/CA9355/18822094501534106/epubprivate/OEBPS/Images/37659_37_06.jpg?sign=1738884259-TfaVeWmxgnY6j8kVXBtlqRJo6DSZ0KQy-0-b16165b260915e5da219d9a0f3b58e5a)
图5 具有6级小波包分解的混沌语音信号的Volterra自适应预测和线性预测
Fig.5 Volterra adaptive prediction and linear prediction of chaotic speech signals with 6-order wavelet packet decomposition
具有3级小波包的Volterra自适应预测误差为0.102,AR模型预测为0.2144。具有6级小波包的Volterra自适应预测误差为0.0612, AR模型预测误差为0.1744。使用传统线性预测方法实现差异预测值的对比效果比前者差。这些结果表明使用语音信号预测模型的非线性系统效果更好。
![](https://epubservercos.yuewen.com/CA9355/18822094501534106/epubprivate/OEBPS/Images/37659_38_01.jpg?sign=1738884259-I2VOlOrkSRbHOit2jdwyVzGYQVd2BCwT-0-7e01b8f84c4a5158c38ecd70a71bc49f)
图6 具有6级小波包分解的混沌语音信号的Volterra自适应预测和线性预测误差
Fig.6 Volterra adaptive prediction and linear prediction error of chaotic speech signals with 6-order wavelet packet decomposition