![速通深度学习数学基础](https://wfqqreader-1252317822.image.myqcloud.com/cover/778/47793778/b_47793778.jpg)
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人
1.3 向量的基本性质
1.3.1 向量的基本运算
向量可以看作一个矢量,即既有大小、又有方向的量。例如,在2维坐标系中,如图1-6所示。
![](https://epubservercos.yuewen.com/D80F69/27210566704740106/epubprivate/OEBPS/Images/txt001_25.jpg?sign=1738943770-kNEYxPf7ZL4gce0vmaTanLvhlInBm595-0-de84b59f81fea9ae32a09b10cfdba7a9)
图1-6
向量之间可以进行数学运算,例如对于2维向量和
,加法运算为
![](https://epubservercos.yuewen.com/D80F69/27210566704740106/epubprivate/OEBPS/Images/txt001_28.jpg?sign=1738943770-Wh1kaPyL1V9ubzggkcQOr9CEh8Q5guoF-0-519e37c2a10fc790ec74d8b1e8595632)
上式的几何意义,如图1-7所示。
![](https://epubservercos.yuewen.com/D80F69/27210566704740106/epubprivate/OEBPS/Images/txt001_29.jpg?sign=1738943770-5IhBbaVEvM0Dxz3zDNV14hPZg2X8bhlE-0-7d3f4b745410784a93907b1cf851c0b1)
图1-7
向量也可以和一个常数相乘,例如
![](https://epubservercos.yuewen.com/D80F69/27210566704740106/epubprivate/OEBPS/Images/txt001_30.jpg?sign=1738943770-a4a73DPg1Hp9W3IKVX5Hc7F80qji1kbc-0-2e0a3397f35c45261460736835c98386)
上式的几何意义相当于对向量进行k倍缩放。如果k<0,就相当于将向量的方向取反,如图1-8所示。
![](https://epubservercos.yuewen.com/D80F69/27210566704740106/epubprivate/OEBPS/Images/txt001_31.jpg?sign=1738943770-3F1K05XYRehiUQZtzJldleDiE8mQiL2g-0-3cf90993b406a2112a156fe4c174dadd)
图1-8
如果一个向量可以由其他向量加权求和表示,如
α1=k2α2+…+kmαm
则称α1可以由α2~αm线性表示。
在Attention模型中,模型输出其实是对输入的特征向量组α1,…,αm线性加权求和,即
![](https://epubservercos.yuewen.com/D80F69/27210566704740106/epubprivate/OEBPS/Images/txt001_32.jpg?sign=1738943770-yaOwjH7v6S1FB4L42Z84d3qeD1X31wCB-0-f7c9bddcbddc0757a7cd43d20f5b1b21)
只不过权重k是通过模型计算产生的。
当使用多层Attention模型时,第二层的输出qi为h1,…,hm的线性组合,即
![](https://epubservercos.yuewen.com/D80F69/27210566704740106/epubprivate/OEBPS/Images/txt001_33.jpg?sign=1738943770-IRrDQnn6biZUxO8nY3ymbprmYr8xujqp-0-9ac1a6695bbb8282f2a76f9560cbf1ad)
可以发现,从效果看,qi可以直接用α1,…,αm的线性组合来表示,因此,中间层h1,…,hm就显得有些多余。这说明Attention模型一定要对输出进行非线性变换,否则“深度”就丧失了意义。这也是Transformer模块必须有前馈层FFN的原因之一。
本周热推: