上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人
第1章 线性代数
随着大数据时代的到来,数据规模膨胀,数据挖掘技术面临如何提高效率及提高可扩展性的挑战。为此研究人员提出了很多应对该挑战的思路,其中基于矩阵计算或线性代数的数据挖掘技术因易于并行化且计算效率相对较高等优势受到研究人员的青睐。
线性代数与大数据技术的关系很密切,矩阵、转置、秩、分块矩阵、向量、正交矩阵、向量空间、特征值与特征向量等在大数据建模及分析中很常用。
在互联网大数据中,许多应用场景的分析对象都可以抽象成矩阵,大量Web页面及其关系、微博用户及其关系、集中的文本与词汇的关系等都可以用矩阵表示。例如,用矩阵表示Web页面及其关系时,矩阵元素就代表了页面a与页面b的关系,这种关系可以是指向关系,1表示a与b之间有超链接,0表示a与b之间没有超链接。著名的PageRank算法就是基于这种矩阵进行页面重要性量化的,并证明了其收敛性。
以矩阵为基础的各种运算则是提取分析对象特征的途径,如矩阵分解,因为矩阵代表了某种变换或映射,所以分解后得到的矩阵就代表了分析对象在新空间中的一些新特征。奇异值分解(SVD)、主成分分析(PCA)、矩阵分解(MF)等在大数据分析中的应用是很广泛的。