![大话数据科学:大数据与机器学习实战(基于R语言)](https://wfqqreader-1252317822.image.myqcloud.com/cover/435/34752435/b_34752435.jpg)
3.6 R语言实战
3.6.1 泰坦尼克号
统计学的分类数据分析是,检验两个因子是否独立,或相关性是否显著。以泰坦尼克号为例,在统计学中是检验乘客身份(因子)和存亡(因子)是否无关或显著相关。在关联规则分析中是挖掘“头等舱”和“存活”是否有关联,参见《大话统计学》例题14.4。
如果将“存活”变量当作因变量(目标变量),问题就是监督式学习的分类模型。
关于泰坦尼克号的数据如表3-3、图3-14、图3-15所示。这个数据和《大话统计学》第14章的数据略有不同,因为参考数据来源不同。
表3-3 泰坦尼克号的数据
![](https://epubservercos.yuewen.com/8CA86F/18562448501472406/epubprivate/OEBPS/Images/Figure-T98_60153.jpg?sign=1738840322-qL5oAx2Pcb2rtCUUmXJfKDDtepTtNhUG-0-a7775e69cecf3f6c0b71c920859f81ac)
![](https://epubservercos.yuewen.com/8CA86F/18562448501472406/epubprivate/OEBPS/Images/Figure-P98_60154.jpg?sign=1738840322-cCRFNgol3zlwBHOYKXZle8zJaBpUHEm7-0-72d076bfd1a48d74b0ae29da392f92e5)
图3-14 R语言mosaicplot图
![](https://epubservercos.yuewen.com/8CA86F/18562448501472406/epubprivate/OEBPS/Images/Figure-P99_60155.jpg?sign=1738840322-iYS58ydIW8aYzB2eIloLJ1GuHNJbREhQ-0-fa52ab18ead5de5e6875d585b7c5c0d1)
注:[1],…,[6]是图3-16的规则
图3-15 泰坦尼克号的存活率
![](https://epubservercos.yuewen.com/8CA86F/18562448501472406/epubprivate/OEBPS/Images/Figure-P99_20380.jpg?sign=1738840322-IyEW9oTBNkRkrOAhmXLlYhnALDifMZds-0-304f6e0837cf35bfc5a97f65fe34608d)
![](https://epubservercos.yuewen.com/8CA86F/18562448501472406/epubprivate/OEBPS/Images/Figure-P99_20381.jpg?sign=1738840322-wlfVfpTmBeYSS7ZmBuWZHGsuzCLp8jPq-0-115990488847aa19b74856e98b1a849d)
图3-16 关联规则的网络图
【R例3.3】泰坦尼克号:数据Titanic、Titan,函数{包}:apriori、itemFrequency、eclat {arules}
图3-3关联分析数据有5种格式,R例3.1和R例3.2是(a)0-1二元关联矩阵。
泰坦尼克号数据档案是(d)事务频数表Titanic,转成(c)因子项目数据框Titan。
![](https://epubservercos.yuewen.com/8CA86F/18562448501472406/epubprivate/OEBPS/Images/Figure-P100_60156.jpg?sign=1738840322-sWvhyt4LBvlRjmjCVTojwOZpoqFau79a-0-2fa42bacb76cbc7a780e05832367fea4)
关联规则如图3-18所示。
![](https://epubservercos.yuewen.com/8CA86F/18562448501472406/epubprivate/OEBPS/Images/Figure-P101_20450.jpg?sign=1738840322-6w6yGEY3gVWYYgdzjUxQooDhMTxK3DQC-0-ef5e1d584861084e914458229c495cd6)
图3-17 平行坐标图
![](https://epubservercos.yuewen.com/8CA86F/18562448501472406/epubprivate/OEBPS/Images/Figure-P101_20453.jpg?sign=1738840322-WJyF0HyNFAu1ybZAri8h1WQeySFWRpcP-0-9e964fcbefbf3bead1cffa07d70fde28)
图3-18 27个关联规则
3.6.2 商店数据
商店数据文件是图3-3(e)事务表格式格式
【R例3.4】商店数据:shop.csv,函数apriori、itemFrequency
数据框格式data.frame:110893行,2列,如图3-19所示。
![](https://epubservercos.yuewen.com/8CA86F/18562448501472406/epubprivate/OEBPS/Images/Figure-P102_20493.jpg?sign=1738840322-OfCVz8f7bcFKjkl8DgYZhHMH9pxTy5In-0-8a1b72a8cf1f1bf3085cf17fb65e9bdd)
图3-19 事务表格式
![](https://epubservercos.yuewen.com/8CA86F/18562448501472406/epubprivate/OEBPS/Images/Figure-P102_20496.jpg?sign=1738840322-eY9zPGsKYQU4LwiNyBoZWeHFSoMgcV53-0-1b2de755c9977deb5b8b5b96a5aa5fd6)
![](https://epubservercos.yuewen.com/8CA86F/18562448501472406/epubprivate/OEBPS/Images/Figure-P103_20525.jpg?sign=1738840322-r6ERAs1pqz9blZhmWaN8HeMfPQ9alkfN-0-38dbba16c747b818dc5562d03949d123)
图3-20 项目频数
![](https://epubservercos.yuewen.com/8CA86F/18562448501472406/epubprivate/OEBPS/Images/Figure-P103_60158.jpg?sign=1738840322-tYYmKO6sM5mW5DqVw2ZR5H3VcytLv7hq-0-9d5bd881f03b8407d43b146b14d0defb)
交叉销售关联规则如图3-21所示。
![](https://epubservercos.yuewen.com/8CA86F/18562448501472406/epubprivate/OEBPS/Images/Figure-P104_20563.jpg?sign=1738840322-2JpM0HmQgoCa0OLOlh63QMhbdyGuzyA4-0-fe46746ededdd6d564767cad7a05b245)
图3-21 交叉销售关联规则
![](https://epubservercos.yuewen.com/8CA86F/18562448501472406/epubprivate/OEBPS/Images/Figure-P104_60161.jpg?sign=1738840322-omyKij7Tcs3HFlUoGLYzQ15nw9f9qpkU-0-68a10948ab14e7f57e06248f31b3fd83)
负关联规则如图3-22所示。
![](https://epubservercos.yuewen.com/8CA86F/18562448501472406/epubprivate/OEBPS/Images/Figure-P105_20598.jpg?sign=1738840322-WFL7T6GDMrd0xP300EjXB08bhKsbUlhr-0-ed7fe82e26f169acd688b43cdd6c3177)
图3-22 负关联规则
![](https://epubservercos.yuewen.com/8CA86F/18562448501472406/epubprivate/OEBPS/Images/Figure-P105_60163.jpg?sign=1738840322-rTFPbNT8n6Mh90ECL1KfBLDDlVPnozCM-0-94f4c6b4d6eee41abef86d7a19ffd215)
关联规则如图3-23所示。
![](https://epubservercos.yuewen.com/8CA86F/18562448501472406/epubprivate/OEBPS/Images/Figure-P105_20601.jpg?sign=1738840322-MTzgweXhFhFZKPnmXUnedbJgUBmjMk6z-0-e56404d05a067d56e0416db0c88c72b0)
图3-23 关联规则
3.6.3 食品杂货数据
【R例3.5】食品杂货:数据Groceries,函数apriori
Groceries数据arules的transactions格式:9835行(记录)。
数据是图3-3(b)事务数据库的格式。
![](https://epubservercos.yuewen.com/8CA86F/18562448501472406/epubprivate/OEBPS/Images/Figure-P105_20608.jpg?sign=1738840322-frjw0NTLDaHFCSfWBGdhSy5miniIWWKi-0-84d34f661559b86ca4d4fd07d3d0190c)
![](https://epubservercos.yuewen.com/8CA86F/18562448501472406/epubprivate/OEBPS/Images/Figure-P106_20643.jpg?sign=1738840322-40XVI8W5w5raI5bCxRctAlCoed5UZIpP-0-a33a881289fabf4770583379f525886d)
![](https://epubservercos.yuewen.com/8CA86F/18562448501472406/epubprivate/OEBPS/Images/Figure-P107_20673.jpg?sign=1738840322-gNdDYQMOZHSzeI9j7e3EyUmDdfU03DZD-0-38037f6a55e0d2a467e8ef254203b256)
3.6.4 人口收入数据
在R语言包arules的内建数据集有Adult和AdultUCI两个有关个人收入的数据集,共有48842个记录。AdultUCI数据有15个变量,虽然是数据框的格式,但是不能将AdultUCI数据输入apriori函数计算关联规则,因为变量有数值型变量。
AdultUCI的15个变量:
(1)年龄Age数值整数变量。
(2)工作等级Workclass因子有8个水平。
(3)教育Education有序因子有16个水平。
(4)教育年数education-num数值向量。
(5)婚姻marital-status因子有7个水平。
(6)职业Occupation因子有14个水平。
(7)家庭关系Relationship因子有6个水平。
(8)种族Race因子有5个水平。
(9)性别Sex因子有2个水平。
(10)资本获利capital-gain数值向量。
(11)资本损失capital-loss数值向量。
(12)Fnlwgt数值向量。
(13)每周工时hours-per-week数值整数变量。
(14)出生国家native-country因子有41个水平。
(15)收入Income有序因子有2个水平(小small < large大)。
将AdultUCI数据的第4和第12个变量删除。
将(1)年龄Age改为有序因子有4个水平。
将(10)资本获利capital-gain改为有序因子有3个水平。
将(11)资本损失capital-loss改为有序因子有3个水平。
将(13)每周工时hours-per-week改为有序因子有4个水平。
上述的因子全部加起来 13个变量共有115个因子。
数据Adult是图3-3(b)事务数据库的格式transactions。
数据 AdultUCI是图3-3(c)数据框的格式data.frame 48842 obs. 13 variables。
【R例3.6】人口收入:数据Adult.CSV,函数apriori
![](https://epubservercos.yuewen.com/8CA86F/18562448501472406/epubprivate/OEBPS/Images/Figure-P108_20713.jpg?sign=1738840322-OswXcMuhxFkZvU0amSU2Jo5xPawKfzDV-0-dae5e20bfdfc6fe17a8c00612fe8b837)
3.6.5 鸢尾花数据
鸢尾花数据(Iris data set)包含了150个样本,分别是山鸢尾、变色鸢尾和维吉尼亚鸢尾。用4个特征变量测量花朵:萼片长度、萼片宽度、花瓣长度、花瓣宽度。
(1)萼片长度(Sepal Length):计算单位是厘米。
(2)萼片宽度(Sepal Width):计算单位是厘米。
(3)花瓣长度(Petal Length):计算单位是厘米。
(4)花瓣宽度(Petal Width):计算单位是厘米。
(5)类别(Class):可分为Setosa、Versicolor和Virginica三个品种。
【R例3.7】连续变量关联分析:鸢尾花数据iris,函数apriori
数据框格式data.frame:150个观察值 5个变量
![](https://epubservercos.yuewen.com/8CA86F/18562448501472406/epubprivate/OEBPS/Images/Figure-P109_60164.jpg?sign=1738840322-vjES7mRt4vw6hGOKz4o54oZwlGh5eQvT-0-4bd53a16c76c9e68f4e2b2e84e124d84)
鸢尾花数据特征变量分布图如图3-24所示。
![](https://epubservercos.yuewen.com/8CA86F/18562448501472406/epubprivate/OEBPS/Images/Figure-P109_20750.jpg?sign=1738840322-dVfWC8hReTqNJD1GoEl6KeYMvpjd2ZAf-0-8ba1faeffdaaf8a67af1605f6d5c100c)
图3-24 鸢尾花数据特征变量分布图(下图是去除填充颜色)
![](https://epubservercos.yuewen.com/8CA86F/18562448501472406/epubprivate/OEBPS/Images/Figure-P110_60165.jpg?sign=1738840322-R71DeL8jhNCaN2Y1Vfk9tjSY0gSpWJii-0-c0b07d90347dc8d54c5a8cd914838ce2)
鸢尾花数据特征变量分布如图3-25所示。
![](https://epubservercos.yuewen.com/8CA86F/18562448501472406/epubprivate/OEBPS/Images/Figure-P110_20795.jpg?sign=1738840322-33YtjWM4aXxkY9V971zYlkWVPMGIpedA-0-92b034bd91bcef2c3ed9f1e51d407c35)
图3-25 鸢尾花数据特征变量分布图