![统计挖掘与机器学习:大数据预测建模和分析技术(原书第3版)](https://wfqqreader-1252317822.image.myqcloud.com/cover/26/40868026/b_40868026.jpg)
6.5.2 示例2
自从1912年4月15日发生了“白色之星”级巨型邮轮泰坦尼克号在北大西洋撞冰山沉没这个严重事件之后,对于灾难的想象从未停止。近年来,人们对泰坦尼克号的兴趣骤然上升,因为罗伯特·巴拉德博士于1985年发现了该船的遗骸。这个世纪悲剧令人着魔。
任何有关这艘船沉没的新线索都是大新闻。我相信SRD法可以满足泰坦尼克号爱好者的好奇。我建立了一个初步的泰坦尼克模型,用来确认幸存者,如果泰坦尼克II号将要出航的话,就可以事先预测谁将最有可能在撞击冰山时有机会活下来,这个幸存概率是2.0408e-12到1之间[1]。这个模型稍后会详细介绍,它清晰地展示了SRD数据挖掘方法的优势,值得被纳入每位数据挖掘工程师的工具箱里。
1.泰坦尼克数据集
泰坦尼克号上的船员和乘客共有2201[2]人,只有711人活下来了,幸存率为32.2%。对于所有这些人来说,他们的人员信息是已知的:GENDER(男,女),CLASS(头等,二等,三等,大仓),AGE(成人,儿童)。
所有人按照GENDER-CLASS-AGE分为14类(表6.3)。表6.3包括了总人数(N)、幸存人数(S)以及幸存率(Survival Rate,单位是%)。
表6.3 泰坦尼克数据集
![](https://epubservercos.yuewen.com/F5D3BB/21233234408534806/epubprivate/OEBPS/Images/6b3.jpg?sign=1739277185-fpoFRRnnVg08HfP5PekBKsJ0x2ODSocE-0-9ab7e24d0ccad337126ba9c86d87622c)
由于只有3个变量,而且信息很少,所以,构建泰坦尼克模型无论是从学术界还是业界角度看,都是非常有挑战性的[2-6]。SRD法在构建泰坦尼克模型的文献中是一个有价值的数据挖掘原创方法。下一节我们介绍这个建模过程。
2.重新编码的泰坦尼克序数变量CLASS_、AGE_、GENDER_、CLASS_AGE_和CLASS_GENDER_
为了观察这些数据的形态,我绘制了CLASS_、AGE_、GENDER_茎叶图和箱线图(分别见图6.6、图6.7、图6.8),也绘制了6.2节建立的交互变量CLASS_AGE_和CLASS_GENDER_的图,见图6.9和图6.10。在为交互变量设定顺序值时,我采用了众所周知的危机评价范围。“妇女儿童优先”,女性和儿童的幸存率分别是74.35%和52.29%(表6.4),这在上面所说的区间之内。
![](https://epubservercos.yuewen.com/F5D3BB/21233234408534806/epubprivate/OEBPS/Images/6a6.jpg?sign=1739277185-quuqo6gm7OWxJahhZz5qXemOg9KW2LyL-0-ebeff0ab1052c633542a890fdbdf1823)
图6.6 CLASS_直方图和箱线图
![](https://epubservercos.yuewen.com/F5D3BB/21233234408534806/epubprivate/OEBPS/Images/6a7.jpg?sign=1739277185-XtHG5O8ah5Q9zA3l2kIPuWwkdcI4ntVg-0-8c1d22e9af9e5c553ff7907085912405)
图6.7 AGE_直方图和箱线图
![](https://epubservercos.yuewen.com/F5D3BB/21233234408534806/epubprivate/OEBPS/Images/6a8.jpg?sign=1739277185-roFE1YCIVDlRzyPd3kv4dRibkn1pRy5M-0-43bb3537909f544a436712f3043a9ca8)
图6.8 GENDER_直方图和箱线图
![](https://epubservercos.yuewen.com/F5D3BB/21233234408534806/epubprivate/OEBPS/Images/6a9.jpg?sign=1739277185-VReSna4XJrY6rxJRdjMdbcJy68JupekZ-0-0e72049417597b718bf6b04f91626db2)
图6.9 CLASS_AGE_直方图和箱线图
3.对称化处理后的泰坦尼克序数变量rCLASS_、rAGE_、rGENDER_、rCLASS_AGE_和rCLASS_GENDER_
rCLASS_、rAGE_、rGENDER_、rCLASS_AGE_、rCLASS_GENDER_的茎叶图和箱线图见图6.11~图6.15。
![](https://epubservercos.yuewen.com/F5D3BB/21233234408534806/epubprivate/OEBPS/Images/6a10.jpg?sign=1739277185-js8IzqnYjUMcG3eXu1D4CGYLSkGwjCiz-0-d6ad2db0ebd642af75228527c86b4a59)
图6.10 CLASS_GENDER_直方图和箱线图
表6.4 女性与儿童的存活情况
![](https://epubservercos.yuewen.com/F5D3BB/21233234408534806/epubprivate/OEBPS/Images/6b4.jpg?sign=1739277185-S0AktluKDfaMWJRkl4Q33ctMLOnWILxD-0-708e63dd467ed08ac1f8e36ff3b4b722)
![](https://epubservercos.yuewen.com/F5D3BB/21233234408534806/epubprivate/OEBPS/Images/6a11.jpg?sign=1739277185-AF6uMR5YGbDHL9lwjar1GpwwE5ZQ01Gd-0-be72e9a19a915415577a0f530589fb4c)
图6.11 rCLASS_直方图和箱线图
SRD法的应用结果见表6.5,可以对比原始变量和SRD变量的偏度。变量CLASS_、CLASS_AGE_和CLASS_GENDER_已经被重新表述,可以看到相应的有偏分布到对称分布之间的巨大差异:在朝向零的方向,偏度值大幅下降,尽管AGE_和GENDER_是无意义的变量,这两个变量只有两个值,这里只是用作参考。
4.构建一个初步的泰坦尼克模型
按照序数变量和区间变量的定义,我们知道对称化排序变量不是序数变量。尽管如此,经过重新表述的变量rCLASS_、rCLASS_AGE_和rCLASS_GENDER_的度量性质是不明显的。这些变量不是在一个比率量度上,因为无法定义一个真实零值。相应地,我把对称化排序变量定义为一个类似区间变量的变量。
![](https://epubservercos.yuewen.com/F5D3BB/21233234408534806/epubprivate/OEBPS/Images/6a12.jpg?sign=1739277185-WW3xHLoBLq4GUra6SBcSKg51EGpoED3G-0-6e0aac7e9a780ddeee8942fa2be00ade)
图6.12 rAGE_直方图和箱线图
![](https://epubservercos.yuewen.com/F5D3BB/21233234408534806/epubprivate/OEBPS/Images/6a13.jpg?sign=1739277185-EOmBCA1zOrCkUhhbQyqOaaBMWVUF91aC-0-0c28163ab80158528481fffd62c27859)
图6.13 rGENDER_直方图和箱线图
![](https://epubservercos.yuewen.com/F5D3BB/21233234408534806/epubprivate/OEBPS/Images/6a14.jpg?sign=1739277185-DUGnABj2WNV6pWW0yBYMkrThs8ZifAVi-0-fd6f17da607cb84136153ad33553a00f)
图6.14 rCLASS_AGE_直方图和箱线图
![](https://epubservercos.yuewen.com/F5D3BB/21233234408534806/epubprivate/OEBPS/Images/6a15.jpg?sign=1739277185-4m4daJlS49YphWFzY2yIvDXwlRQW5Ffe-0-49de3b163b11a000a04ad661022566f3)
图6.15 rCLASS_GENDER_直方图和箱线图
表6.5 原数据与经过对称化处理的排序数据偏度对比
![](https://epubservercos.yuewen.com/F5D3BB/21233234408534806/epubprivate/OEBPS/Images/6b5.jpg?sign=1739277185-W91Ims3sYqdMxRkh86jheJEORv16XmBy-0-d107facf908a64c5fb0218c107a4aabb)
初步的泰坦尼克模型是一个以SURVIVED为因变量的逻辑斯谛回归模型,并假定1=是,0=否。这个初步的泰坦尼克模型用SAS程序LOGISTIC建立,其定义包含了两个交叉对称化排序变量rCLASS_AGE_和rCLASS_GENDER_,见表6.6。
表6.6 初步泰坦尼克模型的LOGISTIC程序:最大似然估计分析
![](https://epubservercos.yuewen.com/F5D3BB/21233234408534806/epubprivate/OEBPS/Images/6b6.jpg?sign=1739277185-moPNGvsiYKuwApJnB60cfjdEx3NCEUlZ-0-f4f8ba4a0a0da0372d4a90de7ab2fa2f)
这个初步模型得出的结果是,59.1%(=420/711)的幸存者和之前预测的幸存者的归类是相符的,见表6.7。这个幸存率表明,可以得出对一个二值分类模型的预测能力的更准确的评估结果——如果有一个大的不成比例的单元,比如预测而且实际上有1199名乘客死亡(第一行,第一列)。这里只给出了初步模型的结果,因为还有很多工作需要完成,包括在完成这个泰坦尼克模型之前要测试三路交互变量,这些工作超出了本章内容的范围。
表6.7 初步泰坦尼克模型的分类表
![](https://epubservercos.yuewen.com/F5D3BB/21233234408534806/epubprivate/OEBPS/Images/6b7.jpg?sign=1739277185-a3v3PjpXV677v49sJUkqpyMwY81ifvBJ-0-261670b5c35cfd4bd10e7c7e3a48fc1a)
[1] 来源未知(实际是我丢失了这个来源信息)。
[2] 这个数字有争议,我看到的数字多数是2201名乘客和711名幸存者,也看到过2208名乘客和712名幸存者的说法。