![统计挖掘与机器学习:大数据预测建模和分析技术(原书第3版)](https://wfqqreader-1252317822.image.myqcloud.com/cover/26/40868026/b_40868026.jpg)
上QQ阅读APP看书,第一时间看更新
3.3 散点图
对相关系数的线性假设的检验采用了散点图,即将点对(Xi,Yi)画在X-Y坐标图上。Xi和Yi通常分别作为预测值和因变量;下标i代表从1到n的观察值,其中n是样本量。在水平X轴和垂直Y轴的图上,散点图可以形象地展示两个变量之间的关系(但不意味着预测值和因变量之间存在因果关系)。如果图上散布的点看上去形成了一条直线,则满足了线性条件,rX,Y提供了一个度量X和Y线性关系的有意义的指标。如果这些散布的点不在一条直线上,则该条件不满足,rX,Y的值是有疑问的。
所以,在使用相关系数度量线关系时,建议画出散点图,检验线性假设条件是否成立。不幸的是,许多数据分析师不这样做,那么基于相关系数之上的分析可能是无效的。下面的示例可以进一步说明用散点图评估的重要性。
表3.2中有4个数据集,共11个观察值[1]。这4组(X,Y)点子具有同样大小的相关系数0.82。然而,X-Y关系是截然不同的,反映了不同的结构,见散点图3.1。
表3.2 4组(X,Y)点具有同样大小的相关系数(r=0.82)
![](https://epubservercos.yuewen.com/F5D3BB/21233234408534806/epubprivate/OEBPS/Images/3b2.jpg?sign=1739278186-QthEp02RSGdf4Gn5U2WIT3DecmWhFhCn-0-d5c01fb162925cd0582b7426533aa6a8)
![](https://epubservercos.yuewen.com/F5D3BB/21233234408534806/epubprivate/OEBPS/Images/3a1.jpg?sign=1739278186-EPbRYjJsa1BRCr4YwhFku7CinkINUiu3-0-8be1d3d6cb8585e4d89376cc2f8a1e46)
图3.1 4组不同数据集具有同样大小的相关系数
X1-Y1(图3.1a)表明存在线性关系。所以的值0.82正确指出了X1和Y1之间存在强正相关性。X2-Y2散点图(图3.1b)展示了一个弯曲的关系;
=0.82。X3-Y3散点图(图3.1c)显示了“外边”的一个观察值(13,12.74),其他点子形成了一条直线;
=0.82。X4-Y4散点图(图3.1d)有“自己独特的形状”,明显不是线性的;
。所以说,相关系数值0.82对于后三个X-Y关系并不是一个有意义的数值。