上QQ阅读APP看书,第一时间看更新
4.2.2 聚类算法和分类算法的区别
大多数刚接触数据挖掘的人似乎对聚类和分类这两类算法分得不是特别清楚,这里简单总结了两者的区别。
1)对输入数据集的要求不同。聚类算法不要求输入数据集有预先定义的标签,但分类算法需要标签作为监督学习的参考。
2)学习方式不同。聚类算法是一种非监督式学习算法;分类算法是监督式学习算法。
3)应用场景不同。聚类算法一般应用于数据探索性分析、数据降维、数据压缩等过程性分析和处理;分类算法更多应用于预测性分析。
4)对于结果的解读不同。聚类算法的结果是将不同的数据集按照各自的典型特征分成不同类别,解读因人而异;分类算法的结果却是一个固定值(例如好、坏、是、否等),不存在不同解读的情况。
5)模型评价指标不同。聚类分析没有确切的“准确”标准,更多是基于距离的度量,如果是对带有标签的数据集做聚类则可以做相似度、完整度等方面的评估;分类模型(例如准确率、混淆矩阵等)则有明显的好与坏等评估指标。