机器学习中的聚类是什么？如何理解？

2021年4月16日18:48:56 发表评论 1,391 次浏览

聚类介绍

聚类基本上是一种无监督学习方法。无监督学习方法是一种方法, 其中我们从包含输入数据的数据集中获取引用而没有标记的响应。通常, 它用作查找有意义的结构, 说明性的基础过程, 生成特征以及一组示例中固有的分组的过程。

聚类是将总体或数据点划分为若干组，使同一组中的数据点更类似于同一组中的其他数据点，而不同于其他组中的数据点。它基本上是一个物体的集合，基于它们之间的相似和不同。

对于ex -在下面的图表中聚集在一起的数据点可以被分为一个单独的组。我们可以辨别出这些聚类，在下面的图片中我们可以辨别出有3个聚类。

聚类不必是球形的。如：

DBSCAN：带噪声的应用程序的基于密度的空间聚类

通过使用数据点位于聚类中心给定约束范围内的基本概念对这些数据点进行聚类。各种距离方法和技术被用于离群值的计算。

为什么要聚类？

聚类非常重要, 因为它决定了存在的未标记数据之间的固有分组。没有好的聚类标准。这取决于用户, 他们可以使用什么标准来满足他们的需求。例如, 我们可能有兴趣寻找同类组的代表(数据约简), 寻找"自然聚类"并描述其未知属性("自然"数据类型), 寻找有用和合适的分组("有用"数据类)或查找异常数据对象(异常检测)。该算法必须做出一些构成点相似性的假设, 并且每个假设都构成不同且同等有效的聚类。

聚类方法：

基于密度的方法：这些方法将聚类视为与空间中低密度区域有一定相似性和差异性的稠密区域。这些方法具有较好的准确性和合并两个聚类的能力。例如DBSCAN(基于密度的带噪声空间聚类应用)，OPTICS(排序点识别聚类结构)等。

基于层次的方法：

用这种方法形成的聚类基于层次结构形成树型结构。使用先前形成的集群形成新的集群。它分为两类