聚类是将在几个变量上享有相似值的观测分组在一起的一种多元方法。通常情况下,观测在 n 维空间内散布不均,而是形成聚簇或聚类。标识出这些聚类使您可以更深层次地了解您的数据。
“K 均值聚类”适用于多达数百万行的大型表,并且只允许数值数据。您需要提前指定聚类数 k。该算法可以对聚类种子点做出推测。随后开始在为聚类分配点和重新计算聚类中心之间交替进行迭代过程。