「K Meansクラスター分析」プラットフォームは、事前に指定されたクラスター数(クラスターの個数)に対して、反復アルゴリズムを用います。まず、クラスター数と同数のk個の点が選択されます。この点は、「クラスターシード」と呼ばれており、クラスターの平均を示す最初の推定値です。そして、最も近くにあるクラスターシードに各データ行が割り振られます。次に、クラスターごとに平均を計算し、既存のクラスターシードをそれらの新しく計算された平均に置き換えます。そして、そのように新しく計算されたクラスターシードに、データ行が再び割り振られます。この処理が反復されると、最後にはクラスターシードの平均や割り振りに変化が生じない状態になります。
k-means法のこのようなアルゴリズムは、EMアルゴリズムの特殊形態です。EMアルゴリズムのEは期待値(Expectation)、Mは最大化(Maximization)を意味します。k-means法のアルゴリズムでは、クラスター平均の計算が「期待値」のEステップで、最も近いクラスターへの点の割り当てが「最大化」のMステップになっています。
K Meansクラスター分析」プラットフォームでは、数値の列しか使用できません。モデルの尺度タイプ(名義尺度、順序尺度)は無視され、すべての数値列が連続尺度として扱われます。
「K Meansクラスター分析」プラットフォームでは、事前にクラスター数k(またはkの範囲)を指定しておく必要があります。ただし、さまざまなkの結果を比べて、データに最もふさわしいだろうクラスター数を後から選択することはできます。
k--means法の背景については、『SAS/STAT 14.3 User’s Guide』(SAS Institute Inc. 2017c)の「FASTCLUS Procedure」章およびHastieその他を参照してください。(2009)を参照してください。