「K Meansクラスター分析」プラットフォームの概要

JMPには、データ行をクラスタリングするためのプラットフォームが4つ用意されています。「K Meansクラスター分析」は、そのなかの1つです。4つの手法の比較については、第 “クラスター分析用プラットフォームの概要”を参照してください。

「K Meansクラスター分析」プラットフォームは、事前に指定されたクラスター数（クラスターの個数）に対して、反復アルゴリズムを用います。まず、クラスター数と同数のk個の点が選択されます。この点は、「クラスターシード」と呼ばれており、クラスターの平均を示す最初の推定値です。そして、最も近くにあるクラスターシードに各データ行が割り振られます。次に、クラスターごとに平均を計算し、既存のクラスターシードをそれらの新しく計算された平均に置き換えます。そして、そのように新しく計算されたクラスターシードに、データ行が再び割り振られます。この処理が反復されると、最後にはクラスターシードの平均や割り振りに変化が生じない状態になります。

k-means法のこのようなアルゴリズムは、EMアルゴリズムの特殊形態です。EMアルゴリズムのEは期待値（Expectation）、Mは最大化（Maximization）を意味します。k-means法のアルゴリズムでは、クラスター平均の計算が「期待値」のEステップで、最も近いクラスターへの点の割り当てが「最大化」のMステップになっています。

「K Meansクラスター分析」プラットフォームでは、数値の列しか使用できません。モデルの尺度タイプ（名義尺度、順序尺度）は無視され、すべての数値列が連続尺度として扱われます。

「K Meansクラスター分析」プラットフォームでは、事前にクラスター数k（またはkの範囲）を指定しておく必要があります。ただし、さまざまなkの結果を比べて、データに最もふさわしいだろうクラスター数を後から選択することはできます。

k--means法の背景については、『SAS/STAT 14.3 User’s Guide』（SAS Institute Inc. 2017c）の「FASTCLUS Procedure」章およびHastieその他を参照してください。（2009）を参照してください。