クラスタリングは、多変量データをもとに、値が近い行をグループにまとめていく手法です。通常、データ点はp次元空間全体に均等に散らばっておらず、いくつかの塊(クラスター)になっているでしょう。それらのクラスターを見つけ出すと、データをよりよく理解できるようになるでしょう。
「K Meansクラスター分析」は、数十万行までの大きいデータに適しています。この分析は、数値データだけに対応しています。処理を開始する前に、クラスターの数kを指定する必要があります。まず、適切と思われるシード点が推定されます。その後、各点をクラスターに割り当てる作業とクラスター中心を再計算する作業が交互に繰り返されます。