この節では、「関数データエクスプローラ」プラットフォームであてはめることができる、さまざまな種類のモデルについて説明します。
基底関数展開モデルでは全体の関数モデルを複数の基底関数に展開し、基底関数の線形結合として全体の関数モデルを表現します。「関数データエクスプローラ」プラットフォームでは、データに対して基底スプライン(B-スプライン)モデル、罰則付き基底スプライン(P-スプライン)モデル、Fourier(フーリエ)基底モデル、ウェーブレットモデルをあてはめることができます。Fourier基底モデルは、周期性をもつデータに適しています。「周期的なデータ」とは、開始時点での観測値が、終了時点での観測値と繋がっているデータのことです。Fourier基底モデルを参照してください。
ウェーブレットモデルは、複数のピークがあるデータを分析するのに役立ちます。ウェーブレットモデルでは、データが等間隔のグリッド上に存在している必要があります。ウェーブレットの基底関数の種類には、Haar、Daubechies、Symlet、Coiflet、Biorthogonalなどがありますが、それらの複数の基底を1種類ずつまとめてあてはめることもできます。これらのウェーブレットモデルはすべて、さまざまな形状をしており、また、様々な種類のピークを持つ、柔軟な関数です。ウェーブレットの詳細については、Nason(2008)を参照してください。
直接的なモデル推定は、基底関数展開モデルをあてはめずに、データに対して直接的に関数主成分分析を実行します。直接的な関数主成分分析では、まず、データが、行がIDで列が入力変数である行列に変換されます。この積み重ねた行列の各行はID変数の1つの水準に対する全出力関数に対応し、各列は入力変数の水準に対応します。直接的なモデル推定では、この積み重ねた行列に対して何らかの行列分解を実行することによって、関数主成分分析を行います。行列分解の種類はモデルによって決まります。直接的なモデル推定は基底関数モデルよりも柔軟性が高く、特に大規模なデータセットに対しては計算時間を短縮できます。
「関数データエクスプローラ」プラットフォームにある直接法はすべて、入力データが均等な間隔のグリッド上にある必要があります。入力データが均等な間隔になっていない場合は、主成分分析の処理を開始する前に、まず、入力データを0から1までの範囲でスケーリングし、観測値を共通の入力値のグリッドに対して補間します。
「関数データエクスプローラ」プラットフォームは、次の直接的なモデルをあてはめます。
直接関数主成分分析法は、積み重ねた行列に対して特異値分解(SVD; singular value decomposition)を実行します。この特異値分解で得られた因子負荷は、形状関数に対応します。特異値分解の特異値は、固有値に対応します。直接関数主成分分析法は、次のように計算されます。
1. 積み重ねた行列に対して、特異値分解(SVD; singular value decomposition)を実行します。
2. P-スプラインモデルによって、最初の固有関数(第1固有関数)を滑らかにします。このP-スプラインモデルは、各グリッド点に節点があるP-スプライン曲線です。
3. その滑らかにした最初の固有関数をデータから引きます。以上の処理を、データ内の大半の変動が説明されるまでstep 1~step 3を繰り返します。
罰則付き特異値分解は、積み重ねた行列に対して、罰則付き特異値分解を実行します。罰則付き特異値分解は、特異値分解の計算にペナルティパラメータ(罰則パラメータ)を加えることで、形状関数やスコアの小さな値をゼロにします。罰則付き特異値分解によって、モデルへの誤差の影響を小さくし、また、より解釈しやすい結果となります。罰則付き特異値分解を参照してください。
非負値特異値分解法は、積み重ねた行列に対して非負値特異値分解を実行します。非負値特異値分解は、行列分解に制約を加え、スコアと因子負荷が0以上になるようにします。これにより、形状関数が負になることはなくなります。この手法は、関数が常に正の値を持つ場合に便利です。非負値特異値分解を参照してください。
罰則付き非負値特異値分解法は、積み重ねた行列に対して罰則付き非負値特異値分解を実行します。罰則付き非負値特異値分解は、罰則付き特異値分解法と非負値特異値分解法を組み合わせて、因子負荷およびスコアを、すべてゼロ以上にして、かつ、小さな値はゼロにします。この手法は、Lee et al(2010)のアルゴリズムを変更したものであり、すべての次元に対して一度に罰則付き非負値特異値分解を実行します。
多変量スペクトル分離(multivariate curve resolution)は、積み重ねた行列に対して行列分解を実行します。この手法は、元のデータを表す積み重ねた行列を、配合物の割合を示す行列と、負でない形状関数の行列に分解します。多変量スペクトル分離での分解により、各関数(ID変数の水準)は、形状関数の混合として表現されます。多変量スペクトル分離は、測定している物質が配合物であり、スペクトルなどのデータがいくつかの成分の混合になっている時に役立ちます。多変量スペクトル分離は、化学分野におけるスペクトルデータの分析でよく使われます。多変量スペクトル分離を参照してください。
多変量スペクトル分離と同様の行列分解を実行しますが、形状関数は負の値を取ることができます。
ピーク検出の機能では、データがもつピークを特定・要約します。これは、データのピークが興味のある特性であるような、クロマトグラフィーデータなどに対して便利です。自動ピーク検出法は、連続ウェーブレット変換(CWT; continuous wavelent transformation)によって、すべての関数データに対してピークを自動的に検出します。Du et al(2006)を参照してください。ピーク検出の機能では、各ピークについて、ピークの最大値、ピークの半値幅(half-height width)、およびピークの広がりの上限と下限を算出します。