이 섹션에서는 함수 데이터 탐색기 플랫폼에서 적합시킬 수 있는 다양한 유형의 모형에 대해 설명합니다.
기저 함수 모형은 함수 모형을 확장하여 기저 함수의 선형 결합으로 다시 작성합니다. 함수 데이터 탐색기 플랫폼에서는 기저 스플라인(B-스플라인) 모형, 벌점 기저 스플라인(P-스플라인) 모형, Fourier 기저 모형 또는 소파동 모형을 데이터에 적합시킬 수 있습니다. Fourier 기저 모형은 주기 데이터에 유용합니다. 주기 모형은 함수의 시작 위치와 완료 위치가 같다고 가정합니다. 자세한 내용은 Fourier 기저 모형에서 확인하십시오.
소파동 모형은 정상점이 많이 포함된 데이터에 유용한 기저 함수 모형의 한 유형입니다. 소파동 모형을 사용하려면 데이터가 균등한 간격의 격자에 있어야 합니다. Haar, Daubechies, Symlet, Coiflet 및 배직교를 포함한 여러 계열의 소파동 모형이 동시에 적합됩니다. 이것은 모두 모수에 따라 정상점의 형태와 유형이 다른 유연한 함수입니다. 소파동에 대한 자세한 내용은 Nason 연구 자료(2008)에서 확인하십시오.
직접 모형은 기저 함수 모형을 먼저 적합시키지 않고 데이터에 대해 함수 주성분 분석을 직접 수행합니다. 데이터가 쌓인 행렬 형식으로 변환됩니다. 행렬의 각 행은 ID 변수의 한 수준에 대한 전체 출력 함수에 해당하고 행렬의 각 열은 입력 변수의 수준에 해당합니다. 직접 모형은 쌓인 함수 행렬에 대해 몇몇 유형의 행렬 분해 루틴을 수행하여 FPCA(함수 주성분 분석) 결과를 얻습니다. 행렬 분해 유형은 모형에 따라 결정됩니다. 직접 모형은 기저 함수 모형보다 더 유연하며 특히 대규모 데이터 집합의 경우 계산 시간이 단축됩니다.
함수 데이터 탐색기 플랫폼의 모든 직접 방법을 사용하려면 입력 데이터가 균등한 간격의 격자에 있어야 합니다. 그렇지 않은 경우 입력 데이터를 0에서 1 사이로 맞추고 관측값을 입력 값의 공통 격자에 보간하는 것이 각 방법의 첫 번째 단계입니다.
함수 데이터 탐색기 플랫폼에서는 다음과 같은 직접 모형을 적합시킵니다.
직접 함수 PCA 방법은 쌓인 함수 행렬에 대해 SVD(특이값 분해)를 수행합니다. SVD의 적재는 형상 함수에 해당합니다. SVD의 특이값은 고유값에 해당합니다. 직접 함수 PCA 방법은 다음과 같이 구현됩니다.
1. 쌓인 함수 행렬에 대해 SVD(특이값 분해)를 수행합니다.
2. 각 격자점에 매듭이 있는 P-스플라인 모형을 사용하여 첫 번째 고유 함수를 평활화합니다.
3. 데이터에서 첫 번째 평활 고유 함수를 제거하고, 많은 양의 데이터 변동이 설명될 때까지 step 1 ~ step 3를 반복합니다.
벌점 SVD 방법은 쌓인 함수 행렬에 대해 벌점 SVD(특이값 분해)를 수행합니다. 벌점 SVD는 형상 함수와 스코어의 작은 값을 0으로 줄이는 벌점 모수를 분해에 적용합니다. 이 방법을 사용하면 모형에 대한 잡음 기여도를 줄이고 해석력을 높일 수 있습니다. 자세한 내용은 벌점 SVD에서 확인하십시오.
비음 SVD 방법은 쌓인 함수 행렬에 대해 비음 SVD(특이값 분해)를 수행합니다. 비음 SVD는 스코어와 적재량이 0보다 크거나 같도록 행렬 분해를 제한합니다. 이렇게 하면 형상 함수가 음수가 아님을 보장합니다. 이 방법은 순양수 함수를 사용하는 경우에 유용합니다. 자세한 내용은 비음 SVD에서 확인하십시오.
벌점 비음 SVD 방법은 쌓인 함수 행렬에 대해 벌점 비음 SVD(특이값 분해)를 수행합니다. 벌점 비음 SVD는 벌점 SVD 방법과 비음 SVD 방법을 결합하여 적재량과 스코어가 순비음이고 작은 값을 0으로 줄인 결과를 생성합니다. 이 방법은 Lee et al(2010)의 알고리즘을 변형하여 모든 차원에 대해 벌점 비음 SVD를 한 번에 수행합니다.
다변량 곡선 해상도 방법은 쌓인 함수 행렬에 대해 행렬 분해를 수행합니다. 이 방법은 행렬을 혼합 비율 행렬과 비음 형상 함수 행렬로 분해합니다. 이렇게 분해하면 각 개별 함수(ID 변수의 수준)에 대한 형상 함수의 혼합이 생성됩니다. 이 방법은 함수가 특정 개수의 성분 결합이라는 것을 알고 있는 경우에 유용합니다. 이 방법은 화학 분야에서 스펙트럼 데이터를 분석하는 데 많이 사용됩니다. 자세한 내용은 다변량 곡선 해상도에서 확인하십시오.
형상 함수가 음수일 수 있다는 점을 제외하고 다변량 곡선 해상도 방법과 동일한 유형의 행렬 분해를 수행합니다.
정상점 찾기 방법은 데이터에서 정상점을 식별하고 요약합니다. 이 방법은 크로마토그래피 데이터와 같이 데이터 정상점이 관심 특성인 데이터에 유용합니다. 자동 정상점 감지 방법은 CWT(연속 소파동 변환)를 사용하여 모든 함수에서 자동으로 정상점을 찾습니다. 자세한 내용은 Du et al(2006)에서 확인하십시오. 이 방법은 정상점 최대값, 정상점 반폭, 개별 정상점 범위의 상한 및 하한을 찾습니다.