함수 데이터 탐색기의 예이 예에서는 미국 전역의 16개 기상 관측소에서 수집한 주간 기상 데이터를 분석합니다. 모든 기상 관측소가 매주(년 중)에 대한 주간 온도 측정값을 가지고 있는 것은 아니므로 이것은 희소 함수 데이터의 예입니다. 일별 온도는 주간 평균으로 요약됩니다. 데이터 테이블의 "Weather Station Locations" 스크립트를 실행하여 위치 지도를 표시합니다.
1. 도움말 > 샘플 데이터 폴더를 선택하고 Functional Data/Weekly Weather Data.jmp를 엽니다.
2. 분석 > 전문 모델링 > 함수 데이터 탐색기를 선택합니다.
3. TMAX를 선택하고 Y, 출력을 클릭합니다.
4. Week of Year를 선택하고 X, 입력을 클릭합니다.
5. ID를 선택하고 ID, 함수를 클릭합니다.
6. 확인을 클릭합니다.
그림 16.2 초기 함수 데이터 탐색기 보고서
초기 "함수 데이터 탐색기" 보고서에는 원시 데이터 그림, 요약 통계량, 데이터의 함수 평균 및 함수 표준편차 요약 그림이 포함되어 있습니다. 데이터 처리 옵션이 포함된 "명령" 섹션도 있습니다. 데이터 처리 옵션은 "데이터 처리"의 빨간색 삼각형 메뉴에서도 액세스할 수 있습니다. 대개 모델링하기 전에 출력 데이터를 표준화하는 것이 좋습니다.
7. "명령" 섹션에서 "변환" 탭을 클릭합니다.
8. 표준화 버튼을 클릭합니다.
지정된 변환을 기반으로 데이터 그림과 요약 통계량이 업데이트됩니다. "단계" 목록에 "표준화"가 추가됩니다.
9. "함수 데이터 탐색기"의 빨간색 삼각형을 클릭하고 모형 > Fourier 기저를 선택합니다.
그림 16.3 Fourier 기저 모형 보고서
"Fourier 기저" 보고서에는 선택한 모형에 대한 정보를 제공하는 여러 보고서가 포함되어 있습니다. "모형 선택" 보고서에는 BIC 적합 기준에 따라 최량 적합 모형이 표시됩니다. 기상 데이터의 경우 선택된 Fourier 기저 모형의 주기는 53이고 기저 함수 쌍은 3개입니다. 모형에 대한 적합 통계량과 계수도 제공됩니다. 아래로 스크롤하여 "함수 PCA" 보고서를 봅니다.
그림 16.4 함수 PCA 보고서
"함수 PCA" 보고서에서는 처음 두 고유값이 데이터 변동의 거의 97%를 설명한다는 것을 보여 줍니다. "모형 선택" 그래프에서 빨간색 파선을 클릭한 후 3 FPC로 드래그하면 처음 세 고유값이 데이터 변동의 99%를 설명한다는 것을 확인할 수 있습니다. 그러나 첫 번째 고유값만으로 92%를 설명합니다. "스코어 그림"을 사용하여 다른 함수의 이상치인 개별 함수를 감지할 수 있습니다. "스코어 그림"에서 "Miami Beach, FL"과 "Greenville, ME" 위치를 제외한 대부분의 위치가 함께 모여 있습니다. 개별 함수 그림이 나올 때까지 위로 스크롤합니다. Miami Beach 위치의 함수는 더 편평하므로 다른 위치에 비해 온도 변동이 적다는 것을 나타냅니다. Greenville 위치의 함수는 최대값이 더 낮으므로 다른 위치에 비해 온도가 일관되게 낮음을 나타냅니다.
팁: 이상치를 더 잘 식별하려면 "스코어 그림" 보고서에서 "변수 라벨" 옵션을 선택 취소하십시오.