예측 및 전문 모델링 > 연관성 분석 > 특이값 분해 개요
발행일 : 03/10/2025

Image shown here특이값 분해 개요

SVD(특이값 분해)는 서로 선호도가 있는 항목을 식별할 수 있는 다른 방법을 제공하여 연관성 분석을 보완합니다. 트랜잭션 항목 행렬의 특이값 분해는 행렬을 관리 가능한 차원 수로 축소하여 유사한 트랜잭션 및 유사한 항목을 그룹화할 수 있도록 합니다. SVD 분석은 상관 행렬에 대해 PCA(주성분 분석)를 수행하는 것과 동일합니다.

트랜잭션 항목 행렬은 각 행이 트랜잭션에 해당하고 각 열이 항목에 해당하는 행렬입니다. 행렬의 항목은 0과 1입니다. 트랜잭션에서 항목이 발생하면 해당 행과 열 항목이 1입니다. 그렇지 않으면 행과 열 항목이 0입니다. 일반적으로 트랜잭션 항목 행렬에는 1보다 0 값이 더 많으므로 희소 행렬이라고 합니다.

부분 특이값 분해는 세 개의 행렬 U, SV¢를 사용하여 열 표준화 트랜잭션 항목 행렬에 근사한 값을 산출합니다. 이러한 행렬 간의 관계는 다음과 같이 정의됩니다.

트랜잭션 항목 행렬 U * S * V¢

nTran을 트랜잭션 항목 행렬의 트랜잭션(행) 수, nItem을 트랜잭션 항목 행렬의 항목(열) 수, nVec를 지정된 특이 벡터 수로 각각 정의합니다. nVec는 min(nTran, nItem)보다 작거나 같아야 합니다. 따라서 U는 트랜잭션 항목 행렬의 왼쪽 특이 벡터를 포함하는 nTran x nVec 행렬입니다. SnVec차 대각 행렬입니다. S의 대각 항목은 트랜잭션 항목 행렬의 특이값입니다. V¢nVec x nItem 행렬입니다. V¢의 행(또는 V의 열)은 오른쪽 특이 벡터입니다.

오른쪽 특이 벡터는 함수 또는 주제 영역이 유사한 서로 다른 항목 간의 연관성을 포착합니다. 세 개의 항목이 동일한 트랜잭션에 나타나는 경향이 있는 경우 SVD에서는 V¢에 이 세 개 항목에 대해 큰 값을 갖는 특이 벡터를 생성할 가능성이 높습니다. U 특이 벡터는 이 새로운 항목 공간에 투영된 트랜잭션을 나타냅니다.

SVD는 간접 관계도 포착합니다. 두 개의 항목이 동일한 트랜잭션에 함께 나타나지는 않지만 일반적으로 다른 세 번째 항목이 있는 트랜잭션에 나타나는 경우 SVD는 이러한 연관성을 포착할 수 있습니다. 두 개의 트랜잭션에 공통된 항목은 없지만 차원 축소 공간에서 연결되는 항목이 포함된 경우 이 두 트랜잭션은 SVD 그림에서 유사 벡터에 매핑됩니다.

SVD는 트랜잭션 데이터를 고정 차원 벡터 공간으로 변환하여 군집화, 분류 및 회귀 기법에 적용할 수 있도록 합니다. 저장 옵션을 사용하면 이 벡터 공간을 다른 JMP 플랫폼에서 분석할 수 있는 형태로 내보낼 수 있습니다.

특이값 분해가 수행되기 전에 트랜잭션 항목 행렬을 중심화하고 척도화한 후 nTran - 1로 나눕니다. 이 분석은 트랜잭션 항목 행렬의 상관 행렬에 대한 PCA와 동일합니다. SVD 구현은 트랜잭션 항목 행렬의 희소성을 활용합니다.

더 많은 정보를 원하십니까? 질문이 있습니까? JMP 사용자 커뮤니티에서 답변 받기 (community.jmp.com).