잠재 의미 분석(SVD)텍스트 탐색기 플랫폼에서 잠재 의미 분석은 DTM(문서 용어 행렬)의 부분 SVD(특이값 분해)를 계산하는 것을 중심으로 이루어집니다. 이 분해 방법에서는 분석을 위해 텍스트 데이터를 관리 가능한 차원 수로 축소합니다. 잠재 의미 분석은 PCA(주성분 분석)를 수행하는 것과 동등합니다.
부분 특이값 분해는 세 개의 행렬 U, S 및 V¢를 사용하여 DTM에 근사한 값을 산출합니다. 이러한 행렬 간의 관계는 다음과 같이 정의됩니다.
DTM ≈ U * S * V¢
nDoc는 DTM의 문서(행) 수로 정의되고, nTerm은 DTM의 용어(열) 수로 정의되며, nVec은 지정된 특이값 수로 정의됩니다. nVec은 min(nDoc, nTerm)보다 작거나 같아야 합니다. 따라서 U는 DTM의 왼쪽 특이 벡터를 포함하는 nDoc x nVec 행렬입니다. S는 nVec차 대각 행렬입니다. S의 대각 항목은 DTM의 특이값입니다. V¢는 nVec x nTerm 행렬입니다. V¢의 행(또는 V의 열)은 오른쪽 특이 벡터입니다.
오른쪽 특이 벡터는 의미 또는 주제 영역이 유사한 서로 다른 용어 간의 연결성을 포착합니다. 세 개의 용어가 동일한 문서에서 나타나는 경향이 있는 경우 SVD에서는 V¢에 이 세 개의 용어에 대해 큰 값을 갖는 특이 벡터를 생성할 가능성이 높습니다. U 특이 벡터는 이 새로운 용어 공간에 투영된 문서를 나타냅니다.
잠재 의미 분석에서는 간접적 연결성도 포착합니다. 두 개의 단어가 동일한 문서에 함께 나타나지는 않지만 일반적으로 다른 세 번째 단어가 있는 문서에서 나타나는 경우 SVD는 해당 연결성의 일부를 포착할 수 있습니다. 두 개의 문서에 공통된 단어는 없지만 차원 감소 공간에서 연결되는 단어가 포함된 경우 이 두 문서는 SVD 출력에서 유사 벡터에 매핑됩니다.
SVD는 텍스트 데이터를 고정 차원 벡터 공간으로 변환하여 모든 유형의 군집화, 분류 및 회귀 기법에 적용할 수 있도록 합니다. 저장 옵션을 사용하면 이 벡터 공간을 다른 JMP 플랫폼에서 분석할 수 있는 형태로 내보낼 수 있습니다.
기본적으로는 특이값 분해가 수행되기 전에 DTM을 중심화하고 척도화한 후 nDoc - 1로 나눕니다. 이 분석은 DTM 상관 행렬의 PCA와 동등합니다.
"규격" 창에서 "중심화" 또는 "비중심화"를 지정할 수도 있습니다.
• "중심화"를 지정할 경우 특이값 분해 전에 DTM이 중심화된 후 nDoc - 1로 나뉩니다. 이 분석은 DTM 공분산 행렬의 PCA와 동등합니다.
• "비중심화"를 지정할 경우에는 특이값 분해 전에 DTM이 nDoc로 나뉩니다. 이 분석은 비척도화 DTM의 PCA와 동등합니다.
SVD 구현에서는 DTM이 중심화된 경우에도 DTM의 희소성을 활용합니다.