정규 표현식 사용자 정의 옵션을 선택하면 텍스트 탐색기 정규 표현식 편집기가 나타납니다. 이 창에서 전화 번호, 시간 또는 통화 값과 같은 다양한 기본 제공 정규 표현식을 사용하여 텍스트 문서를 파싱할 수 있습니다. 고유한 정규 표현식 정의를 생성할 수도 있습니다.
참고: "정규 표현식 사용자 정의" 옵션은 기본 정규 표현식 방법으로 원하는 결과를 얻을 수 없는 경우에만 사용하는 것이 좋습니다. 이러한 경우는 텍스트에 기본 정규 표현식 방법으로 인식되지 않는 구조가 포함된 경우에 발생할 수 있습니다.
팁: 시작 창의 "언어" 옵션에 일본어, 중국어(간체), 중국어(번체) 또는 한국어가 지정된 경우에는 정규 표현식 패턴 목록에 지정된 언어에 대한 하나 이상의 정규 표현식 패턴이 포함됩니다. 다른 정규 표현식 패턴을 추가하려면 언어별 정규 표현식 패턴 뒤에 추가하는 것이 좋습니다. 단어 패턴은 일련의 긴 아시아 언어 문자를 하나의 단어로 취합할 수 있기 때문에 언어별 정규 표현식 패턴 앞에 단어 패턴을 사용하지 않는 것이 좋습니다.
그림 12.7 텍스트 탐색기 정규 표현식 편집기
창 맨 위의 스크립트 편집기 상자에서는 샘플 텍스트에 대한 파싱 진행 방식을 보여 줍니다. 정규 표현식 편집기 목록의 정규 표현식을 파싱한 결과는 정규 표현식 편집기 목록의 색상에 해당하는 색상으로 강조 표시됩니다.
• 스크립트 편집기 상자에 사용자 데이터의 텍스트를 채우려면 첫 번째, 이전, 다음 및 마지막 행 버튼을 클릭합니다. 이렇게 하면 지정된 텍스트 데이터 행이 파싱되는 방식을 볼 수 있습니다. 편집 상자에 행 번호를 입력하여 스크립트 편집기 상자를 데이터 테이블의 특정 행에 있는 텍스트로 채울 수도 있습니다.
• 정규 표현식 토큰화 결과가 포함된 새 열을 데이터 테이블에 저장하려면 열에 저장 버튼을 클릭합니다. 정규 표현식의 결과를 지정하는 방법에 대한 자세한 내용은 정규 표현식 편집에서 확인하십시오. 열 > 유틸리티 > 텍스트 매칭으로 새 열 생성에서 정규 표현식 편집기에 액세스하면 열에 저장 버튼이 나타나지 않습니다.
참고: 열에 저장 버튼을 클릭할 경우 텍스트 매칭에 정규 표현식만 사용됩니다. 정규 표현식의 출력을 수정하는 데 중지 단어, 재코딩, 어간 추출, 구, 또는 단어당 최소/최대 문자 수 등의 설정은 사용되지 않습니다.
토큰화에 사용할 정규 표현식을 추가하려면 목록 아래의 더하기 기호를 클릭합니다. 그러면 "정규 표현식 라이브러리 선택" 창이 나타납니다. 이 창에는 모든 기본 제공 정규 표현식뿐만 아니라 이전에 정규 표현식 편집기에서 생성한 후 최근에 수정한 정규 표현식도 포함되어 있습니다. 기본 제공 정규 표현식에는 라벨이 지정되어 있습니다. 라이브러리에 저장된 사용자 정규 표현식에는 사용자가 지정한 이름으로 라벨이 지정됩니다. 지정된 이름의 가장 최근 표현식만 정규 표현식 라이브러리에 저장됩니다.
재호출 버튼을 클릭하여 정규 표현식 목록을 정규 표현식 편집기의 가장 최근 인스턴스에서 사용한 정규 표현식으로 채웁니다. 재호출된 정규 표현식은 편집기의 이전 인스턴스에서 열에 저장 버튼이나 확인 버튼을 클릭할 때 존재한 정규 표현식입니다.
선택한 정규 표현식을 토큰화에 사용할 정규 표현식으로 추가하려면 목록에서 정규 표현식을 하나 이상 선택하고 확인을 클릭합니다. 정규 표현식 라이브러리에서 하나 이상의 사용자 정규 표현식을 제거하려면 선택 항목 삭제 버튼을 사용합니다. 각 사용자의 정규 표현식 라이브러리는 TextExplorer라는 디렉터리에 JSL파일로 저장됩니다. 이 디렉터리의 위치는 다음과 같이 컴퓨터 운영 체제에 따라 다릅니다.
• Windows: C:\Users\<username>\AppData\Roaming\JMP\JMP\TextExplorer\
• macOS: /Users/<username>/Library/Application Support/JMP/TextExplorer/
이러한 파일을 다른 사용자와 공유할 수는 있지만 파일을 직접 편집해서는 안 됩니다. 대신 정규 표현식 편집기를 사용하십시오.
정규 표현식 편집기 패널에 지정된 순서대로 정규 표현식을 처리하여 용어를 토큰화할 수 있습니다. 정규 표현식의 순서를 변경하려면 목록에서 정규 표현식을 선택하고 목록 아래의 위쪽 또는 아래쪽 화살표 버튼을 클릭합니다. 정규 표현식 목록의 항목을 드래그하여 놓는 방법으로 실행 순서를 변경할 수도 있습니다. 파란색 삼각형은 현재 선택된 정규 표현식을 나타냅니다. 정규 표현식을 제거하고 토큰화에서 제외하려면 목록에서 정규 표현식을 선택하고 목록 아래의 빼기 기호를 클릭합니다. "나머지" 정규 표현식은 제거할 수 없으며 정규 표현식 시퀀스에서 마지막으로 나타나야 합니다.
목록에서 정규 표현식을 선택하면 정규 표현식 편집기 패널의 편집 가능한 필드는 선택한 정규 표현식을 참조합니다. 필드를 편집하려면 해당 필드를 클릭하고 내용을 입력합니다.
각 정규 표현식에는 다음과 같은 속성이 있습니다.
제목
현재 창과 이후 정규 표현식 라이브러리에서 정규 표현식을 식별하는 데 사용할 이름을 지정합니다.
정규 표현식
정규 표현식 정의를 지정합니다. 정규 표현식 캡처를 지정하려면 정규 표현식에 하나 이상의 괄호 쌍이 있어야 합니다.
결과
정규 표현식과 매칭되는 텍스트를 대체할 항목을 지정합니다. 이 값은 정적 텍스트, 공백 또는 정규 표현식 캡처의 값일 수 있습니다. 정규 표현식 캡처는 정규 표현식 정의의 결과로 정의됩니다.
– 매칭되는 텍스트를 정적 텍스트로 바꾸려면 "결과" 필드에 정적 텍스트를 지정합니다.
– 매칭되는 텍스트를 무시하려면 "결과" 필드를 비워 둡니다.
– 정규 표현식의 가장 바깥쪽 괄호에서 나온 텍스트를 유지하려면 "결과" 필드에 "\1"(따옴표 제외)을 사용합니다.
– 정규 표현식의 전체 결과를 유지하려면 "결과" 필드에 "\0"(따옴표 제외)을 사용합니다.
예제
(선택 사항) 정규 표현식의 동작을 나타내는 색상이 포함된 예제 텍스트 문자열을 지정합니다.
주석
(선택 사항) 정규 표현식과 해당 동작을 설명하는 주석을 지정합니다.
색상
스크립트 편집기 상자와 "예제" 필드의 텍스트에서 정규 표현식의 매칭 항목을 식별하는 데 사용되는 색상을 지정합니다. 색상을 변경하려면 화살표 버튼을 사용합니다.
참고: "정규 표현식" 필드의 정규 표현식 정의가 올바르지 않은 경우에는 정규 표현식 목록에서 해당 정규 표현식 이름 옆에 빨간색 X가 표시됩니다.
사용자 정규 표현식을 생성하려면 다음 단계를 수행하십시오.
1. 목록 아래의 더하기 기호를 클릭합니다.
2. "정규 표현식 라이브러리 선택" 창에서 "공백" 정규 표현식이 선택되어 있는지 확인합니다.
3. 확인을 클릭합니다.
4. "정규 표현식 편집기" 패널에서 정규 표현식 정의를 편집합니다.
5. "제목" 필드에서 사용자 정규 표현식의 고유 이름을 지정합니다.
팁: 정규 표현식 정의 필드를 편집할 때 로그 창을 열어 표시 상태로 두면 유용합니다. 일부 오류 메시지는 로그 창에만 나타나기 때문입니다. 로그 창을 열려면 보기 > 로그를 선택하십시오. 인터넷에서 정규 표현식 문제를 해결하는 데 사용할 수 있는 다양한 리소스를 참조할 수 있습니다(예: https://regexr.com/).
단어 구분 기호 목록 버튼을 사용하면 토큰화 프로세스에서 단어 사이에 나타나는 문자의 목록을 지정할 수 있습니다. 단어 사이 문자는 단어의 시작 문자가 될 수는 없지만 정규 표현식 중 하나에서 허용될 경우 단어 내에는 나타날 수 있습니다. 이 버튼을 클릭하면 나타나는 창의 목록에서 문자를 추가하거나 제거할 수 있습니다. 기본적으로 이 목록에 포함된 문자는 공백 문자뿐입니다. "구분 기호 문자" 창에서 재설정 버튼을 클릭하면 구분 기호 문자 목록의 수정 사항이 모두 실행 취소됩니다. 구분 기호 문자 목록의 수정 사항은 현재 정규 표현식 토큰화에만 적용됩니다.
다음 단계에서는 지정된 정규 표현식과 필요한 "나머지" 정규 표현식의 처리에 대해 설명합니다.
1. 텍스트 스트림의 현재 문자를 구분 기호 문자 목록과 비교합니다.
– 구분 기호 문자 목록에 있는 문자일 경우 해당 문자를 무시하고 "나머지" 임시 문자열에서 취합된 모든 문자를 처리한 후 다음 문자로 이동해서 step 1를 반복합니다.
– 구분 기호 문자 목록에 없는 문자일 경우 step 2로 이동합니다.
2. 현재 문자부터 시작되는 문자열을 "나머지" 정규 표현식 바로 앞까지의 각 정규 표현식과 한 번에 하나씩 비교합니다.
– 현재 문자부터 시작되는 문자열이 정규 표현식 중 하나와 매칭되면 후속 작업이 수행됩니다. 즉, "나머지" 임시 문자열에 취합된 모든 문자가 처리되고, "결과" 필드의 값이 용어로 저장됩니다. 텍스트 스트림의 현재 문자는 매칭되는 문자열 다음의 문자가 됩니다. 그런 다음 step 1 처리로 돌아갑니다.
– 현재 문자부터 시작되는 문자열이 "나머지" 정규 표현식까지의 모든 정규 표현식과 매칭되지 않을 경우에는 step 3로 이동합니다.
3. 현재 문자를 추가하고 현재 문자를 텍스트 스트림의 다음 문자로 설정하여 "나머지" 임시 문자열에 문자를 수집합니다. 그런 다음 step 1로 돌아갑니다.
– "나머지" 임시 문자열은 다른 정규 표현식 중 하나가 매칭될 때까지 한 번에 한 문자씩 취합됩니다.
– "나머지" 정규 표현식의 기본 결과는 취합된 "나머지" 임시 문자열을 삭제하는 것입니다.
팁:
• "나머지" 정규 표현식의 결과를 \1로 설정하면 구두점 표시와 같은 구분 기호 문자를 더 많이 추가할 수 있습니다. 이렇게 하면 지정된 구두점 표시가 결과에 포함되지 않습니다.
• "나머지" 정규 표현식의 결과를 \1로 변경하는 대신 다음 중 하나 이상의 작업을 통해 관심 있는 용어를 캡처할 수 있습니다.
– 정규 표현식 라이브러리에서 더 많은 정규 표현식을 추가합니다.
– 사용자 정규 표현식을 생성합니다.
데이터 테이블의 각 행마다 텍스트 문자열의 끝에 도달할 때까지 위의 단계대로 처리가 진행됩니다.
정규 표현식 토큰화 결과가 포함된 새 열을 데이터 테이블에 저장하려면 열에 저장 버튼을 클릭합니다. 새 열은 텍스트 탐색기 시작 창에서 지정된 텍스트 열과 이름이 동일한 문자 열입니다. 단, 열 이름이 고유하도록 이름에 번호가 추가됩니다. 열 > 유틸리티 > 텍스트 매칭으로 새 열 생성에서 독립형 정규 표현식 유틸리티를 사용할 수도 있습니다. 자세한 내용은 JMP 사용의 텍스트 매칭으로 새 열 생성에서 확인하십시오.
참고: 사용자 정규 표현식 토큰화의 결과를 데이터 테이블의 열에 저장하면 데이터 테이블의 각 행에 있는 원래 텍스트에 대해 정규 표현식 프로세스가 실행됩니다. 소문자로 변환된 텍스트 문자열에는 이 프로세스가 실행되지 않습니다.
텍스트 탐색기 정규 표현식 편집기 창에서 확인을 클릭하면 다음과 같은 작업이 수행됩니다.
1. 텍스트 탐색기 정규 표현식 편집기 창에서 정의된 사용자 정규 표현식이 정규 표현식 라이브러리에 저장됩니다.
주의: 사용자 정규 표현식이 있는 경우 사용자 정규 표현식 라이브러리는 사용자가 확인을 클릭할 때만 저장됩니다. 가장 최근에 저장된 정규 표현식은 다음 번에 사용할 수 있습니다. 고유한 이름을 사용하여 정규 표현식 라이브러리에 추가 정규 표현식을 보관하십시오. 나중에 정규 표현식을 사용할 수 있도록 텍스트 탐색기 보고서 창에서 스크립트를 저장할 수 있습니다.
2. 텍스트 탐색기 보고서가 나타납니다. 이 보고서에서는 지정된 정규 표현식 설정을 사용하여 텍스트를 토큰화한 결과를 보여 줍니다.