확증적 선별 설계

확증적 선별 설계란 무엇인가요?

확증적 선별 설계(DSD)는 많은 연속형 요인 중 어떤 요인이 반응에 가장 큰 영향을 미치는지를 식별하기 위한 특수한 실험 설계입니다. DSD는 유사한 규모의 일반 선별 설계보다 적은 실험 횟수로 여러 가지 이점을 제공합니다. DSD는 활성 효과를 식별할 때의 모호성을 줄이고, 개별 요인의 곡률을 파악할 수 있게 하며, 일부 요인 하위 집합 내에서 완전한 2차 모델의 추정을 지원합니다.

확증적 선별 설계를 사용해야 하는 이유는 무엇인가요?

확증적 선별 설계는 부분 요인 설계나 Plackett-Burman 설계와 같은 일반적인 선별 설계보다 많은 장점을 제공합니다. 일반적인 선별 설계는 일부 주효과와 이요인 상호작용을 혼동(alias)시키거나, 서로 완전히 교락(confound)시켜 활성 효과를 식별하는 데 모호성을 초래할 수 있습니다. 또한 중앙점을 포함한 일반적인 선별 설계는 한 개 이상의 요인에서 곡률이 존재함을 감지할 수 있지만, 추가 실험 없이는 어떤 요인이 그 곡률의 원인인지 파악할 수 없습니다. 이에 비해 DSD는 다음과 같은 여러 장점을 제공합니다.

DSD는 적은 실험 횟수로 이러한 이점을 제공합니다. 6개 이상의 요인의 경우, 이러한 설계는 요인 수의 두 배보다 약간 많은 실험만 필요합니다. 예를 들어, 14개의 연속 요인을 가진 최소 크기의 DSD는 29회의 실험만 필요하며, 이는 해당 완전 요인 설계(214 = 16,384회)에 비하면 매우 작은 비율입니다. 이에 비해 해상도 IV 부분 요인 설계는 최소 32회의 실험이 필요합니다. DSD와 마찬가지로 주효과와 이요인 상호작용의 혼동을 피하지만, DSD와 달리 일부 이요인 상호작용들이 완전히 교락되며, 중앙점을 추가하더라도 개별 요인의 2차 곡률을 평가할 수 없습니다. DSD는 효율적인 설계로 상당히 많은 정보를 수집할 수 있습니다.

선별 단계 이후, 활성 요인의 수가 적을 경우 DSD는 반응 표면 방법론을 통해 직접적으로 반응 최적화를 수행할 수 있습니다. 6개 이상의 요인을 가진 DSD는 임의의 세 요인에 대해 완전한 2차 모델을 추정할 수 있으며, 18개 이상의 요인을 가진 DSD는 네 요인, 24개 이상의 요인을 가진 DSD는 다섯 요인에 대해 완전한 2차 모델을 적합할 수 있습니다. 즉, 활성 요인의 수가 적다면 동일한 설계를 선별과 반응 최적화 모두에 사용할 수 있습니다. 그렇지 않은 경우, 필요에 따라 DSD에 추가 실험을 보완할 수 있습니다.

확증적 선별 설계는 어떻게 생성하나요?

DSD의 이점은 그 특별한 구조에서 비롯됩니다. 예를 들어, 여섯 개의 연속 요인을 가진 DSD 설계 테이블을 살펴보겠습니다. 각 요인은 높은 값 1, 낮은 값 -1, 중간 값 0으로 부호화됩니다.

실행 X1 X2 X3 X4 X5 X6
1 0 1 1 1 1 1
2 0 -1 -1 -1 -1 -1
3 1 0 -1 1 1 -1
4 -1 0 1 -1 -1 1
5 1 -1 0 -1 1 1
6 -1 1 0 1 -1 -1
7 1 1 -1 0 -1 1
8 -1 -1 1 0 1 -1
9 1 1 1 -1 0 -1
10 -1 -1 -1 1 0 1
11 1 -1 1 1 -1 0
12 -1 1 -1 -1 1 0
13 0 0 0 0 0 0

DSD는 폴드오버 설계로, 각 실험은 모든 요인의 부호가 반대로 설정된 다른 실험과 짝을 이룹니다. 예를 들어, 실험 1과 실험 2는 폴드오버 쌍을 이루며, 실험 2는 실험 1의 요인 부호를 단순히 반전시킨 것입니다. 이 원리는 실험 3과 4, 5와 6 등에도 동일하게 적용되며, 실험 13은 모든 요인이 중간 값에 설정된 중앙점 실험입니다. 폴드오버 설계의 특성은 주효과와 이요인 상호작용 간의 혼동을 제거합니다.

각 폴드오버 쌍 내에서는 한 요인이 두 실험 모두에서 중간 값으로 측정되며, 나머지 요인들은 낮거나 높은 값으로 측정됩니다. 이는 일반 선별 설계처럼 모서리나 중심점에만 점을 배치하지 않고, 요인 공간의 가장자리를 따라 점을 배치하게 합니다. 이 설계의 이러한 특성 덕분에 모든 2차 효과를 추정할 수 있습니다.

처음 세 요인을 기준으로 설계를 시각화하면 DSD의 구조를 더욱 명확히 이해할 수 있습니다. 중앙점을 제외한 모든 점에는 큐브를 기준으로 “거울 대칭” 위치에 있는 폴드오버 점이 존재함을 확인할 수 있습니다. 이 설계는 요인 공간의 가장자리에 중간점을 포함하며, 중앙점을 포함할 경우 각 요인은 총 세 번 중간 수준에서 측정됩니다.

이 예시 설계는 6개의 연속 요인을 위한 최소 실험 횟수를 나타냅니다. 실제에서는 설계에 가상의 비활성 요인을 추가하여 최소 4회의 추가 실험을 포함하는 것이 권장됩니다. 이렇게 하면 DSD가 활성 이요인 상호작용과 2차 곡률을 감지하는 능력이 크게 향상됩니다.

그렇다면 직접 DSD를 어떻게 만들 수 있을까요? 걱정하지 마세요. JMP와 같은 통계 소프트웨어가 전체 설계 과정을 자동으로 처리해줍니다.

확증적 선별 설계 예시

바이오테크놀로지 회사의 엔지니어로서, 추출량(단위: mg)을 최대화하는 새로운 추출 공정을 개발하는 임무를 맡았다고 가정해보겠습니다. 먼저 수율에 가장 큰 영향을 미치는 공정 요인을 파악해야 하며, 여러 용매, pH, 그리고 용액 내 시간을 테스트하는 것부터 시작합니다. 요인과 그 범위는 다음과 같습니다.

모든 요인이 연속형이며, 이요인 상호작용과 2차 곡률이 존재할 가능성이 있고, 선별 이후 추가 실험을 거의(또는 전혀) 수행하지 않고도 활성 요인에 대해 완전한 2차 모델을 적합하고자 하기 때문에 DSD를 사용하기로 결정합니다. 2차 효과를 더 잘 감지하기 위해 최소 13회보다 4회의 실험을 추가하여 총 17회 실험을 수행하기로 결정합니다. 다음의 17회 실험으로 구성된 DSD를 사용하고, 결과를 수율 열에 기록합니다.

실행 메탄올 에탄올 프로판올 부탄올 PH 시간 수율
1 0 10 5 0 6 2 23.43
2 0 0 10 10 7.5 1 4.85
3 5 10 10 10 9 2 40.91
4 10 10 0 10 6 1 21.68
5 0 0 10 0 9 2 3.09
6 10 0 10 0 6 1.5 26.09
7 5 5 5 5 7.5 1.5 30.05
8 0 0 0 10 6 2 11.99
9 0 10 0 10 9 1.5 11.54
10 10 5 10 10 6 2 33.46
11 10 10 0 0 7.5 2 47.44
12 10 0 0 5 9 2 23.58
13 5 0 0 0 6 1 22.26
14 10 0 5 10 9 1 27.07
15 0 10 10 5 6 1 3.35
16 0 5 0 0 9 1 3.18
17 10 10 10 0 9 1 21.67

각 요인의 주효과를 시각화하면 메탄올시간수율에 강한 긍정적인 영향을 미치며, 에탄올 도 긍정적인 영향을 미칩니다. 주효과요인으로 PH 의 선이 평평하게 나타나며, 이러한 요인에 대한 주효과가 미미함을 시사합니다. 주효과만을 고려한 다중 회귀 모형은 메탄올, 에탄올, 시간 의 주효과가 활성적임을 확인합니다. DSD를 사용했기 때문에 주효과 추정치가 아직 조사하지 않은 활성 2인자 상호작용에 의해 편향되지 않는다는 것을 알 수 있습니다. 메탄올, 에탄올, 시간을 활성 요인으로 선택해 분석을 진행하기로 결정합니다.

6-요인 DSD를 사용했고 세 가지 활성 요인만 식별했으므로, 설계에 실행을 추가하지 않고도 완전 2차 모형을 적합할 수 있습니다. 변수 선택 방법 과 다중 회귀를 이용하여 최적화하는 데 사용될 최종 모형에 도달합니다. 모델 분석 결과, 메탄올의 효과는 2차 곡률을 보이며, 에탄올시간 사이에는 이요인 상호작용이 존재함을 보여줍니다. 즉, 시간이 짧을 때는 에탄올의 효과가 미미하지만, 시간이 길어질수록 강한 양의 효과를 나타냅니다.

최종 모델을 사용해 평균 수율 45.34 mg을 생성할 것으로 예측되는 다음의 최적 요인 설정을 도출했습니다.