알고리즘 선별 설계
알고리즘 선별 설계란 무엇인가요?
알고리즘 선별 설계는 실험 설계(DOE) 소프트웨어가 사용자의 고유한 실험 맥락에 맞추어 생성하는 설계입니다. 이 설계는 다양한 요인 유형, 설계 공간의 제약 조건, 무작위화의 제한, 그리고 서로 다른 실행 횟수를 고려하면서도 요인 선별에 통계적으로 최적화된 설계를 생성할 수 있습니다.
언제 알고리즘 선별 설계를 사용해야 하나요?
알고리즘 선별 설계는 거의 모든 선별 상황에 적용할 수 있습니다. 특히 클래식 선별 설계로는 충족할 수 없는 특정 요구나 제약이 있는 경우에 유용합니다.
알고리즘 선별 설계를 사용하는 이유는 무엇인가요?
선별 설계는 여러 요인 중 반응에 가장 큰 영향을 미치는 요인을 효율적으로 식별하는 방법을 제공합니다. 부분 요인 설계나 Plackett-Burman 설계와 같은 전통적 선별 설계가 비현실적이거나 수행이 불가능한 상황에서 알고리즘 선별 설계가 유용합니다.
전통적 선별 설계는 오랫동안 효과적으로 사용되어 왔습니다. 하지만 이러한 설계들은 수십 년 전에 일반적인 DOE 시나리오에 적용하기 위한 포괄적인 해결책으로 만들어졌습니다. 그러나 실제로는 실험자가 전통적 설계로 쉽게 대응하기 어려운 상황이나 문제를 마주할 수 있습니다. 예를 들어, 전통적 선별 설계는 요인 공간 내에서 실행이 불가능하거나 실현하기 어려운 영역을 요구하거나, 실행 예산을 초과하는 횟수의 실험을 요구할 수도 있습니다. 전통적 선별 설계는 설계에 맞추기 위해 실험 상황을 조정하도록 강요할 수 있습니다. 이로 인해 원래는 테스트하려던 요인이나 수준을 제외해야 하거나, 설계를 수동으로 수정하면서 통계적 이점을 손상시키는 등 여러 단점이 발생할 수 있습니다.
이에 반해 알고리즘 선별 설계는 컴퓨터 알고리즘을 사용하여, 사용자의 고유한 실험 맥락에 적합한 맞춤형 설계를 생성합니다. 알고리즘 설계는 다음과 같은 다양한 사용자 정의를 지원합니다.
- 실험 실행 예산에 맞는 실행 횟수를 지정할 수 있습니다.
- 하나의 설계 내에서 여러 유형의 요인을 결합할 수 있습니다.
- 설계 공간을 제한하여 바람직하지 않은 요인 조합을 피할 수 있습니다.
- 무작위화에 대한 다양한 제약 조건을 적용할 수 있습니다.
알고리즘 선별 설계는 어떻게 구성되나요?
알고리즘 선별 설계는 사용자의 요구사항에 따라 실험 설계(DOE) 소프트웨어가 생성합니다. 요인과 그 유형, 실행 횟수, 설계 공간의 제약 조건 및 기타 매개변수를 지정하면, 소프트웨어가 알고리즘을 통해 통계적으로 최적화된 선별 설계를 찾아냅니다. 또한, 설계를 주효과만 선별할지 또는 관심 있는 고차 효과까지 포함할지를 지정할 수 있습니다.
이때 “통계적으로 최적화됨”이란, 설계의 통계적 특성을 수치적으로 나타내는 최적 기준 값으로 정의됩니다. 일반적인 선별 설계에서는, 이 최적 기준이 설계가 요인 효과를 얼마나 정밀하게 추정할 수 있는지를 나타냅니다. 이는 선별 실험에서 반응에 가장 큰 영향을 미치는 요인을 정확히 파악하기 위해, 요인 효과를 정밀하게 추정하는 것이 필요하기 때문입니다. 다른 최적 기준은 다른 DOE 상황에서도 유용합니다. 예를 들어, 알고리즘 반응 표면 실험에서는 반응을 정밀하게 예측할 수 있는 모델을 얼마나 잘 구축할 수 있는지를 나타내는 최적 기준을 사용합니다.
알고리즘 선별 설계의 예시는 무엇인가요?
선별 설계 개요 페이지에서 설명한 것과 동일한 시나리오를 바탕으로, 약간의 복잡성을 더해 살펴보겠습니다.
새로운 의약품의 제조 공정을 개발 중인 제약회사에서 일하고 있다고 가정해보겠습니다. 목표는 불순물 수준에 가장 큰 영향을 미치는 요인을 찾아, 이후 반응 표면 방법론을 적용하여 불순물을 최소화하는 요인 설정을 찾는 것입니다. 이 선별 실험의 요인은 다음과 같습니다.
- 혼합 시간: (연속형; 10~30분)
- 압력: (연속형; 60~80 kPa)
- pH: (연속형; 5~8)
- 교반 속도: (연속형; 100~120 RPM)
- 촉매: (연속형; 1%~2%)
- 온도: (연속형; 15°~45°C)
- 공급 속도: (연속형; 10~15 L/분)
- 공급자: (3수준 범주형; 세 가지 원료 공급자)
- 입자 크기: (2수준 범주형; 작음, 큼)
이 실험을 설계하는 과정에서 두 가지 복잡한 문제가 발생합니다. 첫째, 자원 제약으로 인해 15회 실행만 가능하며, 이는 요인 공간의 768개 조합 중 2%도 채우지 못합니다. 이처럼 제한된 설계에서는 각 요인의 주효과뿐 아니라 하나 이상의 연속형 요인에서 발생할 수 있는 2차 곡률도 평가해야 하므로, 최소 한 개의 중앙점(모든 연속형 요인이 중간값을 갖는 실행)이 필요합니다. 둘째, 높은 압력에서 낮은 온도를 유지하거나 그 반대로 실행하는 것은 불가능하므로, 이러한 요인 공간의 영역을 피하도록 설계를 제한해야 합니다. 이 제약 조건은 아래 그림에서 빨간색 영역으로 표시된, 실행이 불가능한 요인 공간 영역을 나타냅니다.
처음에는 전통적 선별 설계를 시도하지만, 대부분의 전통적 선별 설계가 모든 범주형 요인을 2수준으로 가정하기 때문에 선택지가 즉시 제한됩니다. 그러나 공급자는 3수준입니다. 사용 가능한 전통적 설계(L18 설계)는 최소 18회의 실행이 필요하며 압력과 온도 제약 조건을 반영하지 못하므로, 전통적 설계를 포기하고 알고리즘 설계를 채택하기로 결정합니다.
JMP와 같은 DOE 소프트웨어를 사용해, 요인 공간의 실행 불가능한 영역에서는 실험이 수행되지 않는 15회 실행 설계를 생성합니다. 소프트웨어는 이 설계에 최소 11회의 실행이 필요하다고 알려줍니다. 이는 절편과 7개의 연속형 요인, 하나의 3수준 범주형 요인, 그리고 하나의 2수준 범주형 요인의 주효과를 추정하기 위해 필요합니다. (k수준 요인은 k-1개의 모델 매개변수를 추정해야 함에 유의하세요.) 예산에 4회의 실행 여유가 있으므로, 알고리즘이 두 개의 중앙점과 두 개의 반복 실행을 포함한 설계를 생성하도록 지정합니다. 이 두 요소를 함께 포함하면, 연속형 요인 중 일부가 2차 곡률을 보이는지를 평가하는 데 도움이 됩니다. (데이터 분석 단계에서 이 부분을 더 자세히 다룰 것입니다.) 아래는 설계표이며, 그 아래에는 압력과 온도 공간에서 설계를 시각화한 그래프가 있습니다.
| 실행 | 혼합 시간 | 압력 | PH | 교반 속도 | 촉매 | 온도 | 공급 속도 | 공급자 | 입자 크기 |
| 1 | 30 | 80 | 8 | 100 | 1 | 45 | 10 | 저렴한 | 작게 |
| 2 | 30 | 80 | 5 | 120 | 2 | 45 | 15 | 빠름 | 작게 |
| 3 | 10 | 65 | 5 | 100 | 2 | 45 | 15 | 저렴한 | 크게 |
| 4 | 10 | 80 | 8 | 120 | 1 | 45 | 15 | 좋아요 | 크게 |
| 5 | 30 | 80 | 5 | 120 | 2 | 45 | 15 | 빠름 | 작게 |
| 6 | 10 | 60 | 8 | 120 | 2 | 15 | 15 | 저렴한 | 작게 |
| 7 | 20 | 69.9 | 6.5 | 110 | 1.5 | 30.1 | 12.5 | 좋아요 | 크게 |
| 8 | 30 | 60 | 8 | 100 | 1 | 15 | 15 | 빠름 | 크게 |
| 9 | 10 | 60 | 5 | 120 | 1 | 40 | 10 | 빠름 | 작게 |
| 10 | 20 | 69.9 | 6.5 | 110 | 1.5 | 30.1 | 12.5 | 좋아요 | 크게 |
| 11 | 30 | 60 | 8 | 100 | 1 | 15 | 15 | 빠름 | 크게 |
| 12 | 30 | 75 | 5 | 120 | 1 | 15 | 10 | 저렴한 | 크게 |
| 13 | 10 | 80 | 8 | 100 | 2 | 20 | 10 | 빠름 | 크게 |
| 14 | 10 | 80 | 5 | 100 | 1 | 20 | 15 | 좋아요 | 작게 |
| 15 | 30 | 60 | 8 | 100 | 2 | 40 | 10 | 좋아요 | 작게 |
이 설계는 이전에 봤던 어떤 전통적 선별 설계와도 다르다는 점을 알 수 있습니다. 압력과 온도는 두세 수준이 아닌 다섯 수준에서 측정되었습니다. 또한 중앙점이 압력과 온도 범위의 중앙값 근처(압력 69.9, 온도 30.1)에서 측정되었지만, 정확히 중앙값은 아니라는 점도 확인할 수 있습니다. 이는 설계 알고리즘이 분석 단계에서 매개변수를 정밀하게 추정할 수 있도록 하면서, 압력과 온도 간 제약 조건을 충족하는 통계적으로 최적화된 설계를 찾은 결과입니다. 압력과 온도 그래프의 좌상단과 우하단 모서리 영역에서 실행이 없다는 점을 통해 제약 조건이 실제로 반영되었음을 확인할 수 있습니다. 그 대신 알고리즘은 제약 조건이 허용하는 한도 내에서 가능한 한 그 모서리에 가까운 지점에 점을 배치했습니다.
다음으로 15회의 실행을 무작위 순서로 수행하고, 각 실행에서의 불순물 수준을 측정한 뒤, 주효과만 포함한 다중 회귀 모델을 사용해 결과를 분석합니다. 분석 결과, p 값이 0.05보다 작은 세 가지 요인(온도, 공급자, pH)가 불순물에 통계적으로 유의한 영향을 미친다는 사실을 발견합니다. 나머지 요인들은 비활성 상태이거나 영향이 매우 미미하다고 결론내립니다.
| 요인 | p 값 |
| 온도 | 0.00204 |
| 공급자 | 0.01744 |
| PH | 0.01750 |
| 공급 속도 | 0.19999 |
| 촉매 | 0.24683 |
| 혼합 시간 | 0.49980 |
| 교반 속도 | 0.52453 |
| 압력 | 0.82430 |
| 입자 크기 | 0.92482 |
다음으로, 발견한 효과의 특성을 이해하기 위해 그래프를 작성합니다. 그래프에서는 온도와 pH의 효과가 모두 양의 방향으로 나타나며, 그중에서도 온도의 효과가 범위 전반에 걸쳐 더 크게 나타납니다. 또한 공급자 요인에서는 Cheap 공급자가 Fast나 Good보다 훨씬 높은 불순물 수준을 보이는 뚜렷한 패턴이 나타납니다. 또한 두 개의 중앙점(빈 원으로 표시됨)이 온도와 pH 효과선을 따라 표시된 값보다 훨씬 아래에 위치한다는 점도 확인됩니다. 이는 적어도 하나의 연속형 요인에서 2차 곡률이 존재함을 시사하지만, 중심점만으로는 어떤 요인이 그 원인인지 확인할 수 없습니다.
마지막으로, 모델이 2차 곡률과 같은 효과를 누락했는지를 검정하는 적합 결여 검정을 수행합니다. 이 검정에는 설계 내 최소 한 번의 반복이 필요하며, 알고리즘 설계 시 반복 실행을 포함하도록 지정한 것이 현명한 선택이었음을 알 수 있습니다. 검정의 p 값이 0.05보다 작기 때문에, 모델이 하나 이상의 효과를 누락하고 있다고 결론내립니다. 이는 그래프에서 확인된 곡률의 시각적 평가와 일치합니다. 확인된 세 가지 활성 요인을 중심으로 추가 실행을 포함하여 설계를 확장하고, 두 연속형 요인의 2차 곡률과 세 요인 간의 모든 이요인 상호작용을 추정할 수 있는 반응 표면 설계를 구축하기로 결정합니다.
적합 결여
| 소스 | DF | 제곱합 | 평균 제곱 | F 비 |
| 적합 결여 | 1 | 39.73 | 39.73 | 94.11 |
| 순수 오차 | 3 | 1.27 | 0.42 | Prob > F |
| 총 오차 | 4 | 41.00 | 0.0023* |