선별 설계

선별 설계란 무엇인가요?

선별 설계는 공정이나 결과에 영향을 미칠 수 있는 많은 잠재적 변수 중 가장 영향력 있는 요인을 식별하기 위한 초기 단계로 수행되는 실험 설계의 한 형태입니다. 선별 설계는 비교적 적은 실험 횟수로 이후 실험에 포함해야 할 요인을 체계적으로 결정할 수 있는 효율적이고 엄밀한 방법입니다. 선별은 “중요한 소수와 중요하지 않은 다수”를 구분하는 과정입니다.

언제 선별 설계를 사용해야 하나요?

다음 중 하나라도 해당된다면 선별 설계가 유용할 수 있습니다.

모든 상황에서 요인을 선별할 필요는 없습니다. 예를 들어, 요인의 수가 적거나, 상상할 수 있는 가장 복잡한 모델을 적합하는 데 필요한 모든 설계 실험을 수행할 수 있는 경우에는 선별 방법이 필요하지 않을 수 있습니다.

왜, 그리고 어떻게 선별 설계를 사용해야 하나요?

실험 과정은 일반적으로 일련의 실험으로 구성됩니다. 실험의 초기 단계에서는 공정에 영향을 미칠 수 있는 여러 요인을 고려하게 됩니다. 첫 번째 과제는 잠재적으로 중요한 효과(주효과 및 경우에 따라 상호작용 효과)의 긴 목록을 몇 가지 핵심적인 효과로 좁히는 것입니다. 고려해야 할 요인이 많을 경우, 완전 요인 설계를 수행하는 데 시간이 너무 오래 걸리거나 비용이 많이 들 수 있습니다. 또한, 완전 요인 설계는 비효율적일 수 있는데, 일반적으로 세 요인 이상의 상호작용(또는 그 전부)에 맞는 모델을 적합시키는 데에는 관심이 없기 때문입니다. 하지만 선별 설계를 사용하면 적은 실험 횟수로 가장 큰 효과를 식별할 수 있습니다.

선별 설계와 분석 방법의 효율성은 네 가지 핵심 원리에 따라 달라집니다. 이 원칙들이 모든 상황에 적용되는 것은 아니지만, 실제 실무에서는 충분히 자주 나타나 유용한 것으로 입증되었습니다.

희소성

효과의 희소성 원칙은 많은 후보 요인과 그로 인한 다양한 잠재적 효과가 존재하더라도, 실제로 하나의 반응에 중요한 역할을 하는 요인은 그중 일부에 불과하다는 것을 의미합니다.

설계에는 요인을 나타내는 두 개의 원 집합이 있습니다. 왼쪽에는 X1~X9로 표시된 아홉 개의 후보 요인이 있고, 오른쪽에는 중요한 요인인 X1, X3, X8이 주황색으로 강조되어 있습니다.

계층

계층성 원칙은 모델 항의 차수가 높아질수록 그 효과가 중요할 가능성이 감소한다는 것을 의미합니다. 즉, 세 요인 상호작용과 같은 고차 항은 이요인 상호작용보다 중요할 가능성이 훨씬 낮으며, 이요인 상호작용 또한 주효과보다 중요할 가능성이 낮습니다.

서로 다른 효과의 상대적 중요도를 보여주는 다이어그램입니다. 왼쪽에는 큰 원들이 표시되어 있습니다.

유전

유전성 원칙은 고차항이 존재한다면 일반적으로 같은 요인에 대한 저차 효과 또한 존재한다는 것을 의미합니다. 예를 들어, X1X3의 상호작용이 중요하다면, X1 또는 X3의 주효과 또한 중요할 가능성이 높습니다.

모델 내 주요 효과를 비교하는 그래픽입니다. 왼쪽에는 두 개의 원이 있습니다.

투영

투영 특성은 모델에서 중요하지 않은 효과를 제거하고 설계를 더 적은 요인(즉, 중요한 효과)을 가진 저차원 설계로 “투영”했을 때, 해당 설계가 통계적으로 바람직한 특성(예: 효과 추정 가능성, 추정치 간 독립성)을 얼마나 잘 유지하는지를 의미합니다. 투영 특성이 좋은 설계는 이러한 요인 하위 집합을 분석할 때 신뢰할 수 있는 결과를 제공합니다.

선별 실험을 계획할 때 첫 번째 단계는 공정과 관련된 모든 요인을 식별하는 것입니다. 결과에는 실험 중에 조정할 수 있고 반응에 영향을 미칠 것으로 예상되는 관심 요인뿐만 아니라, 공정에 무작위 변동 또는 잡음을 유발할 수 있는 요인도 포함됩니다. 이상적으로는 실험 중 이러한 잡음 요인을 제어하거나, 통계 모델에서 그 영향을 고려할 수 있어야 합니다. 또한 상호작용과 같은 고차 효과의 가능성도 고려해야 합니다.

하지만 실제로는 모든 잠재 요인과 그 상호작용을 실험에 포함할 수 없을 수도 있습니다. 설계 결정은 다음과 같은 여러 요소를 고려하여 이루어집니다.

경우에 따라 중요한 효과를 식별하기 위해 두 번 이상의 실험을 수행해야 할 수도 있습니다. 예를 들어, 초기 실험에서 이요인 상호작용을 추정할 수 없었다면 이를 테스트하기 위한 추가 실험이 필요할 수 있습니다.

선별 실험을 설계하는 데 사용할 수 있는 방법은 다양합니다. 부분 요인 설계나 Plackett-Burman 설계와 같은 “클래식” 설계는 20세기 초에 개발된 것으로, 널리 알려져 있지만 한계도 존재합니다. 사용자 설계나 확증적 선별 설계와 같은 현대적 방법은 알고리즘 접근 방식을 사용하며 여러 장점을 제공합니다. 사용하는 방법이 무엇이든, 선별 설계는 공정을 개선하거나 최적화하기 위한 첫 번째 단계입니다.

선별 설계: 예시

관심 있는 반응이 수율불순물인 제조 공정을 개발하고 있다고 가정해보겠습니다. 여러분에게 주어진 과제는 공정에서 수율최대화하고 불순물최소화하는 설정을 찾는 것입니다. 먼저, 어떤 요인이 반응에 영향을 미치는지, 그리고 어떤 방식으로 영향을 미치는지를 이해해야 합니다.

여러분과 팀은 수율불순물에 영향을 미칠 수 있다고 생각되는 아홉 가지 요인을 도출했습니다. 그중 일곱 개 요인은 연속형이고, 두 개 요인은 범주형입니다. 이전 경험을 바탕으로, 여러분과 팀은 요인이 실제로 중요하다면 실험에서 감지될 만큼 충분히 큰 반응 변화를 일으킬 수 있는 요인 범위와 수준을 선택했습니다.

요인과 그 범위 또는 수준은 다음과 같습니다.

모든 아홉 개 요인이 중요한 것은 아니라고 예상하지만(효과의 희소성 원칙), 현재로서는 어떤 요인이 중요한지 알 수 없습니다. 하나 이상의 이요인 상호작용이나 이차 효과가 존재할 수 있다고 의심하지만, 그것들은 주효과보다 덜 중요할 것이라고 예상합니다(계층성 원칙). 또한 존재하는 상호작용은 실험을 통해 확인된 중요한 주효과와 관련될 것이라고 가정합니다(유전성 원칙). 마지막으로, 모델에서 중요하지 않은 효과를 제거하면 원래 설계에서 상호작용 효과 추정이 불가능하더라도 중요한 주효과와 관련된 상호작용 효과를 추정할 수 있을 가능성이 있다는 것을 알고 있습니다(투영 원칙).

선별 전략에는 여러 가지가 있습니다. 주효과만 추정할 수 있는 소규모 실험, 주효과와 일부 이요인 상호작용을 추정할 수 있는 중간 규모의 실험, 또는 주효과와 모든 가능한 이요인 상호작용을 추정할 수 있는 대규모 실험이 있습니다. 어떤 전략을 사용할지는 주로 위에서 설명한 고려 사항에 따라 결정됩니다. (2차 효과는 일반적으로 중요한 요인을 식별한 후 최적화 실험에서 테스트합니다.)

이 예에서, 선별 실험 예산이 비교적 적기 때문에 중요한 요인을 찾기 위해 주효과만 포함하는 설계로 시작하기로 합니다. 상호작용 효과가 주효과보다 강할 경우 이 전략이 다소 위험할 수 있다는 점을 알고 있지만, 선별 원칙을 신뢰하고 필요할 경우 결과를 명확히 하기 위한 추가 실험 예산도 확보해 두었습니다.

전략과 계획을 세운 후, 22회의 실험으로 구성된 설계를 만듭니다. 이 중 네 번은 중앙점 실험으로, 모든 연속 요인이 중간 수준에 설정된 실험입니다.

중앙점을 나타내는 차트입니다.

설계에 중앙점을 포함하는 데에는 여러 가지 이유가 있습니다. 중심점은 반복이 없는 설계에서 반복 측정의 역할을 하여 순수 오차를 추정하고, 모델 내 항목에 대한 통계적 검정을 수행할 수 있게 합니다. 중앙점 실험을 설계 전체에 분산 배치하여 실험 중 공정에서 예상치 못한 변화가 발생하는지를 모니터링할 수도 있습니다. 이러한 실험들은 반복 측정이므로, 응답이 서로 유사할 것으로 예상됩니다.

선별 설계의 맥락에서 중앙점은 적합성 부족 검정을 통해 반응의 곡률 존재 여부를 감지하는 데 사용할 수 있습니다. 통계적으로 유의한 적합성 부족 결과는 모델이 하나 이상의 이차 항을 포함하지 않았을 가능성을 나타냅니다. 이 실험은 이차 항을 추정하기 위해 설계된 것이 아니라 단지 그 존재를 감지하기 위한 것이므로, 적합성 부족 검정이 유의하게 나타난다면 반응의 곡률을 이해하기 위한 추가 실험이 필요함을 시사합니다.

실험을 수행하고 아래 표에 표시된 대로 수율불순물에 대한 반응 값을 기록합니다.

각 반응에 대해 다중 선형 회귀를 사용하여 모델을 적합시킵니다. 아래 그래프에서는 각 반응에 대해 요인들이 중요도(logworth라 불리는 척도 기준) 순서대로 표시되어 있습니다.

귀하의 선별 실험에 따르면, 수율에 가장 큰 효과를 미치는 것은 온도PH입니다. 불순물에 가장 큰 영향을 미치는 요인은 온도, pH, 그리고 공급자입니다.

이러한 결과를 바탕으로 다음 단계에서는 모델 축소(중요하지 않은 항 제거), 중요한 항과 그 상호작용을 포함한 새로운 모델 적합(가능한 경우), 그리고 적합성 부족 검정을 통해 반응에서 곡률의 증거가 있는지 평가하는 작업을 수행할 수 있습니다. 이 결과는 공정을 이해하고 궁극적으로 최적화하기 위한 후속 실험의 방향을 결정하는 데 도움이 됩니다.