Автор: Попов Алексей
Дата публикации: 19.04.2022 (статья из архива 13.07.2020)
Много раз слышал абсолютно одинаковый аргумент от разных не связанных между собой специалистов о том, что нормальное распределение — «самое распространенное» на практике распределение данных. При этом обычно это убеждение считается аксиомой и любые попытки узнать истоки такой убежденности воспринимаются в штыки.
Предлагаю немного отвлечься.
Многие автоматизированные систем управления процессами в технологическом оборудовании и технических системах работают по принципу саморегулирования при помощи обратной связи. Вариантов реализации этой самой обратной связи в технике есть большое множество и с этим лучше к специалистам, но чтобы понять что это, можно обратиться к примеру самой простой реализации — нагревательным системам (например, утюг). Принцип их заключается в том, что когда некий датчик видит, что температура низкая, он включает нагревательный элемент, а когда видит, что температура вышла на уровень, отключает нагревание. Температура некоторое время по инерции возрастает, а потом падает сама собой и опять датчик это фиксирует и включает нагревание. И так цикл повторяется бесконечно. Это общий смысл систем с саморегулированием по обратной связи.
По результатам работы таких систем, выходное значение параметра, которым управляет оборудование с обратной связью, имеет тенденцию во времени стремящуюся к синусоидальной. Будь это поддерживаемая температура и влажность, отрезаемая длина, скорость потока воздуха или жидкости, скорость ленты, количество дозирования / фасования — эти и многие другие параметры могут обеспечиваться оборудованием за счет обратной связи (обращая внимание на слово «может». Как конкретно в вашем оборудование, надо смотреть отдельно).
Так вот. К чему это я?
Посмотрите прикрепленный скрин смоделированных данных идеального синусоидального распределения. Данные, имеющие синусоидальную тенденцию будут, как видите, сворачиваться в распределение, мягко говоря, слабо напоминающее нормальное. Понятно, что обычно синусоида не такая ровная и часто более ассиметричная относительно центральной линии, распределение на практике будет иметь небольшие хвосты по бокам, но данные полученные от таких процессов будут всегда сворачиваться в распределение частот, подобное прямоугольному (равномерному).
Чем это плохо? Тем, что не осознавая границы применимости методологии, можно создавать себе проблемы на пустом месте.
Если попытаться применять формулы для нормального распределения (которые зачастую и применяются), использующих в своей основе 6-сигмовые границы интервала, то метод будет сильно искажать реальное состояние дел, т.к. расчетные границы будут значительно шире, чем границы реального распределения, а это значит лишь одно — используя инструменты, связанные с шириной охвата, компания будет делать ложные выводы и создавать сама себе проблемы.
Приведу пример с теми же данными, что на скрине вверху:
Среднее для этих данных будет равно: -0,0047.
Стандартное отклонение равняется: 0,7078.
Доверительный интервал (p~99 %), рассчитанный на основании ±3s: (-2,1280; 2,1187).
Но как видно по скрину, реальное распределение находилось в пределах примерно (-1; 1) и не особо собирается за эти границы выходить (т.к. процесс стабилен), а мы получили примерно (-2; 2), что шире более, чем на 100 %. Что это значит? Как минимум то, что если мы посчитаем наш любимый Cpk, который работает исключительно на абсолютно идеальном нормальном распределении (допуск возьмем от -1 до 1), то у нас получится Cpk=0,2348. Что это число говорит? Индекс сигнализирует о предельно плохом процессе, но мы, как видим, сделали бы ложные выводы и сейчас искали бы проблемы там, где их нет.
Да, (сразу предупрежу замечания), я не проверял на нормальность, а она бы показала, что этот процесс не нормален. Это так. Но. Во-первых, далеко не все и не всегда проверяют на нормальность, а второе, что проверка на нормальность вам не так много и гарантирует, особенно, если вы проверяете не на огромном массиве данных. После проверки на нормальность вы действительно снизите ошибку, но она все равно может спокойно составлять 30 % и больше (в зависимости от глубины предсказания), т.к. наличие / отсутствие / форма «хвостов» нормального распределения (т.е. плотность распределения в диапазоне значений от 2 сигма до 3 сигма, не говоря уже про «хвосты» от 3 сигма до 4 сигма и дальше) практически недоказуема. А это опять ложные выводы и поиск причин проблем там, где их нет (либо не осознание проблем там, где они действительно есть).
Это не единственный случай, когда распределение даже не похоже на нормальное, вариантов и источников причин много. Также на практике очень распространено сильно несимметричное распределение (причем иногда с абсолютно конечной границей распределения с одной стороны). Тут скорее нужно искать, где параметр распределен действительно нормально или можно использовать допущения, что он нормален, а не наоборот.
Поэтому предлагаю специалистам оценить применимость тех инструментов, которые они используют в своей работе как минимум для параметров продукции / процессов, управляемых системами с обратной связью, по умолчанию предполагая, что у них там нормальное распределение или «достаточно» нормальное.
P.S. Но если вы остались абсолютно убеждены, что нормальное распределение у вас вездесуще, то плиз не предавайте меня статистической анафеме.
Хорошего дня.