Журнал "Простоев.НЕТ"

Машинное обучение для предиктивного технического обслуживания: с чего начать?

Попробуйте вспомнить машины и механизмы, которыми вы пользовались в течение года, все: от тостера, который вы включаете каждое утро, и до самолета, на котором вы летаете в отпуск. А теперь представьте, что с сегодняшнего дня один из них будет выходить из строя каждый день. Каковы будут последствия? Мы окружены машинами, которые облегчают нашу жизнь, но при этом мы становимся все более и более зависимыми от них. Это значит, что качество машины или механизма — это не только польза и эффективность, но и надежность и безотказность. А с безотказностью приходит техническое обслуживание.


Когда последствия отказа не могут быть допущены, например, как техническая неисправность авиационного двигателя, машина/механизм становится объектом для превентивного технического обслуживания, которое включает периодические проверки и ремонты, часто планируемые на основе времени эксплуатации. Проблемы правильного календарного планирования растут вместе с ростом сложности машин. В системе с множеством компонентов, работающих вместе и влияющих на срок службы друг друга, как можем мы найти тот правильный момент для выполнения технического обслуживания, чтобы не заменять компоненты заранее, но чтобы система в целом оставалась в состоянии безотказного функционирования? Предоставление ответа на этот вопрос является целью предиктивного технического обслуживания, когда мы стремимся построить модели, характеризующие количественно риск отказа машины в любой момент времени, и используем эту информацию для совершенствования календарного планирования технического обслуживания.

Успех моделей предиктивного обслуживания зависит от трех основных компонентов: наличия правильных данных, правильной постановки задачи и правильной оценки прогнозов. В этой статье мы подробно разберем первые два пункта и получим представление о том, как выбрать метод моделирования, который лучшим образом соответствует вопросу, на который вы пытаетесь ответить, и имеющимся у вас данным.

Сбор данных

Чтобы построить модель отказа, требуется достаточный объем исторических данных, который позволит собрать информацию о событиях, приводящих к отказу. Помимо этого, общие «статистические» особенности системы могут также обеспечить ценную информацию, такую как механические свойства, среднее использование машины/механизма и условия эксплуатации. Однако больше данных — это не всегда лучше.

При сборе данных для обоснования модели отказов важно понять и описать следующее:

  • Какие типы отказов могут иметь место? Какие из них мы попытаемся предсказать?
  • Как выглядит «процесс отказа»? Процесс деградации медленный или резкий и быстрый?
  • C какой частью машины (оборудования, механизма) или системы связан каждый тип отказа? Какой параметр, отражающий ее состояние, может быть измерен для каждой их них? С какой точностью и как часто должны выполняться эти измерения?

Срок службы машин обычно составляет порядка нескольких лет. Это означает, что для наблюдения всего процесса деградации системы данные должны собираться в течение довольно длительного периода времени.

В идеальном случае в процесс планирования сбора данных вовлечены как специалисты по данным, так и эксперты предметной области для гарантии, что собранные данные подойдут для построения модели. Однако в реальной жизни происходит в основном следующее. Специалист-исследователь прибывает к месту работы уже после того, как все данные собраны, и ему остается только попытаться сделать все возможное на основании доступных данных.

В зависимости от характеристик системы и доступных данных имеет существенно важное значение надлежащая постановка задачи для создаваемой модели: на какой вопрос должна отвечать модель и возможно ли это с теми данными, которые мы имеем в наличии?

Формулировка проблемы

Когда вы обдумываете создание модели предиктивного технического обслуживания, важно принимать во внимание ряд вопросов.

  • Какие выходные данные должна предоставлять модель?
  • Достаточно ли доступных исторических данных по конкретному оборудованию или в наличии только общие статистические данные?
  • Характеризуется («маркируется» в терминах машинного обучения) ли каждое зафиксированное событие, то есть какие измерения (параметры) соответствуют нормальному функционированию, а какие соответствуют отказу? Известно ли (по меньшей мере), когда именно каждая машина испытывала отказ (если это вообще имело место)?
  • После маркировки событий — какова доля событий с каждым типом отказа и событий нормального функционирования?
  • Насколько заблаговременно должна быть способна модель указать о возникновении отказа?
  • Каковы целевые показатели производительности машины (механизма, оборудования, системы), для которых должна быть оптимизирована модель? Высокая точность, высокая чувствительность, высокая достоверность? Каковы последствия в случае отсутствия прогноза отказа, который происходит, и наоборот, в случае прогноза отказа, который не произойдет?

Имея все эти данные, мы можем принять решение, какая стратегия моделирования лучше подходит для имеющихся данных и требуемого результата или, по крайней мере, какая стратегия является лучшим кандидатом для начала работы.

Существует ряд стратегий моделирования для предиктивного технического обслуживания. Мы опишем четыре из них в связи с вопросами, на которые они должны отвечать, и какие типы данных им требуются.

Стратегия №1. Регрессионная модель для прогнозирования остаточного срока эксплуатации

Какое количество дней/циклов остается до отказа системы?

Характеристики данных
Доступны статистические и исторические данные, а каждое событие имеет метку («промаркировано»). Несколько событий каждого типа отказа представлено в наборе данных.

Основные предположения, допущения и требования

  • На основе статистических характеристик системы и ее текущего поведения может быть спрогнозирован оставшийся срок службы, что подразумевает необходимость наличия как статистических, так и исторических данных, а также плавный процесс деградации.
  • Моделируется только один тип «пути к отказу»: если возможен ряд типов (режимов) отказов и предшествующее каждому типу отказов поведение системы различно, то для каждого из них должна быть создана специальная модель.
  • Доступны маркированные данные, а измерения были выполнены в различные моменты срока службы системы.

Стратегия №2. Модели классификации для прогнозирования отказа в рамках установленного временного окна

Создание модели, которая может очень точно предсказать сроки жизни систем, может быть крайне сложной задачей. Однако на практике обычно не требуется точно прогнозировать срок службы в далеком будущем. Часто отделу технического обслуживания нужно только знать, не выйдет ли оборудование (система) из строя в «самом ближайшем будущем». И в результате имеем следующую стратегию.

Выйдет ли оборудование (система) из строя в следующие N суток/циклов?

Характеристика данных
Такая же, как и для стратегии №1.

Основные предположения, допущения и требования
Предположения и допущения модели классификации очень похожи на предположения/допущения регрессионных моделей. Они главным образом отличаются в следующем:

  • Поскольку мы определяем не точное время отказа, а в промежутке во временном окне, требование к плавности процесса деградации снижается.
  • Модели классификации могут иметь дело с множеством типов отказов, поскольку они формулируются как многоцелевая задача, например, класс = 0 соответствует отсутствию отказов в следующие n дней, класс = 1 соответствует отказу типа 1 в следующие n дней, класс = 2 для типа отказа 2 в следующие n дней и так далее.
  • Маркированные данные доступны. Имеется достаточное количество примеров каждого типа отказов для обучения и оценки модели.

В общем регрессионные и классификационные модели моделируют взаимосвязи между признаками (параметрами) и кривой деградации системы. Это означает, что если модель применяется к системе, демонстрирующей тип отказа, отсутствующий в обучающих данных, то эта модель не сможет выполнить прогноз возникновения этого отказа.

Стратегия №3. Маркировка аномального поведения

В случае использования двух предыдущих стратегий необходимо наличие большого объема примеров как нормального поведения (которых у нас обычно много), так и примеров отказов. Однако скольким самолетам вы позволите упасть и разбиться, чтобы собрать требуемые данные? В случае критически важных систем, серьезные ремонты которых сложны, часто присутствует крайне ограниченное (или их нет совсем) количество примеров отказов. В этом случае требуется иная стратегия.

Является ли отображаемое поведение нормальным?

Характеристика данных
Доступны статистические и исторические данные, но либо неизвестны метки, либо наблюдалось слишком малое количество событий отказов, либо имеет место слишком большое количество типов отказов.

Основные предположения, допущения и требования
Можно определить, что такое нормальное поведение. Различие между текущим и «нормальным» поведением связано с деградацией, приводящей к отказу.

Общий характер выявления аномалий модели является как ее самым большим преимуществом, так и недостатком: модель должна иметь возможность отмечать каждый тип отказа, невзирая на отсутствие каких-либо предварительных знаний о них. Аномальное поведение, однако, не обязательно приводит к отказу. А если он произойдет, модель не дает информации о временном интервале, в котором он должен произойти.

Оценка модели обнаружения аномалий также сложна из-за отсутствия маркированных данных. Если доступны по крайней мере некоторые маркированные данные отказов, они могут и должны использоваться для оценки алгоритма. При отсутствии доступных маркированных данных модель обычно делается доступной, и эксперты в предметной области предоставляют отзывы о качестве ее способности отмечать («флагировать») аномалии.

Стратегия №4. Модели выживаемости для прогнозирования вероятности отказа во времени

Предыдущие три подхода были сосредоточены на прогнозировании, предоставляя достаточный объем данных для применения технического обслуживания до наступления отказа. Однако если вы заинтересованы в самом процессе деградации и в вероятности результирующего отказа, эта последняя стратегия подойдет вам лучше всего.

Принимая во внимание набор характеристик, как изменяется риск отказа во времени?

Характеристика данных
Доступны статические данные, данные по отраженному в отчетах времени отказа каждой машины/механизма или дата, когда данная машина стала недоступной для наблюдения из-за отказа.

Модель выживаемости оценивает вероятность отказа данного типа машины/механизма, учитывая статические характеристики. Она также полезна для анализа влияния определенных характеристик на срок службы машины/механизма. Таким образом, модель предоставляет оценки для группы машин/механизмов с аналогичными характеристиками. Поэтому для конкретной исследуемой машины она не учитывает ее конкретное текущее состояние.

Итоги

Какой подход является наиболее подходящим для модели предиктивного технического обслуживания? Как и в случае всех других проблем интеллектуальной обработки данных, «бесплатного завтрака» не существует! Совет в данном случае такой. Начните с понимания, какие данные вам доступны, какие типы отказов вы пытаетесь смоделировать, и какие типы выходных данных будет предоставлять вам модель. Суммируя это с советами, данными выше, теперь вы, я надеюсь, знаете, с чего начать.


Журнал Prostoev.NET № 4(17) 2018
По материалам зарубежных публикаций

Простоев.НЕТ

Компания ООО «Простоев.НЕТ» — межотраслевой информационно-образовательный проект по вопросам организации процессов ТОиР и управления надежностью оборудования.

This website uses cookies.