Эта статья расскажет о зарождении подхода анализа порога рисков RTI, объяснит, что такое RTI, почему он был создан, как он вписывается в стратегию программы обеспечения надежности обслуживания, как его внедрять, а также проиллюстрирует его в действии и расскажет о самых значимых результатах.
Знакомство с подходом «Анализ порога рисков» (RTI)
Толчком к разработке подхода RTI стал следующий вопрос: «Могут ли существовать потенциальные проблемы с оборудованием или сбои в системах, представляющие серьезную угрозу, даже если система в целом функционирует исправно?»
Хорошо функционирующие системы (например, 20/80) обычно демонстрируют относительно небольшое количество серьезных проблем. В проблемных системах (например, 80/20), напротив, гораздо больше компонентов (иногда до 50 процентов или более), которые могут быть классифицированы как способствующие проблемам, ведущим к неработоспособности системы. Цель RTI состоит в том, чтобы гарантировать, что в то время, как техническое обслуживание, ориентированное на безотказность (RCM), реализуется для проблемных систем, организация не пропустит возникновение серьезных проблем в относительно хорошо функционирующих системах, которые не могут подвергаться анализу RCM в какой-либо его форме.
Процесс RTI осуществляется на системном уровне, а не на уровне компонентов. Это происходит потому, что, как известно, системы 20/80 имеют относительно незначительную историю отказов. Такое положение неприменимо к системам 80/20, отказы в которых случаются с завидным постоянством. Системы 20/80 нуждались в простом подходе, который позволил бы найти «иголку в стогу сена». Так появился подход анализа порога рисков (RTI).
RTI возник потому, что критический подход был признан несостоятельным в нескольких аспектах. При компонентно-ориентированном анализе критичности компонент может набрать достаточное количество баллов из 23 параметров критичности, чтобы считаться «критическим» по определению, но при этом он не обязательно относится к «рискам», поскольку последствия его отказа для установки относительно безвредны. Большинство последствий отказов компонентов на самом деле не являются рисками в истинном понимании этого слова. Идея состоит в том, чтобы сосредоточиться на выявлении проблем, которые действительно являются критическими, и попытаться их избежать.
В анализе RTI рассматриваются только семь областей влияния: безопасность, окружающая среда, время простоя, эксплуатация, нормативные требования, отказ системы вследствие отказа одного элемента и экономический аспект. Подход RTI опирается на опыт специалистов по техническому обслуживанию систем, операторов и инженеров по надежности, чтобы рассмотреть, может ли какая-либо конкретная проблема на границе системы 20/80 представлять собой риск для одной или нескольких из семи обозначенных выше областей влияния.
Основная идея состоит в том, чтобы качественно идентифицировать потенциальные проблемы или сбои в системах 20/80, которые действительно могут произойти и привести к возникновению проблемы в одной или нескольких из семи областей влияния, а также превышают допустимый порог, что считается достаточно серьезным и требует особого внимания к оценке или устранению подобного риска.
Как подход RTI вписывается в стратегию R&M
В 2011 году подразделение очистных сооружений Цинциннати, агентство по управлению стоками Метрополитэн Сьюрэдж Дистрикт (MSDGC WWT) разработало стратегию надежности и технического обслуживания (R&M) и сформировало экспертную группу для улучшения трех ключевых областей:
- техники обеспечения надежности с особым акцентом на защиту окружающей среды и снижение рисков с помощью RCM, ориентированного на опыт обслуживания (ECM), анализа порога риска (RTI), анализа первопричин (RCA) и устранения дефектов (DE);
- планирование и составление графика работ по техническому обслуживанию с акцентом на увеличение проактивного и уменьшение реактивного технического обслуживания;
- мониторинг состояния активов с акцентом на интернализацию и расширение охвата всех применимых активов с использованием как можно большего количества технологий прогнозирования, мониторинга условий и связанных с ними возможностей (например, лазерная центровка оборудования), если это экономически целесообразно.
Техническая составляющая (техника обеспечения надёжности) в общей стратегии представлена на рис. 1. Рассмотрим каждую передовую практику, представленную на рис. 1.
Анализ Парето для определения систем анализа RCM, ECM и RTI. Гистограмма сверху показывает количество отказов в 10 лучших системах (идентифицируемых кодовыми номерами) на крупнейшем из семи заводов MSDGC WWT. Это делается для того, чтобы сфокусировать усилия сначала на наиболее проблемных системах. Вариации этого подхода для ранжирования систем используют анализ затрат, трудозатрат на техническое обслуживание (количество часов), часов простоя или других параметров, влияющих на цели и задачи организации.
Самые высокие столбцы слева на графике, на так называемой диаграмме Парето, идентифицируют системы 80/20 или проблемное оборудование. Они представляют примерно 20-30% систем, на которые приходится примерно 70-80% отказов. Столбцы в правой части графика показывают меньшее количество отказов и называются системами 20/80. На большинство этих систем, примерно от 70 до 80 процентов, приходится только 20-30 % отказов.
Анализ RCM для проблемных систем. Персонал MSDGC WWT остановился на классическом подходе RCM к проблемным системам. Они составляют примерно 20% всех систем очистки сточных вод, где происходит 80% проблем, влияющих на окружающую среду, безопасность, общую производительность установки и затраты. Классический анализ RCM в крупной системе может занять от двух до трех недель; чтобы выполнить его с привлечением опытного координатора (то есть консультанта, специализирующегося в области RCM, пока сотрудник не наберется достаточного опыта для выполнения задачи) и группы сотрудников – экспертов в области обслуживания, эксплуатации и надежности.
Анализ ECM (основанный на опыте). ECM был успешно адаптирован для хорошо функционирующих систем (т.е. в системах 20/80, где возникает только 20% всех проблем). Это было сделано для того, чтобы минимизировать влияние персонала MSDGC WWT, участвующего в общей инициативе по повышению надежности, и снизить финансовое воздействие на бюджет завода при реализации инициативы по повышению надежности. Каждая система должна быть оперативно изучена в течение двух-четырех дней отдельной междисциплинарной аналитической группой под руководством специалиста-координатора, которая отвечает на следующие вопросы:
- Действительно ли текущие задачи (если таковые имеются), выполняемые в системе, стоят того с точки зрения применимости (то есть насколько они действенны, способны ли определить признаки отказа), и является ли каждая задача экономически эффективной по сравнению с альтернативой, например, использованием актива до отказа?
- Можно ли было избежать или смягчить любое из корректирующих событий технического обслуживания, выполненных в системе за последние пять лет (ориентировочно), если бы была создана надлежащая или применимая задача профилактического или предупредительного технического обслуживания?
- Может ли экспертная группа выдвинуть гипотезу о каком-либо характере отказов, еще не рассмотренных в первых двух вопросах, которые потенциально могут привести к серьезным последствиям, таким как нарушение безопасности или длительный вынужденный простой для восстановления и/или технического обслуживания оборудования?
RTI для систем 20/80, которые не подлежат RCM. Сотрудники MSDGC WWT проводят быстрый (в течение одного дня или менее) анализ RTI для систем 20/80 на хорошо функционирующих системах. При некоторых неприемлемых уровнях риска из-за двух или более факторов риска RTI может быть проведен более глубокий анализ с использованием анализа ECM (ориентированного на опыт обслуживания). Результаты RTI используются для определения приоритетов систем, назначенных для проведения анализа ECM.
RCA для всех систем при наличии неопределенности. Все заводские системы подвергаются анализу выявления первопричин, когда возникают проблемы, требующие принятия мер по смягчению или устранению последствий, и существует неопределенность относительно всех сопутствующих причин. Компания MSDGC выбрала причинно-следственный подход к RCA. Для будущих участников аналитических групп и координатора были проведены курсы по реализации данной методики.
RCA необходим, поскольку RCM и ECM едва ли способны выявить все сопутствующие и/или скрытые факторы, которые приводят к сбоям на протяжении жизненного цикла системы, особенно с участием людей. Задокументированные ненадлежащим образом процессы технического обслуживания, процедуры и рабочие инструкции — все это может быть причиной сбоев даже после завершения самого тщательного анализа RCM или ECM. Новый персонал, не имеющий должной подготовки и опыта, который стремится устранить кризисную ситуацию, может упустить из виду критически важные шаги по завершении ремонта, что приводит к ранним отказам вскоре после возобновления работы. Прочие причины, способствующие отказу, включают изменение состава запасных частей, смазочных материалов и других товаров из цепочки поставок организации, а также изменения условий эксплуатации, конфигурации системы или применяемых практик.
Дополнительные причины, выходящие за рамки RCM или ECM, которые касаются состояния активов и конфигурации системы на момент анализа, также нуждаются в проведении RCA в качестве инструмента для смягчения или устранения значительных неожиданных сбоев после завершения вышеупомянутых анализов. Это также необходимо, когда по какой-либо причине ни один из методов анализа не выполняется, и происходит значимое событие. Анализ RCA может занять несколько дней, а подготовка выводов и рекомендаций по корректирующим действиям может занять значительное время.
Устранение дефектов. Последний инструмент, применяемый в стратегии обеспечения эксплуатационной надежности подразделением MSDGC WWT. Методология и обоснование включения DE (устранения дефектов) в дополнение к RCA заключается в устранении известных дефектов, вызванных старением, износом, небрежным или ненадлежащим выполнением работ вследствие привычки, изменением условий эксплуатации, требующих более надежных компонентов, или ненадлежащими запасными частями, которые не отвечают текущему уровню нагрузки на оборудование.
Для анализа устранения дефектов обычно достаточно одного дня, поскольку здесь речь идет об уже выявленных дефектах. Отчет о выводах и рекомендуемых мерах намеренно ограничивается одной страницей.
Методология анализа порога рисков (RTI)
На момент, когда было принято решение использовать RTI, в MSDGC WWT было проведено в общей сложности восемь классических анализов RCM. В год проводили только два анализа из-за различных ограничений, включая ограниченный объем средств, выделяемый на найм координатора, и нехватку свободных человеко-часов для работы штатных экспертов в различных областях в составе аналитических групп. Кроме того, рекомендации по результатам анализа RCM реализовывались с опозданием.
Потребность в человеко-часах для выполнения других инициатив по обеспечению надежности обслуживания, вводимых в то же время, включая другой подход к мониторингу состояния активов, создавала дополнительную нагрузку на сотрудников, которым, помимо прямых обязанностей, приходилось ежедневно выполнять работы по корректирующему и профилактическому обслуживанию. Стремление учесть все системы, которые могут повлиять на цели и задачи очистки сточных вод, таким образом, чтобы свести к минимуму воздействие на персонал и аксимизировать отдачу от его усилий, привело к решению еще раз рассмотреть вопрос о том, как расставить приоритеты в деятельности персонала.
Этот вопрос непосредственно связан с рисками. Концептуально риск рассматривается в контексте наступления отказа (например, аппаратного и/или программного обеспечения) в системе предприятия и его оборудовании и характеризуется вероятностью отказа и его последствиями. Неприемлемый риск подразумевает сочетание серьезных последствий и достаточно высокой вероятности того, что это может произойти на самом деле. Некоторые отрасли промышленности, например, атомная энергетика и нефтехимическая переработка, тратят огромные суммы на количественное определение факторов риска, а затем уделяют большое внимание проектированию и эксплуатации установок, чтобы снизить риск аварий. Многие из тех же конструктивных особенностей присутствуют в MSDGC и большинстве других очистных предприятий. К ним можно отнести резервирование оборудования, достаточные проектные резервы и резервные эксплуатационные возможности, которые могут предотвратить несчастные случаи и выбросы неочищенных сточных вод в окружающую среду.
Сотрудники подразделения MSDGC WWT в течение нескольких лет указывали на необходимость разработки эффективной стратегии для устранения или, по крайней мере, смягчения последствий неожиданных отказов на заводах и системах, которые они эксплуатируют. В 2007 году организация использовала метод оценки критичности компонентов в попытке определить, где именно находятся такие риски и критичные области, а затем использовать результат для определения того, где следует использовать выбранные превентивные меры для снижения этих рисков. Для оценки критичности компонентов использовался многофакторный индекс критичности, применяемый на уровне компонентов. Критичность оценивалась на основании общего составного балла, сформированного путем ответов на 23 вопроса о безопасности, окружающей среде, техническом обслуживании и эксплуатационных последствиях в результате отказа. Количественная оценка компонента затем использовалась для выбора и назначения превентивного технического обслуживания (PdM, теперь также называемых мониторингом состояния активов или ACM) из предоставленной консультантом библиотеки. Это дало некоторые преимущества, о чем свидетельствует увеличение объема проактивного технического обслуживания в 2008 и 2009 годах, как показано на рис. 2. Проактивное техническое обслуживание увеличилось с чуть более 30% до более 40%, но затем в 2010 году выровнялось на более высоком уровне. В 2009 году руководство изучило другой процесс, чтобы реализовать его на внутризаводских системах (а не на компонентах), которые являлись основными виновниками чрезмерных затрат на корректирующее техническое обслуживание и простои системы, а затем применило комбинацию методологий, начиная с классического анализа RCM, чтобы определить стратегию технического обслуживания для устранения или смягчения таких отказов. К концу 2013 года этот подход дал значительные результаты, добавив больше проактивного обслуживания по сравнению с предыдущим, основанным на критичности отдельных компонентов. Как показано на рис. 2, объем работ (количество часов) по проактивному техническому обслуживанию вырос с >40% в 2010 году до >70% в 2013 году.
Таким образом, подразделение MSDGC WWT использовало классическую методологию RCM для систем 80/20, которые были выявлены с помощью анализа отказов систем и затрат труда на техническое обслуживание методом Парето. Риски для систем 20/80 оцениваются с помощью подхода RTI. Результаты RTI могут потребовать проведения более детального анализа, например ECM. Таким образом, подход RTI считается относящимся к семейству методологий RCM, поскольку он рассматривает системы, их функции и специфические режимы отказов, которые могут нарушить эти функции или вызвать другие проблемы безопасности или окружающей среды.
Снижение числа отказов, требующих корректирующих действий, которые ранее не ожидались, и общих отказов позволило сократить затраты на реактивное техническое обслуживание более чем на 1,2 млн долл. в 2011 году, на 528 тыс. долл. в 2012 году и более чем на 752 тыс. долл. в 2013-м.
Процесс RTI использует опыт и выводы группы опытных специалистов и/или высококвалифицированных руководителей технического обслуживания, а также оператора для проведения анализа. Специалист в области RTI-методологии координирует процесс из пяти этапов, как показано на рис. 3. Эти этапы в определенной степени имитируют анализ, используемый в классических исследованиях RCM, но завершаются до сбора полной информации и обсуждений, проводимых в классическом анализе RCM.
Пять этапов RTI
- Определите систему 20/80. Это можно сделать с помощью анализа Парето.
- Для выбранной системы 20/80 примите коллективное решение (в рамках группы экспертов) о границах этой системы. Цель этого этапа состоит в том, чтобы сформировать общее понимание границ анализируемой области (того, что в нее включено и что исключено). Обычно на это уходит немного времени.
- Составьте перечень системных функций для выбранной системы 20/80. Перечень функций помогает выявить влияние соответствующих функций, имеющих конкретные последствия, которые необходимо учитывать. Функции указываются на доске или флипчарте координатором анализа и фиксируются с помощью камеры, когда перечень готов. Эти данные в дальнейшем используются для отчета RTI.
- Перечислите основные компоненты, находящиеся внутри границы, включая контрольно-измерительные приборы, если они необходимы для контроля или обеспечения безопасности.
- Группа, используя свой коллективный опыт, обсуждает каждый компонент внутри границы, чтобы определить, были ли у него или могли быть какие-либо реально возможные проблемы или сбои, которые привели бы к одному или нескольким из семи последствий, указанных в таблице 1. Экспертная группа пытается ответить на следующий вопрос: может ли такая проблема или сбой быть источником неприемлемого риска с точки зрения функционирования системы?
Если ответ утвердительный, то дискуссия переходит к вопросу о том, будет ли это последствие превышать согласованное пороговое значение, допустимо оно или недопустимо; в случае последнего такой потенциальный сбой заслуживает дальнейшего рассмотрения, чтобы устранить или снизить риск до наступления фактического события.
Определение проблем и/или отказов и их потенциальной возможности привести к одному или нескольким серьезным последствиям лучше всего проводить на основании опыта и суждений специалистов ACM/PdM, которые следят за системой, технических специалистов и контролеров, обслуживающих ее, а также оператора, который управляет ею. Наилучшие результаты будут получены, если в анализе принимают участие наиболее опытные сотрудники.
Фактические результаты RTI
Целевое исследование систем водоочистной установки MSDGC: система «Возврат активного ила (RAS)» на станции очистки сточных вод Милл-Крик и система «Отработанный активный ил (WAS)» на станции очистки сточных вод Милл-Крик.
Дата проведения: 19 марта 2013.
Участники группы
- контролер установки для потока жидкости,
- старший механик,
- старший инженер КИПиА,
- оператор,
- специалист RTI и инженер по надежности водоочистных установок MSDGC (координаторы).
Границы системы:
- начало: тонкостенный слив из аэротенка,
- окончание: обратный трубопровод на входе в аэротенк,
- WAS: выход насосов на вторичное сгущение и в конечном итоге на мусоросжигательную печь.
Функции системы:
- Правильный возврат активного ила в аэротенки.
- Правильный сброс активного ила на вторичное сгущение.
- Сигналы потока на программируемый логический контроллер (ПЛК).
В таблице 2 приведены результаты этого анализа.
Результаты системы
Экспертная группа потратила около четырех часов на разработку данных, суммированных в таблице 2. С точки зрения риска в этой системе были выявлены две неприемлемые проблемы: нагнетательный клапан системы WAS средней степени критичности и напорный трубопровод к аэрации системы RAS. И то и другое может привести к непомерно высоким затратам и простою системы и/или завода. Третья потенциально неприемлемая проблема может возникнуть в ручных клапанах регулирования расхода (часть RAS к ручному клапану регулирования расхода аэротенка, средний индекс критичности 1200) и байпасных клапанах (низкий индекс критичности 450), если в задании на профилактическое техническое обслуживание не обозначена периодическая разработка клапана, чтобы исключить застревание в открытом состоянии.
Все три проблемы должны быть дополнительно рассмотрены контролером очистной установки по техническому обслуживанию и соответствующими техническими специалистами, а итоговые результаты такого рассмотрения должны быть доведены до инженера по надежности.
Как и при исследовании RCM, анализ RTI предполагает размещение всех участников в одной комнате, и каждый получает информацию о том, как работает система и как она поддерживается.
Сотрудники, занятые в эксплуатации и обслуживании, почти ничего не знают о других сферах. Собравшись вместе и обсудив функции системы, все эксперты в конце концов приходят к взаимопониманию. Когда мы анализировали систему RAS на водоочистном заводе Милл Крик, большинство экспертов в группе не думало, что мы выявим потенциальные критические моменты, способные привести к неработоспособности всей системы. Но мы ошиблись и обнаружили несколько проблем, указанных в таблице 2. Они были учтены в программе непрерывного совершенствования компании MSDGC WWT.
Процесс RTI также является отличным способом анализа систем 20/80. Этот метод требует меньше времени и обходится дешевле, чем проведение полноценного анализа RCM для каждой системы. Если компания хочет провести RCM для всех систем, это потребует времени и денег. Организация должна сначала сделать RCM для систем 80/20 и параллельно, если это возможно, RTI для систем 20/80. Для приоритезации систем применяется анализ Парето. RTI позволяет быстро идентифицировать любые активы, которые могут привести к остановке всей системы. Как только процесс RTI будет завершен, можно провести анализ ECM для систем, в которых удалось выявить что-либо, что может помешать функционированию процесса.
Анализ RTI, базирующийся на оценке критичности с помощью ответов на 23 вопроса, которые, на первый взгляд, больше фокусируются на активах, чем на функциях системы, является желанной переменой. Он непосредственно связан с функциями системы, такими как безопасность, и дает более конкретный ответ на вопрос о том, какие активы действительно важны с точки зрения риска.
Журнал Prostoev.NET № 2(23) 2020
По материалам зарубежных публикаций