Posting

Machbase의 최신 소식을 지금 만나보세요

AI 예지보전을 위한 TSDB의 활용

제조설비 예지보전

제조설비 예지보전(Predictive Maintenance)은 최근 PHM(Prognostics and Health Management)이라는 보다 큰 의미의 용어로 불리고 있으며, 설비 이상에 대한 사전 진단 및 설비, 부품 등의 수명을 예측해 최적의 설비상태를 유지하는 것을 뜻한다. 이를 통해 제조업은 품질 향상과 납기를 준수하게 되어 경쟁력을 강화하고, 빅데이터 분석(AI, 통계)을 토대로 객관적인 근거를 바탕으로 공장의 다운타임을 줄이는 동시에 실질적인 비용손실을 감소시키는 효과를 가져온다. 통상적으로 PHM의 실행은 다음과 같은 4단계를 거친다.

(1) 정보 수집 : 예측할 장비의 센서로부터 데이터를 수집하고, 특징 신호 추출
(2) 이상 탐지 : 운전 신호 측정 및 비정상 패턴 발견 및 알람
(3) 상태 진단 : 이상 유무, 결함 원인 파악, 건전성 종합 평가
(4) 고장 예측 : 잔존 수명 예측 (RUL:Remaining Useful Life)

1. 정보 수집

센서 데이터는 Low Sampling Data와 High Sampling Data로 나뉜다. Low Sampling Data는 온도, 기압, 습도, 광도 등 초당 1건 ~ 분당 1건의 수집 주기가 낮은 데이터들이며 건물의 실내 온도, 펌프의 압력, 비닐하우스의 습도 등에 해당한다. 주요 용도는 시스템의 전체적인 상황을 긴 기간 동안 모니터링하는 것이며 느슨한 대응이 일반적이다. High Sampling Data는 진동, 음향(소리), 전류, 가속도, 충격 등 초당 10건 ~ 60,000건의 수집 주기가 높은 데이터들이며 압연롤러의 진동, 무인통로의 음향, 교량의 떨림과 진동 등에 해당한다. 주요 용도는 특정 장비/시스템에 대한 집중적인 감시를 하는 것이며 긴급한 대응이 주로 발생한다. 그러나 정보 수집 단계에서는 다음과 같은 현실적인 문제들이 많이 발생하기 때문에 보다 고도화된 데이터 처리 시스템과 면밀한 실행 계획이 필요하다.

ㆍ데이터 수집 : 데이터에 대한 프로토콜, 네트워크 형태가 다 달라서 데이터 변환이 필요
ㆍ데이터 저장 : 고속의 데이터, 장기간의 데이터, 보안 및 심리적 안정성
ㆍ데이터 전송 : 네트워크 매개의 불안정성, 지리적인 거리, 실시간 처리의 요구
ㆍ데이터 추출 : 얼마나 많이, 얼마나 자주, 얼마나 신속하게 데이터를 가져올지에 대한 고려

2.이상 탐지(Anomaly Detection)
이상 탐지는 상태 진단과 고장 예측의 전 단계로써 기존의 데이터와 달라 의심을 불러일으키는 희귀 항목, 이벤트를 통해 문제가 생겼는지 탐지하는 단계이다. 이상 탐지의 가장 큰 문제는 정상과 비정상을 어떻게 나누어야 하는가 이다. 개념적으로는 센서 데이터 흐름의 패턴을 통해 과거에 있었던 정상이라고 판단되는 패턴과 다른 상황이 발생하면 비정상으로 보고 있으나, 이는 해당 데이터를 판별하는 상황과 조건 등에 따라 유동적이기도 하다. 과거의 이상 탐지 기술은 비정상 패턴 관리에 초점을 맞춰서 오직 학습된 데이터의 결과만 예측 가능했다면, 최근의 트렌드는 비정상 패턴의 데이터를 관리하지 않고 정상적인 데이터를 학습하고 그 외의 다른 데이터가 발생하면 비정상일 확률이 높은 데이터 패턴으로
판단하며, 이러한 판단의 정확도를 어떻게 높이느냐가 중요한 관건이 된다. 이에 따라 제약된 소규모 데이터 처리를 하던 과거의 기술은 사라지고, 대규모 빅데이터 입력을 통한 패턴 자율 구축이 가능한 Anomaly Detection 기술로 진화하고 있다.

3. 상태 진단
그 다음 중요한 단계는 상태 진단이다. 상태 진단은 아래 3가지 항목으로 나눠 파악할 수 있다.
ㆍ이상 유무 파악 : 정말 문제인가?, “False Alarm”이 아닌가?
ㆍ결함 원인 파악 : 장애의 원인 부품은 무엇인가?, 얼마나 자주 발생하는가?, 어느 부위인가?
ㆍ건전성 종합 평가 : 전체적으로 제품의 상태는 어떠한가?, 관리자의 평가는?
일반적으로 해당 패턴이 정상인지 아닌지는 주어진 AI 모델을 통해 결정된 여러 차원의 추론 결과값(Anomaly score)을 통해 해당 패턴의 정상 유무를 판별한다.
즉, 해당 추론 결과값이 1개인 경우는 일차원 직선 위의 특정 점으로 표현될 수 있고, 2개의 경우는 평면 공간상의 특정점으로 수렴된다. 그리고 그 값의 크기와 위치에 따라 특정 영역의 그룹으로 모이면 정상으로 판별하고, 특정 그룹을 벗어나는 점이 나오면 비정상으로 판단하는 것이 일반적이다.
그러나 이 로직을 수행하면 정상적으로 판별하지 못하는 경우가 상당히 많은데, 그 원인은 다음과 같이 3가지 정도로 나누어서 대응하고 있다.
(1) Anomaly Score 범위의 오류
→ 최적의 범위로 진화하고 장기간에 걸친 튜닝이 필요하다.
(2) 데이터의 부족 혹은 오염된 데이터
→ 더 많은 데이터 수집과 데이터 정련/관리가 필요하다.
(3) 모델 선택의 오류
→ 레퍼런스 모델 확인과 재학습 및 검증이 필요하다

4.고장 예측
고장 예측은 가장 복잡하고 어려운 단계이다. 가장 잘못 알려진 상식 중 하나가 데이터만 모으면 예지보전을 할 수 있다고 예상하는 것인데 이것은 실제 현실과는 꽤 많이 다르다. 고장을 예측할 수 있는 방법에 대한 실제 모델은 3종류 정도 있는데, 이 3가지 모델의 공통적인 특징은 실제 장애가 발생한 이력 데이터를 기반으로 그 모델을 구축해야 한다는 것이다. 즉, 고장이 실제로 발생했던 과거의 경험 데이터 없이는 정확한 예측이 불가능하다는 것이고, 이는 각 기업이 직접 수집부터 고장까지의 모든 Whole life data를 수집해야 하며, 그것도 1회가 아닌 여러 회를 반복해서 보유하고 있어야 가능하다는 의미이다. 그리고 실제로 전체 단계에 대한 데이터 구축 의사결정을 하게 되더라도, 아래와 같은 현실적인 문제가 도사리고 있다.

  • 수집/저장의 문제 : 정상과 비정상 구분을 위해 장기간 데이터를 모두 수집해야 함
  • 전처리/학습의 문제 : 대용량 수집 데이터에 대한 학습 데이터 추출이 매우 어려움, 데이터 전처리 시간 및 비용이 기하급수로 증가
  • 실시간 데이터 흐름의 문제 : 실시간 데이터 추출ㆍ저장ㆍ처리ㆍ추론ㆍ대응을 위한 데이터 파이프라인 필요
  • 모델 선택의 문제 : 어떤 데이터를 어떻게 학습, 검증, 정확도를 검증할 것인가?
  • 사용자 유지보수 문제: “비정상 상황“ 이 어떤 상황인지 고객ㆍ장비ㆍ센서ㆍ환경별로 모두 다를 수 있음. 실제 구축을 했더라도 현업 담당자에 의한 fine-tuning(이상 범위 조절)이 가능해야 함
    따라서 실제 고장 예측을 구현할 때 고려해야 할 가장 큰 문제는 어떤 AI 모델을 써서 잘 예측할 것인가가 아니라 그 예측하기 위한 데이터를 수집, 보관, 변환, 추출, 학습, 검증하는, 이 많은 단계를 빠르고 효율적으로 반복할 수 있는 기술을 가졌는가 이다.

데이터 수집을 위한 Edge Computing 기술


데이터 수집을 위한 가장 편리한 기술 중 하나가 Edge computing이다. 비용은 절감하고 처리 속도와 보안을 향상시킴으로써 예지 보전을 위한 데이터 인프라 구축이 가능하다. 최근 들어 Edge 장비들이 점점 강화되면서 자체적인 데이터 저장 및 처리 능력을 이식하였고 외부에 대한 의존성을 줄임으로써 자율화 실현이 가능한 Empowered Edge 모델로 진화 중이다. Edge computing 아키텍처 예로는 가장 하위에 있는 센서 데이터가 클라우드 혹은 서버까지 고속으로 송수신할 수 있는 데이터 파이프라인의 구축 및 Cloud 서비스를 통한 통합관리가 가능하다.

데이터 실시간 처리를 위한 Time Series DBMS 기술


진동데이터의 경우 하루에 몇 억 건, 한 달에 수백억 건이 넘게 발생한다. 이런 어마어마한 양의 데이터들은 전통적인 데이터베이스로는 해결할 수 없으므로 최근 들어 시계열 데이터베이스를 통해 해결하고 있으며 이는 거스를 수 없는 메가트렌드가 되고 있다.


시계열 데이터의 특징은 다음과 같다.

  • 데이터 특성 : 정형/반정형, 시간 흐름에 따라 발생하는 로그, 이벤트 정보
  • 데이터 입력 위주 : 데이터 업데이트 없고 과거 데이터 순 삭제
  • ID, 상태 정보 포함 : 해당 데이터 소스의 ID 및 상태 정보 포함
  • 시간 데이터 : 시간을 기준으로 각종 통계ㆍ분석 수행
  • 매우 빠른 생성 속도 : 동일 패턴, 지속적으로 빠르게 생성

위의 그래프는 오라클과 같이 전 세계의 전통적인 데이터베이스에 대한 추세와 최근 들어 두드러진 상승 곡선을 그리고 있는 시계열 데이터베이스를 비교한 것이다. 이 그래프는 시계열 데이터베이스의 전성시대가 열리고 있음을 뜻한다. 전통적으로 빅데이터들은 MSSQL, MySQL, Hadoop 등에 저장했지만, 최근 많은 기업들이 빨리 저장하고 쉽게 처리할 수 있는 시계열 데이터베이스로 메인 저장소를 바꾸고 있다.

이상 감지 및 예지 보전을 위한 AI 모델

AI 기반의 Anomaly Detection 기술의 목표는 IIoT 센서로부터 실시간으로 생성되는 시계열 데이터를 심층신경망을 활용하여 이상 징후를 사전 탐지 후, 예지보전을 위한 Insight를 제공하는 것이다. 이상 징후 탐지 기술들은 현재도 지속적으로 개발되고 있으며 점점 더 빠르고, 정확한 모델이 출시되고 있다.
그러나 실제 적용하는 관점에서는 어떠한 모델을 어떤 데이터 수집 환경에서 써야 할 것인지에 대한 의사결정이 매우 중요하다. 그렇지 않으면, 원하는 목표를 달성하기 위한 효율적인 모델 활용이 거의 불가능하기 때문이다.
마크베이스는 이에 대한 많은 조사와 경험을 통해 대표적인 7가지의 AI 모델을 제공하고 있으며, 실제로 적용시 사용자의 데이터와 환경에 최적화된 모델을 결정하도록 하고 있다.
ㆍOCSVM(One-Class Support Vector Machine)
ㆍIsolation Forest
ㆍLOF(Local Outlier Factor)
ㆍAutoEncoder (type 1)
ㆍAutoEncoder (type 2)
ㆍDeepSVDD(Deep Support Vector Data Description)
ㆍAnoCaps(Anomaly-CapsNet)

마크베이스 AIoT Suite의 개발 배경


데이터를 다루는 방식을 인간의 몸으로 비유한다면 AI는 Brain, Data는 Blood, AIoT는 Body로 볼 수 있다. 즉, 예지보전을 잘하기 위해서는 단순히 특정 영역이 잘되는 것이 아니라 데이터의 발생 시점부터 데이터가 분석되는 시점까지의 데이터 고속도로가 필요하다. AIoT 관점에서 예지보전 기술의 핵심은 AI에 있다기보다는 얼마나 데이터를 효율적으로 처리하느냐이기 때문이다. 마치 기름을 쓰기 위해 초기 추출부터 정제공장, 주유소까지의 많은 단계를 거치는 것처럼 데이터를 실시간으로 처리하는 프로세스를 만드는 것이 예지보전 기술의 핵심이다.
마크베이스 AIoT Suite의 차별점은 보통의 AI 모듈은 데이터소스를 파일이나 메모리에서 가져오지만, 마크베이스 AI 모듈은 추론 데이터소스를 DBMS에서 실시간으로 전송하여 데이터 변환에 드는 불필요한 비용을 줄이는 것이다. 또 Edge computing 솔루션과 연계하여 실제 데이터가 발생하는 Edge 장비로부터 데이터를 분석하는 서버 장비까지의 경로에서 혹여 발생할 수 있는 네트워크 단절이나 와이파이 끊김 상황에서도 데이터 손실 없는 전송을 가능케 한다.
AI 데이터의 흐름은 크게 4개의 자동화된 단계로 나눠진다.
ㆍExtract 과정 : 데이터를 어디에서부터 가지고 올 것인지 결정하는 단계
ㆍPre-Processing 과정 : 추출된 데이터를 어떤 형태로 변환을 할 것인지 결정하는 단계
ㆍExecute 과정 : 어떤 종류의 AI 모델을 사용할 것인지 결정하는 단계
ㆍPost-Process 과정 : Execute 과정을 마치고 그 결과에 따른 동작을 결정하는 단계

마크베이스 AIoT Suite 구축


아래는 실제로 고객사에 필요한 이상 감지 프로젝트를 구축하는 경우 진행되는 프로젝트 단계와 각 단계에 대한 설명이다. 이는 고객사의 특성상 달라질 수도 있지만, 데이터를 수집하기 위한 첫 단계가 에지 컴퓨팅 환경을 구축하고, 데이터 고속도로를 가장 먼저 설치하는 것이라는 것을 눈여겨 보기 바란다.
(1) Edge Master 구축 : 데이터 수집 고속도로 구축, 적용 대상 센서/ 데이터 선정
(2) 정상 데이터 수집 : 수집 주기/ 용량 설계, TSDB의 최대 성능 검증
(3) 학습 및 모델 선정 반복 : 다수의 모델에 대한 학습, 테스트를 통한 최적 모델 선정
(4) 필드 적용 및 검증 : 실 데이터 추론 검증, 파라미터 튜닝
(5) 개선 작업 : Anomaly Score 튜닝, Post-process 셋업
위의 3단계부터 5단계까지는 모델의 고도화 요구에 따라 여러 번 반복되어 수행되며, 최종적으로 가장 적합한 AI 모델과 수행 결과를 도출할 수 있도록 진행된다.

마크베이스 AIoT Suite의 적용 사례 – 철도차량 제동장치 및 전동문


이 프로젝트에서의 고객 요구사항은 도시철도 차량을 시범 대상으로 제동장치의 진동센서와 전동문의 전류센서를 활용하여 데이터의 수집부터 장비의 이상징후 감지까지 일원화된 분석체계를 구축하는 것이었다. 핵심은 동일한 종류의 장비에 대해 동일한 AI 모델을 확장해서 적용할 수 있는지의 여부였다.
제동장치와 전동문에 Edge 장비가 들어가 있고 네트워크를 통해 원하는 데이터를 실시간으로 전송하면 서버에서 데이터를 분석해서 해당 고객에게 이상징후에 대한 정보를 제공하는 작업을 진행했다.모터 센서 같은 경우는 문 1개당 총 1000개의 데이터를 발생하고, 제동장치 센서의 경우 1개 장치에서 총 84개의 다양한 데이터 타입의 값을 측정, 매초 약 2,352개의 엄청난 데이터의 양이 수집되는 것을 확인할 수 있다
이 과제를 통해 철도차량의 제동장치 및 전동문의 미세 이상을 사전에 감지하여 실제 데이터 수집과 변환에 드는 80% 이상의 시간과 노력을 절약할 수 있었고, 잔존 수명예측을 위한 기반을 마련할수 있었다. 더불어 자율적 학습 체계가 진화될수록 사람이 수동으로 대응해야 하는 업무를 줄일 수 있을 것으로 전망한다.
그동안의 실무 경험에 비춰보았을 때 예지보전이나 이상 탐지 구축의 핵심은 AI가 아닌 Data 통합 기술이다. 수집부터 추론까지의 막힘 없는 데이터 인프라가 매우 중요하며 다양한 환경에서의 다양한 제약 조건들을 만족해야 한다. 예기치 못한 크고 작은 데이터 관련 이슈의 발생과 그 과정에서 드는 비용들을 고려했을 때 용이한 반복 수행을 통한 인공지능 기반 인프라를 구축하는 게 프로젝트 성공의 관건이다.

실제 예지보전 시스템을 구축하기 위해서는 많은 시간과 노력이 필요하지만 마크베이스 AIoT Suite를 통해 데이터 수집과 이상 탐지를 성공적으로 수행할 수 있고, 이러한 경험들의 축적은 더 빠르고 더 정교한 예측모델 개발에 기여할 것으로 전망한다.

연관 포스트

세상을 뒤덮는 IoT 데이터

김성진 대표, 마크베이스 이번 글에서는 IoT 데이터의 발생에 있어서 어떠한 영역에서 이를 활용하고 있는지, 그리고 이런 데이터를 통해 실제로 어떤 문제를 해결하고 있는지에 대해 구체적인

완벽한 AIoT 구현을 위한 TSDB의 도입과 사례

Agenda 아날로그 기술 기반 시대에서부터 지금까지, 우리는 어떤 표준을 따를 것인가에 관한 질문에 봉착하곤 한다. 때로는 미시적인 고려로 치부되기도 하지만, 때로는 제품과 시스템의 전체 퍼포먼스를