Posting

Machbase의 최신 소식을 지금 만나보세요

세상을 뒤덮는 IoT 데이터

김성진 대표, 마크베이스

이번 글에서는 IoT 데이터의 발생에 있어서 어떠한 영역에서 이를 활용하고 있는지, 그리고 이런 데이터를 통해 실제로 어떤 문제를 해결하고 있는지에 대해 구체적인 사례를 살펴보고자 한다.



스마트 팩토리로 보는 데이터의 중요성

스마트 시대가 우리의 삶에 매우 빠른 속도로 다가오고 있는데, 현재 대한민국에서 가장 많이 회자되고 있는 분야인 ‘스마트 팩토리’를 예로 들어 그 데이터의 쓰임새를 확인해 보자.
‘스마트 팩토리’는 쉽게 말하면, 그 공장이 자율적으로 서로 소통하면서 문제를 진단, 해결함으로써 더 높은 수준의 제품 생산 및 품질을 보장하는 것을 의미한다고 할 수 있다. 이것을 가능하게 하는 스마트 팩토리의 주요 특징은 크게 세 가지인데, 각각 지능화, 연결화, 가상화라고 이야기한다.
연결화는 생산장비 등을 네트워크를 통하여 연결함으로써 데이터의 빠른 전달을 가능하게 하는 것이다.
가상화는 실제 공장을 데이터 형태로 추상화하는 것을 의미하며, 이 두 가지가 완료된 시점에서 지능화가 가능하게 된다. 지능화란 공장이 디지털 데이터 및 정보를 기반으로 스스로 판단하며, AI 및 생산 계획에 따른 자율 제어 기능을 의미한다. 지능화를 위한 모든 연산과 판단, 추론 등이 IoT 데이터를 중심으로 이루어져서, 결과적으로 생산지능화를 위한 데이터의 저장 및 추출이 매우 중요하게된다.
즉, 스마트 팩토리의 목표를 달성하기 위해서는 발생되는 IoT 데이터가 가장 중심에 있다는 것을 알 수 있으며, 이를 어떻게 효율적으로 활용하느냐가 중요한 목표가 됨을 확인할 수 있다.



IoT 데이터 증가 트렌드

앞에서 개념적으로 살펴보았지만, 사물인터넷(IoT) 시대의 기하급수적인 데이터 발생에 대해 그 원인을 좀 더 구체적으로 살펴보도록 하자.
첫 번째 원인은 연결된 단말 장비 개수의 증가이다. 독자들도 잘 알고 있는 바와 같이 5G를 비롯한 통신망의 확충으로 인해 상상할 수 없을 정도로 많은 장비가 네트워크에 연결되고 있다. 앞서 IoT-애널리틱스(IoT-Analytic)의 자료에 의하면 2025년까지 215억 개의 IoT 장치가 네트워크에 연결될 것으로 전망하고 있다.
두 번째 이유는 연결된 장비가 갖는 센서의 개수이다. 특정 시점의 데이터양은 연결된 장비 수 × 장비당 센서 수이므로, 장비가 갖는 센서의 수를 알아보는 것으로 전체 센서의 수를 계산할 수 있다. 가장 널리 보급된 스마트폰의 경우, 센서의 수는 50여 개이며, 자율주행이 가능한 스마트카의 경우 300여 개이다. 이처럼 장비당 설치된 센서의 수가 증가함으로써 연결 가능한 센서의 수는 급격하게 증가하고 있다. 스마트 팩토리의 경우에도 과거에 존재하지 않았던 수많은 개수의 센서가 생산 장비에 설치되고 있고, 선박, 자동차, 비행기, 건물 등 모든 사물에 센서가 점점 더 많이 부착되고 있는 것이 이를 증명하고 있다.
세 번째, 마지막 원인은 데이터 보존 기간의 연장 때문이다. 산업 현장에서 스마트 팩토리를 구축하는 경우, 시계열 데이터를 더 오랫동안 보관하고, 데이터를 더 짧은 샘플링 주기(Sampling rate)로 읽어 들여야 한다는 요구사항이 빗발치고 있다. 이는 기업이 필요로 하는 다양한 데이터 분석을 위해 데이터의 장기간 보관이 필수적이라는 것을 인식했기 때문이다. 앞의 두 가지 원인이었던 연결된 장비 및 센서의 수 증가가 특정 시간에 생성되는 데이터양을 의미했다면, 장기간의 시계열 데이터 보관과 더 짧은 샘플링 주기는 시간 축에 의해 증가하는 데이터양을 의미한다. 이를 바탕으로 그림을 그리면 아래와 같이 3차원 축에 각각의 변수가 위치하는 것을 볼 수 있으며, 이 3차원 공간의 부피가 바로 발생되는 데이터의 총합임을 이해할 수 있다.



실제 사례로 보는 데이터 증가 사례들

  • 반도체 생산 데이터 : 반도체 생산 공정은 웨이퍼 제조-웨이퍼 가공(확산, 포토, 식각, 증착, 이온주입, 연마)-칩 조립(연마, 웨이퍼 절단, 칩 접착, 몰드, 인쇄, 도금, 솔더볼 부착, 테스트)의 단계로 이루어지며, 단계별로 수많은 생산 장비를 이용하여 24시간 끊임없이 생산이 이루어진다. 생산 과정에서 이용되는 장비에 수많은 센서가 존재하며, 생산 장비에서 센서 데이터를 외부로 출력해 주는 표준(SECS 등)이 존재한다. 그 데이터를 모아 분석하면 다양한 방법으로 생산 효율을 올릴 수 있지만, 너무나 많은 데이터가 발생하기 때문에, 이를 수집하여 저장하는 것은 매우 어려운 과제이다. 반도체 장비당 센서의 수는 200~700개이며 하나의 생산라인에는 장비가 1,000여 대까지 설치되어 있다. 초당 1건의 센서 데이터를 저장한다고 가정하고, 장비당 센서의 수를 평균 500개로 가정하였을 때, 장비의 수를 1,000대로 설정하면 1초에 생성되는 센서 데이터의 수는 50만 건이 된다. 한 달이면 약 1조 건의 데이터를 처리해야 한다. 위 예의 반도체 제조회사가 센서당 1초에 한 건씩 입력되는 데이터로는 생산 데이터 분석 및 추적에 부족함을 느껴, 센서당 0.1초에 한 번씩 데이터를 모은다고 가정해 보자. 이로 인해 초당 생성되는 센서 데이터의 수는 10배로 증가하게 된다. 반도체 생산에 있어 하나의 웨이퍼가 생산 공정을 거쳐 칩으로 패키징되기 위해서는 최대 90일이 소요된다. 생산 과정의 문제점을 추적하기 위해 칩과 관련된 모든 과거 기록을 유지해야 어느 장비의 어떤 센서가 오류를 감지했는지 확인할 수 있는데, 이를 위해서 최소한 90일간의 데이터를 저장 및 유지해야 한다는 결론을 얻을 수 있다. 이를 데이터양의 측면에서 보면, 초당 500만 건이 발생하고, 이를 저장하고, 분석한다는 의미이다. 이것을 90일간 저장한다고 가정하면, 약 38조 건의 데이터를 저장해야 한다.
  • 물류 로봇 데이터 : 스마트 팩토리에서 생산 과정을 거치는 반제품들은 단순한 컨베이어 벨트가 아니라 이를 정확한 위치에 옮겨 주는 로봇에 의해서 옮겨진다. 즉, 하나의 공장 혹은 창고에서 수많은 물류 로봇들이 다양한 생산품들을 여러 위치로 자율적으로 이동시킨다. 스마트 팩토리 물류 로봇 중의 한 종류는 천정의 레일을 통하여 이동하는데, 이 물류 로봇과 레일은 레일 자체의 손상 혹은 먼지나 이물질의 부착, 로봇 롤러의 마모 등으로 주기적인 유지보수가 필요하다. 만약, 로봇의 센서가 이동 중의 이상 진동 등을 감지하여 이를 저장할 수 있다면, 고장 지점을 쉽게 찾을 수 있을 뿐만 아니라, 고장이 발생하기 전에 고장을 예방하여 생산이 중단되는 것을 막고, 주기적인 유지보수를 실행하여 발생 가능한 과도한 유지보수 비용을 절감할 수 있다. 이 목표를 달성하기 위해서 각각의 로봇의 현재 동작하는 상태의 데이터와 주변의 진동 및 위치 등의 데이터를 저장해야 하고, 이를 실시간으로 감시, 분석해야 하는 과제가 필연적으로 발생한다. 만일 한 로봇에 10,000㎐의 3축 진동센서가 2개 달려 있다고 가정하면, 초당 6만 건의 데이터가 발생한다. 만일, 한 공장 내에 약 100대의 로봇이 동작하고 있다고 한다면, 초당 600만 건의 센서 데이터가 발생한다
  • 회전체를 위한 진동 데이터 : 수력, 가스, 증기와 같은 고압 고속의 유체를 운동 에너지로 변환하는 터빈은 발전소, 제트 엔진의 핵심 구성 요소이며, 빠르게 회전하는 터빈의 관리 및 유지보수가 매우 중요한 문제이다. 터빈의 분당 회전수(rpm)는 터빈에 입력되는 유체를 공급하거나 중단시켜도 빨리 변화하지 않고 느리게 변화하므로 1초에 한 번 정도로 모니터링 하더라도 큰 문제가 없다. 그러나 마모, 이물질 부착, 피로로 인한 블레이드의 소소한 파손과 같은 기계적 문제가 발생하면, 이는 터빈의 진동이 커지는 형태로 외부에 전달된다. 터빈의 진동이 커지면 마찰로 인한 점진적인 효율 저하와 함께, 더 높은 열이 발생하고, 결과적으로 고장이 발생할 수 있다. 만약 터빈 진동을 주의 깊게 모니터링하고 변화 패턴을 분석하여 고장을 예측할 수 있다면 터빈 유지 보수 비용을 대폭 줄일 수 있을 것이다. 이 분야에 필요한 데이터 처리량을 설명하기 위해 관련된 이론과 방법을 간단히 소개한다.


(1)나이퀴스트-새넌 표본화 정리 : 표본화 정리를 간단히 설명하면, 주파수가 a인 아날로그 신호를 디지털로 변화하여 저장할 때, 이를 주파수 a인 아날로그 신호로 다시 복원하려면, 최소한 그 주파수의 두배, 즉 2*a의 주기로 샘플링을 해야 한다는 것이다. 진동체의 회전 속도와 진동 주파수는 비례관계에 있다. 즉, 초당 1만 번 회전하는 터빈의 진동은 10,000㎐ 주변에서 가장 크게 나타난다. 그리고 그 진동을 디지털로 변환하여 복원하려면 표본화 정리에 의해 두 배의 샘플링 주기가 필요하다. 초당 1만 번 회전하는 회전체의 진동을 분석하려면 최소한 20,000㎐의 주기로 아날로그 데이터를 읽어 들여서 디지털로 변환하여야 한다. 실제로 하나의 터빈에 설치된 여러 개의 진동 센서 데이터에서 나오는 초당 데이터 수집량은 상상하기 어려운 규모의 데이터가 될 것이다



발생된 모든 데이터를 저장하는 이유

상식적으로 생각해 보면, 문제의 원인이 되는 특정 시점의 일부 IoT 데이터만 저장하고, 정상 패턴의 IoT 데이터는 버리는 것이 가장 에너지와 자원을 아끼는 방법이라고 생각할 수 있다. 그러나 실제 스마트 X 관련 산업에서는 데이터를 일부만 저장하지 않고, 전체를 저장하려고 시도하고 있으며, 대부분 고객은 자신의 데이터를 버리려고 하지 않는다. 그 이유에 대해 사례를 통해 살펴보도록 하자.

  • FDC의 사례 : 반도체 생산공장의 실제 예에서 본 것처럼, 하나의 반도체 칩이 생산되기까지 여러 단계를 거쳐 다양한 생산 장치를 이용하여 생산이 이루어지며, 최대 90일까지 생산기간이 걸린다는 것을 알 수 있었다. 특정 생산 단위에서 문제가 발생한 것을 발견했다면, 어느 공정에서 품질 문제가 발생한 것인지를 추적하여 그 원인을 분석하는 것을 FDC (Fault Detection and Classification)라고 한다. 이를 수행하기 위해서는 생산과정에서 발생한 센서 데이터를 보존하고 있어야 한다. 생산 최종 단계에서 생산품의 문제를 감지했다면, 생산과정을 거슬러 올라가서 각 공정에서 생산 장치의 센서값을 추출하고, 그 센서값의 오류 여부를 판단하여, 어느 장치에서 이상 동작이 있었는지를 규명하여야 한다. 이를 위해서 그 생산품과 관련된 대량의 센서 데이터를 검색하여, 문제가 발생한 제품이 생산된 시점의 데이터를 읽어와야 한다. 생산 도중에 문제를 발견하였을 때, 오류가 발생한 제품들을 제거하고 비용을 절약하는 것도 FDC의 주요 목표이다. 이를 위해서는 장치에서 생성되는 센서 데이터의 패턴이 문제를 발생시키는 패턴인지를 판단해야 한다. 데이터 패턴을 풍부하게 유지하고 분석하여야 오류를 일으키는 데이터 패턴과 정상 상태 패턴을 정확하게 판단할 수 있다. 정상 상태의 데이터 패턴이 부족하면, 오류가 발생하지 않는데도 정상 패턴과 달라 오류로 잘못 진단할 수 있으며, 오류 상태 데이터가 부족하면 오류가 발생하더라도 오류인지를 판단할 수 없기 때문이다. 이는 “오류 데이터만 모으면 된다.” 혹은 “특정 경계 값만 넘으면 오류로 처리하는 것이 문제가 없을 것”이라는 기존의 생각이 틀렸을 뿐만 아니라, 왜 FDC라는 응용영역에서 정상/비정상 관계없이 데이터를 오랜 기간에 걸쳐 대량으로 저장하여 보관해야만 하는지에 대한 중요한 근거가 된다.
  • 인공지능 및 머신러닝(AI/ML)에서의 데이터 처리 사례 : 인공지능을 위한 대표적인 솔루션인 텐서플로우 등을 이용하여 시스템의 장애 예측에 활용하는 것이 스마트 X 영역 데이터 처리의 주요 최신 트렌드이다. 이와 관련되어 기계학습을 이용하는 일반적인 과정은 다음과 같다.


1) 먼저 센서 데이터를 수집한다. 수집된 데이터가 없으면 기계학습을 실행할 수 없고, 데이터를 많이 수집할수록 예측 모델이 정교해지며, 예측 실패가 적어지므로, 가급적 많은 데이터를 수집해야 한다.
2) 수집된 데이터를 정상 상태 데이터와 이상 상태 데이터로 분류한다.
3) 텐서플로우 등의 기계학습 도구를 이용하여 정상 상태, 이상 상태 데이터 패턴에 기반하여 학습을 실행한다. 실행 결과로 예측 모델을 생성한다.
4) 실시간으로 입력되는 센서 데이터를 위 예측 모델을 이용하여 예측을 실행하여 결과를 얻는다. 결과가 부정확하면, 데이터를 더 많이 수집한 후, 3)의 과정을 반복하여 원하는 수준의 예측이 나올 때까지 반복하여 수행한다.
5) 예측 실행 결과가 충분히 실제 상황을 반영한다면, 실시간 데이터로부터 실행한 예측 데이터를 이용하여, 예지 보전, 생산 예측 및 최적화 등으로 다양하게 활용할 수 있다.

위의 과정에서 기계학습으로 생성된 예측 모델을 평가하여 필요 없는 입력값을 제거하고, 더 정교한 예측 모델을지속적으로 생성해야 하는데, 실제로 생산 과정에서 실패를 반복하면서 최적화할 수 없기 때문에, 대량의 과거 데이터를 유지하고 있다면, 더 확실한 예측 모델을 생성할 수 있다. 이후 비즈니스가 고도화됨에 따라 지속적인 공정 변경, 생산라인 추가 등이 발생하면, 새로운 예측 모델을 다시 생성해야 하는데, 이를 위해서는 과거에 저장된 모든 데이터가 그 빛을 다시 발하는 좋은 기회가 된다. 이미 도래된 기계학습 시대에는 오히려 더 많은 데이터가 필요하다는 이런 역설적인 현상이 IoT 데이터의 폭증을 이끄는지도 모른다



IoT 데이터의 미래

이 글에서는 스마트 X라고 불리는 곳에서 발생하는 대규모 데이터에 대한 몇몇 사례를 들고, 그 필요성에 대해 간략하게 기술해 보았다. 주지한 바와 같이 이러한 센서 데이터는 앞으로 더 많이 발생할 것이 분명하며, 이러한 데이터에 대한 저장과 처리가 모든 곳에서 요구될 것이다.
분명히 지난 세대와는 다른 새로운 데이터 형태와 처리에 대한 시장의 요구가 높아지고 있는데, 우리 인류는 이런 데이터에 대한 대응을 어떻게 하고 있으며, 앞으로 어떤 것이 요구될지 참으로 기대되지 않을 수 없다.



아래 링크를 통해 세계 1위 마크베이스 TSDB 무료 다운로드 받을 수 있습니다.





 

뉴스레터 신청, 언론홍보 관련 문의는 pr@machbase.com / 02-2038-4606로 연락부탁드립니다.

ask all about AIoT

마크베이스 전문 컨설턴트에게 문의하세요.


T.02-2038-4606 F.02-2018-4607 E.support@machbase.com

연관 포스트

AI 예지보전을 위한 TSDB의 활용

제조설비 예지보전 제조설비 예지보전(Predictive Maintenance)은 최근 PHM(Prognostics and Health Management)이라는 보다 큰 의미의 용어로 불리고 있으며, 설비 이상에 대한 사전 진단 및 설비, 부품 등의

완벽한 AIoT 구현을 위한 TSDB의 도입과 사례

Agenda 아날로그 기술 기반 시대에서부터 지금까지, 우리는 어떤 표준을 따를 것인가에 관한 질문에 봉착하곤 한다. 때로는 미시적인 고려로 치부되기도 하지만, 때로는 제품과 시스템의 전체 퍼포먼스를