Posting

Machbase의 최신 소식을 지금 만나보세요

사물을 위한 데이터베이스 – 1/2


사물인터넷(IoT, Internet of Things)은 수많은 장치들이 인터넷 네트워크를 통해 데이터를 상호 전달 및 처리하는 것을 말합니다. IoT 장치들에는 일반적인 데스크탑과 랩탑 등을 제외한 센서, 디지털 구동기(actuator) 및 이동 단말 등이 포함됩니다.

이들 장치에서 생성되는 데이터를 수집, 가공, 분석하여 정보를 생성하고, 새로운 부가가치를 창출하는 것이 4차 산업 시대의 모습입니다. 

다만, IoT 데이터는 조금 다른 특징이 있습니다.

대표적으로 여러 곳에서 대량의 데이터가 산발적으로 발생하기 때문에 기존 데이터 솔루션으로 처리하기가 매우 어렵습니다.

이번 포스트에서는 IoT 데이터의 종류와 특징을 살펴보고, 사물 인터넷 데이터를 처리하기 위해서 극복해야 할 과제에 대해서 말씀드리겠습니다.

사물 인터넷 데이터의 종류와 특징  

사물 인터넷은 한때 RFID 데이터를 이용하는 시스템만을 지칭하는 용어였지만, ICT 기술의 발달로 더욱 다양한 종류의 데이터가 포함되게 되었습니다.

그럼 RFID를 비롯한 어떤 다양한 종류의 데이터가 있고, 그 특성을 알아보겠습니다.

RFID(Radio Frequency Identification)

RFID는 전파로 기록된 정보를 송수신하는 tag로 장비에 붙여두거나 장비 내에 포함시킬 수 있습니다. RFID의 tag는 데이터를 저장하는 IC chip과 데이터를 송수신하는 안테나로 구성되고, tag의 데이터는 tag reader를 통해 무선으로 통신됩니다. 

RFID는 매우 다양한 분야에서 활용되고 있습니다. 예로 들면 :

  • 여권
  • 휴대전화
  • 물류 관리
  • 재고 관리
  • 헬스케어

tag는 대량생산으로 매우 저렴해 지면서 많은 분야에서 사용될 수 있지만, bar code에 비해서는 아직 비싸기 때문에 유통 등의 분야에서는 확산이 더디게 진행되고 있습니다. 

RFID를 물류에서 사용할 경우에는 tag의 위치정보, 시간 정보를 기반으로 시계열에 따른 이동 궤적을 추적할 수 있습니다.

로그 데이터(Log Data)

수많은 S/W와 H/W에서 생성되는 로그 데이터(Log Data)는 장치와 소프트웨어를 관리하는 데 있어 매우 중요한 역할을 수행합니다. 

하지만, 로그 데이터은 텍스트 형태로 생성되고 일정 용량이 되면 자동 삭제될 수 있어, 데이터의 장기 수집과 분석을 위해 다른 방식이 필요합니다.

로그 데이터는 일반적으로 로그의 생성 시점을 반드시 기록하고, 입력된 메시지 내용으로부터 다양한 정보(ip address, mac address 등의 id 정보, 시스템 사용량 및 부하 정보, 온도 및 습도 등 환경 정보 등)를 포함하고 있습니다.

정형 데이터가 아니어서 관계형 DBMS의 스키마로 나타내기 위해서는 로그 메시지의 파싱 등의 변환 과정이 필요하다. 

로그 데이터는 생성하는 프로그램에 따라 여러가지의 format으로 기록되므로 처리하기에 쉽지 않은 측면이 있다.  

위치 및 환경 데이터

RFID의 예에서 볼 수 있듯이 이동객체 데이터 및 기상 환경 데이터는 그 데이터가 발생한 곳의 위치 정보가 매우 중요하다.

일반적으로 위치정보는 GPS(global positioning system)을 이용하여 얻게 되는데, 여러개의 위성을 통해 얻는 GPS정보는 그 특성상 대략의 위치만을 알 수 있을 뿐, 정확한 위치 정보를 얻기가 쉽지 않은 특징이 있다. 

특수한 환경에서는 local positioning system을 이용하여 더 상세한 정보를 얻을 수 있는 경우도 있다. 

이동하지 않는 장비의 위치 데이터도 매우 중요한 정보로 취급될 수 있다. 

예를 들어 해상에 떠 있는 센서의 온도, 습도, 기압 등의 환경 정보와 위치 정보를 조합하면, 기상 예보, 재난 경보등에 매우 도움이 되는 정보를 얻을 수 있다. 

위치 및 환경 데이터는 지리정보 시스템(Geographical information system)과 모바일 컴퓨팅 등의 기술과 융합하여 연구되고 있다.  

시계열 데이터 – 센서 데이터

우리는 수 많은 센서들에 둘러싸여 생활하고 있다. 휴대 전화에도 카메라, GPS, 가속도 센서등의 수많은 센서가 부착되어 있으며 공장이나 공공 부문(도로, 철도, 항만, 공항)에도 매우 많은 센서들이 있다.

이 센서 데이터를 분석하면 다양한 부분에서 이전에 실행할 수 없었던 문제들을 해결 할 수 있다. 각 센서는 유일 식별자를 갖고, 읽어들인 데이터 값과 측정 시간을 같이 기록하여 전달한다. 

< Timstamp, 센서 식별자, 센서값>의 형태로 기록되는 데이터는 차후에 데이터 분석을 위해 순차적으로 입력시간에 따라 저장되며 이를 시계열 센서 데이터라고 한다.  

시계열 데이터 – 제어 데이터

실시간으로 변화하는 구동기(actuator)등에서 수집한 센서 데이터 뿐만 아니라, 그 구동기를 제어하기 위한 제어 신호 데이터도 시계열로 기록된다.

이러한 데이터들은 실시간으로 변화하는 중의 데이터이므로 대량의 데이터가 발생하여 저장 및 분석에 어려움을 주고 있다. 이후 사고 분석, 불량 예측, 품질 개선, 생산량 조절 등에 기존의 데이터를 분석하여 진단할 수 있다.  

시계열 데이터 – Historical Data

시간을 포함하는 센서 데이터를 모으면 이 데이터는 historical data가 된다. 데이터를 수집하는 주기에 따라 데이터의 양은 매우 증가한다.

자세한 분석을 위해서 데이터 수집 주기를 짧게 할 수록 데이터 양이 커지기 때문에, DBMS로는 해결해야 할 문제점이다.  

연관 포스트

Deep Anomaly Detection in Time Series (2) : 이상 감지 모델

개요 안녕하세요, 마크베이스의 Cloud개발본부 연구원 양창은입니다. 지난 게시글 Deep Anomaly Detection in Time Series (1) : Time Series Data에서는 시계열 데이터와 이상치(Anomaly)의 종류에 대해 알아보았습니다. 그리고

IIoT를 위한 Data Lake – machlake

Data Lake 란, 대규모의 다양한 원시 데이터 세트를 기본 형식으로 저장하는 데이터 리포지터리 유형입니다. 원시 데이터는 특정 목적을 위해 처리되지 않은 데이터를 뜻합니다. 산업 IoT