데이터 분석 - 개발팀 세미나

데이터 분석은 곧 이윤이다.

안녕하세요. 에어릭스 환경시스템사업부의 개발팀 프론트엔드 개발자 송기영입니다.

오늘은 제가 진행했던 데이터 분석 세미나에 대해서 이야기를 해보려고 합니다.

데이터 분석의 필요성

현재 에어릭스 개발팀의 솔루션은 PLC나 블루투스 센서의 데이터들을 이용해 집진기의 상태를 제어 혹은 모니터링하는 시스템입니다. 하지만 수집된 데이터를 우리는 제대로 활용하지 못하고 있습니다.

현재 솔루션중 하나인 ISDC의 경우에도 3년치의 데이터를 쌓아두고 그저 지켜보고만 있습니다.

look

저희 개발팀은 이 데이터를 어떻게 활용을 할 수 있을까를 생각해 보았고 데이터 활용을 하기 위해서는 데이터 분석이 무엇인지를 알아야 활용을 할 수 있다고 결론을 내리게 되었습니다.

세미나 진행

세미나는 의견을 주고받으면서 약 1시간정도 진행되었지만 이 글에서는 최대한 간략하게 소개해보려고합니다.

semina_start

semina_start

교안 다운로드 : 데이터 분석 - 개발팀 세미나 자료.pptx

데이터 분석이란?

사실 데이터 분석은 말 그래도 데이터를 분석하는 것입니다. 그리고 이 분석은 수학, 머신러닝, 컴퓨터사이언스, 통계연구, 데이터 처리, 도메인 전문서의 집합들의 지식이 있어야 비로소 데이터 분석의 기반이 됩니다.

semina_start

데이터 분석의 핵심은 데이터 추출이 아닌 의사결정입니다. 이는 아래와 같이 정의할 수 있습니다.

  • 수집한 데이터에서 어떤 가치를 뽑아내는가?
  • 데이터 분석을 해서 무엇을 얻고싶은가?
  • 데이터를 통한 올바른 의사결정을 할 수 있는가?

이러한 의사결정들을 통해 추출된 데이터를 어떻게 활용하는지는 데이터를 사용하는 사용자에 따라 결정됩니다.

데이터 분석 툴?

데이터 분석을 위해서는 파이썬, R, 엑셀, SQL, 태블로, Power BI, 구글애널리틱스 등 다양한 방법이 있습니다. 이중에 저는 가장 많이 사용되는 파이썬과 R을 비교해보았습니다. 아래의 표와 같은 이유로 저는 개발자이기 때문에 파이썬을 이용해 데이터를 분석해보았습니다.

semina_start

데이터 분석 과정

데이터 분석과정은 수집, 탐색, 시각화, 목적으로 진행됩니다.

  • 수집 : 데이터를 수집하는 단계
  • 탐색 : 로우 데이터에서 인사이트를 발견
  • 시각화 : 탐색을 통해 발견된 내용을 시각화
  • 목적 : 데이터를 분석하는 목적

그리고 탐색부터 목적까지는 계속 반복됩니다. 예로 하나의 데이터 셋에서 한가지의 목적을 찾는 것이 아닌 데이터 분석을 반복하면서 구체화된 목적을 찾을수 있으니까요.

실 데이터 분석

세미나에서는 다양한 자료들로 데이터를 분석하였지만 이 글에서는 저희회사의 진동센서 데이터를 가지고 데이터 분석 예를 이야기해보겠습니다.

  • 탐색 수집된 데이터를 보고 다음과 같은 인사이트를 찾을 수 있습니다.

    • X값이 클때 Y값도 클까?
    • 진동이 발생했을때 X와 Y가 모두 값이 클까?
    • 특정시간에 진동이 쎄지고 약해질까?

semina_start

  • 시각화 수집된 데이터를 가지고 시각화를 하면 아래와 같이 생성됩니다. 인사이트된 데이터를 시각화를 한것이 아닌 단순히 수집된 데이터를 시각화 했습니다.

semina_start

  • 목적 시각화된 데이터를 가지고 우리는 특정 시간에 x,y,z 값이 비정상적인 것을 확인 할 수 있습니다. 이를 통해 저 시간대에는 어떤 이슈가 발생했었는지를 파악할 수 있고 우리는 이를 해결하기 위한 방향성을 정할 수 있게됩니다.

데이터 검정

데이터를 뽑아왔는데 어떤 정보를 신뢰할 수 있을까라는 의심이 생깁니다. 지금까지는 그림을 보거나 평균값을 통해 데이터를 검정했습니다. 하지만 데이터 분석에서는 이를 정밀하게 검증할 수 있으면 검증을 진행합니다. 대표적인 예로 T-TEST 가 있습니다.

T-TEST 란?

두 집단간의 평균의 차이에 대한 검정 방법으로 귀무가설과 대립가설 중 하나를 선택하는 검정방법입니다.

semina_start

여기서 귀무가설은 버려질 것으로 예상되는 가설로, t-test 이후에 가설을 수용할지 기각할지를 결정합니다.

데이터 검정 예시

진동센서 X값과 Y값 차이 검정 예시(귀무가설)

semina_start

진동센서 X값과 Z값 차이 검정 예시(대립가설)

semina_start

T-TEST를 통한 p-value 값이 0에 가까우면 귀무가설 기준값 0.5보다 크면 대립가설이 됩니다.

여기서의 기준값은 평균적으로 0.5를 기준으로 하며 데이터에 따라 기준값이 변동됩니다.

질문

세미나 후에 다양한 질문과 토론들이 있었습니다. 예를 들어 분석된 데이터를 통해 어떤식으로 우리는 활용할 수 있을지에 대한 내용이 있었고 현재 ISDC 솔루션의 데이터를 활용할 수 있는 방안 등에 대한 내용들에 관한 내용이 오갔습니다.

semina_start

마치며

저는 이번 세미나를 통해 데이터 분석에 대한 제 나름대로 결론을 내렸습니다.

  1. 데이터 분석은 탐색된 데이터를 바탕으로 특정 데이터의 가치를 찾는 과정이다.

  2. 데이터 분석은 탐색, 시각화, 목적을 계속 반복하면서 구체화된 방향성과 결론을 도출하는 것이다.

  3. 인사이트는 데이터 분석가의 생각과 데이터의 형태에 따라 유연하게 도출된다.

  4. 데이터 분석은 이윤을 창출하기 위함이다.

블로그 글을 작성하면서 이번만큼 어려웠던적이 없었던것 같습니다. 최대한 쉽게 설명하려고 노력했는데 이해되지 않는 부분이 있으시면 질문 남겨주시면 답변드리겠습니다.

부족하지만 긴 글 읽어주셔서 감사합니다.