2023년 네번째 내부세미나

혼공학습단9기 4주차

안녕하세요. 이번 달에 에어릭스로 입사하게 된 데이터분석가 개발자 이상덕입니다. 입사 후 첫 세미나 참석 및 리뷰를 맡게 되었습니다!!! (박수)

혼공학습단 9기 4주 차 세미나를 진행했습니다. 신입 개발자이자 데이터분석가로서 개인적으로나 팀 자체로나 매우 유익한 시간이었습니다!

혼공학습단9기 4주차 학습 내용 토의


4주차는 데이터를 통계학적으로 요약하고 관련된 그래프를 작성하는 시간이었습니다.

통계를 요약하기에 앞서, pandas.dataframe의 활용을 먼저 다루게 되었습니다. Dataframe를 SQL.Query처럼 필요한 데이터를 추출하고 원하는 데이터를 요약하는 방법에 대한 시간을 먼저 가졌습니다.

그 과정에서 panda와 numpy를 오가며, 자연스럽게 mode/median/average에 대한 차이를 알게 되었으며, 통계의 필수적인 개념인 분산, 표준편차, 최솟값, 최댓값, 분위수등의 개념에 대해 배우게 되었습니다.

특히 손민철 대리님이 CLT에 대한 개념을 자연스럽게 익히셨다는 점에서 대단히 놀랐습니다.

CTL는 ‘Central Limit Theorem”의 약자로, 데이터 수가 많아진다면, 정규분포에 가까워진다는 이론입니다. (요약: 데이터는 다다익선)

이후 matplot을 활용하여, 산점도/히스토그램/상자수염으로 그래프를 작성하여, 통계학적 개념을 시각적으로 간단히 표현하는 시간을 가졌습니다.

특히 통계학에서 상자수염 그래프를 통해 주식에서의 캔들스틱 패턴에 대한 활용성 및 이상치(outliers)에 대한 개념을 알게 된 시간이었습니다.

개인적으로 Stochastic Regression Imputation을 하면서 마침 상자수염을 사용하고 있었는데 놀랐습니다.

이외 252페이지의 3번 문제에 대한 오류를 부장님이 예리하게 잡아내셨습니다.

그럼, 다음 혼공학습단9기 세미나를 기대하며 이만 줄이겠습니다!!

세미나사진1세미나사진2

다음은 개발팀원들이 혼공학습단9기 4주 차 학습을 마치고, 올렸던 블로그 포스팅 내용을 확인할 수 있는 접속 링크입니다.

자세한 공부 내용은 각각 블로그 포스팅으로 조회수를 늘려주세요!!

이상훈 - 학습내용 포스팅

손민철 - 학습내용 포스팅-1

손민철 - 학습내용 포스팅-2

김영규 - 학습내용 포스팅

송기영 - 학습내용 포스팅

강민석 - 학습내용 포스팅

강민구 - 학습내용 포스팅