2. 데이터 수집 및 탐색 강의 - 빅데이터 분석 기술

데이터 수집과 전처리 과정은 매우 힘들고 어려운 과정입니다. 데이터 분석의 근간이 되기 때문이죠.
데이터 분석을 하다보면 필요한 데이터가 없는 경우가 허다하고, 있다하더라도 품질이 떨어지는 경우가 많이 있습니다. 

이번 시간에는 데이터 수집 및 전처리 과정을 살펴보겠습니다. 

데이터는 아래 그림과 같이 여러군데 분산 되어 있습니다. 응용프로그램마다 데이터베이스를 사용하고 있을 수도 있고, 텍스트나 파일로 개별 저장되어있기도 하고. 그리고 통나무.. log 데이터 입니다. 요즘은 그림이나 동영상 데이터도 있지요. 이 모든 데이터를 수집하여 저장하고 있는 공간을 요즘은 Data Lake라고 부릅니다. 그리고 이를 수집하는 과정을 ETL (extract, transform, load) 라고 부릅니다. 

 

<데이터 수집 과정>

아래 그림은 수집한 데이터의 종류를 HP-EMC에서 정리한 내용입니다. 정형 데이터와 비정형 데이터로 크게 나눌 수 있습니다. 이 비정형으로 되어있는 데이터를 어떻게 정형화 하여 분석할 수 있는가? 혹은 비정형의 상태로 분석할 수 있는가? 노이즈를 어떻게 처리할 수 있는가? 등이 최근 데이터 정제에 중요한 이슈입니다. 


<HP-EMC의 데이터의 종류>
저희는 그래도 가장 기본적인 정형 데이터를 위주로 살펴보겠습니다. 자연계의 대부분의 데이터는 정규분포(가우시안 분포)를 따른다고 보면 됩니다. 그렇지만 모든 데이터가 정규분포를 따르는 것은 아니니, 단순히 데이터만 보시고 정제하시면 안됩니다. 이때도 필요한것은 데이터 생성에 대한 지식 즉, domain knowledge가 필요합니다. 데이터 정제의 과정은 이 도메인 지식에 바탕을 두고 이상한 데이터를 처리하는 것입니다. 


<정규 분포>

데이터를 잘 정제하기 위해서는 사전에 데이터에 대한 지식을 알고 있는 것 만큼이나 시각화해서 살펴보는 과정이 필요합니다. 이를 탐색적 자료 분석 (EDA: exploratory data analysis)이라 부릅니다. 다음 포스팅에서는 데이터 시각화 및 통계를 리뷰하도록 할께요

강의자료 다운받기: DAlecture2.pdf




덧글

댓글 입력 영역

와이드 애드센스



애드센스 사이드 광고