1. 빅데이터 분석의 개론 강의 - 빅데이터 분석 기술

빅데이터는 기존 소프트웨어나 데이터베이스로 처리할 수 없는 크기의 데이터를 처리하는 기술을 말합니다.[1]

무엇이 데이터를 빅데이터로 만드는가? 그것은 데이터의 크기 방대함 (volume), 종류의 다양함 (variety), 발생하는 속도 (velocity)에 의해 결정됩니다. 

빅데이터가 뜨게 된 결정적인 이유는 Hadoop 의 등장 때문입니다.  대용량의 데이터에 대해 분산 저장하고 분산 처리하기 때문에, 과거처럼 사양이 높은 서버급 컴퓨터의 추가 증설없이 대용량 데이터를 처리할 수 있게되었습니다. 


빅데이터 분석의 과정은 과거 전통적인 데이터 분석과 크게 다르지 않습니다. 데이터 분석의 라이프 사이클[2]은 아래와 같습니다. 이 과정 중 여전히 데이터를 전처리(preprocessing)하는데에 많은 시간과 노력이 필요합니다. 



이 과정에서는 빅데이터 분석을 위해서 R을 이용합니다. 오픈소스 분석 도구로써 하둡과의 연동이 용이 합니다. R의 가장 큰 장점은 데이터 분석 패키지가 다양하다는 것입니다. 우리는 이 패키지를 이용하여 데이터를 처리하고 분석하는 내용으로 강의를 진행하고자 합니다. 
R과 RStudio를 설치하는 과정은 다음에 포스팅 하겠습니다.

[1] Big Data, https://en.wikipedia.org/wiki/Big_data
[2] EMC data analytics lifecycle, https://infocus.emc.com/david_dietrich/the-genesis-of-emcs-data-analytics-lifecycle/

강의자료 다운받기: DAlecture.pdf 


덧글

댓글 입력 영역

와이드 애드센스