Data Analysis on Clouds

April 18 2013, 5:00 PM

302- 309

 

Abstract:

위키피디아에 따르면 빅데이터는 데이터의 사이즈가 너무 크거나 복잡해서 현존하는 DBMS프로세스하기 어려운 데이터의 집합이다. 이전에는 천문학, 화학, 지진관측, 그리고 기상예보 등 과학 분야의 데이터를 빅데이터로 생각했고 이를 처리하기 위하여 Globus 그리드 컴퓨팅 분야가 발전하였으나, 현재는 이 뿐만 아니라 센서 네트워크 데이터, 소셜 데이터, 인터넷 데이터 등 보다 커머셜한 분야의 데이터들을 다루고 있고 이를 위한 기술들이 빠른 속도로 발전하고 있다. 지난 수년 동안Hadoop commodity PC 서버를 사용하여 데이터를 분산 처리하는 기술이 크게 발전함에 따라 기존에 사용하던 값비싼 서버와 SAN, NAS 등의 디스크, 그리고 커머셜 데이터베이스를 대체할 수 있게 되어 전통적인 데이터 처리 비용보다 많이 저렴한 비용으로 빅데이터를 처리할 수 있게 되었다.  세미나에서는SK Hadoop 기반 대용량 데이터 플랫폼인SPADE (a Scalable & Parallel Analyzer for Data Enrichment)를 설명하고 이를 활용하여 SK의 서비스인 T store 등에 적용되는 여러 가지 Collaborative Filtering, Social Network Mining 알고리즘들에 대하여 소개한다.