빅데이터의 커다란 실수(Big Mistakes)

2012-07-16 03:34:10

국내에서 빅데이터 붐업이 접입가경이다. 최근 몇몇 콘퍼런스를 통해 외산 대형 벤더들이 거품을 양산하고 정권 말기 각 행정 부처별 이익에 따라 각자 차기 아젠다로 세팅함에 따라 몇몇 중소 검색 및 데이터 업체들이 동조하는 모양새를 보이면서 전형적인 TechBuzz의 길로 가고 있다.

물론 어떤 IT 기술이 뜨고 그것이 산업에 주는 긍정적 영향은 부인하기 어려우나, 외부에서 만들어진 기술을 국내에 도입하면서 생기는 남귤북지(南橘北枳, 귤이 회수를 건너면 탱자가 된다)는 전형적인 결과를 만들어낼까 우려스럽다. 지금껏 모든 남귤북지 케이스는 모두 기술 그 자체와 태생을 잘 이해하지 못하고 생긴 결과다. 그렇다면 필연적인 실수를 할 수 밖에 없게 된다.

최근 몇 군데 피치못할(?) 부탁으로 외부 콘퍼런스에 Daum에서의 Hadoop 이용 사례에 대해 발표할 기회가 있었는데, 이 때 개발자의 시각에서 경험한 몇 가지 중요한 점을 이야기해 보고자 한다.

데이터 분석 역할 파괴 (No Data Scientist!)
과거에 분석이라 하면 데이터 마이닝팀에게 역할이 주어졌고, 여기서 많은 병목이 일어났다. 유연하지 못한 장비와 소프트웨어로 사내의 많은 데이터를 원하는 대로 분석한다는 건 쉬운 일이 아닐 터, 빅데이터 기술이 가져다 준 가장 큰 이점은 바로 개발자들이 직접 자신의 데이터를 직접 스스로 분석할 수 있다는 점이다.

Hadoop이나 NoSQL 기술은 더 이상 전문 데이터 마이너가 아닌 개발자들이 직접 사용할 수 있는 것으로 심지어 SQL 기반의 분석이 가능한 Hive가 대표적이고, 기계 학습을 통한 분석을 위한 Mahout이나 고급 통계 처리를 위한 RHive 등을 들 수 있다.

최근 빅데이터 기술이 뜨면서 데이터 사이언티스트(Data Scientist)라는 말이 뜬다. 물론 기존 데이터 마이너 수준의 업그레이드 측면에서 중요하다지만, 더 중요한 것은 개발자들이 직접 데이터를 분석하는 데이터 개발자(Data Developer)의 확대가 더 중요하다.

웹이 성공한 이유가 무엇인가? 바로 일반인이 웹 페이지 개발이 가능한 수준의 기술 접근성이 떨어진 것이다. 그럼에 따라 시장은 엄청나게 커졌다. 가장 혁신적인 기술은 가장 쉬운 기술이다.

빅데이터가 제대로 되려면 개인이 자신의 스몰 데이터를 분석할 수 있는 클라우드 기반의 플랫폼 시대까지 가야 한다. 즉, 장막을 치기 보다는 걷어야 한다.

기술 내재화가 중요 (No Vendors!)
개발자들이 직접 자신의 데이터를 다룰려면 직접 Hadoop이나 NoSQL을 활용할 수 있는 환경이 필수적이다. 물론 이들은 모두 오픈 소스 소프트웨어로서 누구나 접근 가능하다. 클라우데라를 비롯 많은 벤더들이 이들 오픈 소스를 이용한 관리 도구 및 기술 지원을 하는 비지니스에 바로 착수하였다.

오픈 소스를 활용하는 회사들의 가장 큰 장점이자 단점은 기술 내재화(internalization) 비용이다. 개발자들이 이 기술을 사내에 내재화 할 수 있는 잉여력을 제공해야 한다. 무작정 벤더만 믿어서는 결코 성공할 수 없다. 길게 보고 개발자에게 투자하는 안목 있는 회사만이 미래가 있다는 점을 다시 한번 깨달아야 한다.

Daum의 경우, 백엔드 개발팀의 절반 정도가 자체적으로 Hadoop을 사용하고 있으며 사내에 콘트롤 타워를 두기 보다 직접 활용할 수 있도록 기술 및 인프라 정보 공유, 사내 세미나 개최 등을 통해 서로 돕고 있다. 작년 11월 부터 개발자들이 각자 사용할 수 있는 가상 VM 서버를 제공하면서, 사내 개발자 누구나 활용할 수 있는 하둡 테스트베드를 구축 하고 있다.

Small Data 활용 강화 (No Big Mistakes!)
마지막으로 당부하고 싶은 것은 바로 빅데이터는 스몰 데이터 활용부터 시작해야 한다. 어느 누구도 처음 부터 빅데이터를 가지진 못한다. 쓰레기통에 버려지던 데이터를 저장하고 이를 통해 가치를 얻어 내는 선순환 구조를 이룰 때만 가능하다.

따라서, 빅데이터 기술의 바른 활용 방법은 Small Data라도 계속 저장하여 실시간으로 저렴하게 데이터를 처리하고 처리된 데이터를 더 빠르고 쉽게 분석하도록 하여, 이를 비즈니스 의사 결정에 바로 이용하는 것. 이게 바로 BigData 기술을 바르게 활용하는 것이다.

스몰데이터 분석을 하라고 해서 빅데이터 기술을 기존의 모든 데이터 분석에 대체하려고 하는 시도도 위험하다. 우리가 의미있게 사용하지 못했던 버려진 데이터가 있었다면 이를 값싸게 저장하고 분석할 수 있는 것이 바로 ‘빅데이터 기술’이다. 따라서, 그 데이터에서 가치를 못 찾더라도 걱정할 필요 없다. 원래 싼 값으로 한 것이다.

만약 그걸 비싼 비용으로 구축하려면, 빅데이터를 가장하고 자신의 제품을 팔려는 많은 벤더 업체들에게 맡기는 게 낫다.

기술은 가치 중립적인 것이다. 새로운 기술이 탄생된 배경과 이것이 가진 철학을 이해하는 것이 제대로 사용하는 첫걸음이다. 남들이 떠든다고 휩쓸리지 말고 적절한 곳에 적절한 기술을 취사 선택할 능력을 키워야 한다.

그런건 구글, 페이스북, 트위터 그리고 국내 굴지의 통신사나 다음이나 네이버나 하는 것이라고 생각하는가? 그렇지 않다. 작은 벤처 기업이라도 AWS Elastic MapReduce나 Google Big Query를 쓰면 지금 당신의 자리에서 바로 시작할 수 있다.

시작이 반이다.

더 읽어 볼 글

빅데이터, 리눅스 열풍과 닮았다?
Daum 내부의 Hadoop 활용 사례 발표 자료

Slideshare에서 바로 보기

더 읽어 볼 글

- Channy Yun (윤석찬);

※ Disclaimer- 본 글은 개인적인 의견일 뿐 제가 재직했거나 하고 있는 기업의 공식 입장을 대변하거나 그 의견을 반영하는 것이 아닙니다. 사실 확인 및 개인 투자의 판단에 대해서는 독자 개인의 책임에 있으며, 상업적 활용 및 뉴스 매체의 인용 역시 금지함을 양해해 주시기 바랍니다. 본 채널은 광고를 비롯 어떠한 수익도 창출하지 않습니다. (The opinions expressed here are my own and do not necessarily represent those of current or past employers. Please note that you are solely responsible for your judgment on checking facts for your investments and prohibit your citations as commercial content or news sources. This channel does not monetize via any advertising.)

빅데이터의 커다란 실수(Big Mistakes)

더 읽어 볼 글

ChaosMonkey 및 Game Day in Action

DevOps vs. SRE vs. 카오스 엔지니어링

카오스 엔지니어링 커뮤니티를 시작합니다!

마이크로서비스 아키텍처 국내 도입 사례 - SK플래닛, 우아한형제들, 삼성전자 등