요즘 빅데이터 기술의 대세는 SQL on Hadoop(엄밀히 말해, HDFS)인것 같군요.
어제 플랫폼 데이에서 다양한 빅데이터 기술들, 즉 Hadoop과 NoSQL 그리고 Strom 같은 실시간 처리기술과 SQL on HDFS(Hadoop) 등에 대해서 각 기술의 특징을 잘 보고, 요구 사항에 맞는 것을 선택하라고 이야기했었는데요.
“대부분의 성능 수치는 일반적인 질의나 전체 질의에 대해서 평균 몇배 빠르다가 아닌 자신들이 유리한 조건에서 테스트한 결과만을 언급하는 경우가 많다… 따라서 자신의 데이터 속성과 질의 속성에 맞는 플랫폼을 선택하는 안목이 필요할 때이다.”
– 출처: 김형준, SQL on Hadoop 100배, 200배 성능의 진실 http://jaso.co.kr/480
SQL on HDFS(Hadoop)는 로그 데이터를 단순 질의해야 하는 요구가 많을 때, Map/Reduce같은 배치 작업을 하지 않고 빠르게 처리해 주는 분산 쿼리 엔진인데, 임팔라, 타조, 드릴 등이 오픈 소스로 나와서 경쟁 구도를 형성하고 있죠.
이번에 페이스북이 Presto를 내 놓으면서 이쪽에도 큰 판도 변화가 있을 것 같네요. 아무래도 지구상에서 가장 큰 소셜 네트워크 데이터(300PB라니…)를 처리하는 곳에서 쓴다면, 무시할 수 없겠죠. 오픈 컴퓨팅을 비롯해서 요즘 오픈 소스는 구글이 아닌 페이스북이 주도하는 인상입니다.
Presto: Interacting with petabytes of data at Facebook
By
Martin Traverso Background Facebook is a data-driven company. Data
processing and analytics are at the heart of building and delivering
products for the 1 billion+active users of Facebook.
요즘은 오픈 소스도 마케팅이 중요한 시대가 됐습니다 ㅠㅠ
VM 몇 대 띄워서 한번 돌려봐야 할 것 같네요. (TB급 샘플 데이터는 인터넷에 널려 있습니다. 여러분도 한번 해보세요~)
※ Disclaimer- 본 글은 개인적인 의견일 뿐 제가 재직했거나 하고 있는 기업의 공식 입장을 대변하거나 그 의견을 반영하는 것이 아닙니다. 사실 확인 및 개인 투자의 판단에 대해서는 독자 개인의 책임에 있으며, 상업적 활용 및 뉴스 매체의 인용 역시 금지함을 양해해 주시기 바랍니다. 본 채널은 광고를 비롯 어떠한 수익도 창출하지 않습니다. (The opinions expressed here are my own and do not necessarily represent those of current or past employers. Please note that you are solely responsible for your judgment on checking facts for your investments and prohibit your citations as commercial content or news sources. This channel does not monetize via any advertising.)