Presto, 페이스북 SQL on Hadoop 오픈소스

요즘 빅데이터 기술의 대세는 SQL on Hadoop(엄밀히 말해, HDFS)인것 같군요.

어제 플랫폼 데이에서 다양한 빅데이터 기술들, 즉 Hadoop과 NoSQL 그리고 Strom 같은 실시간 처리기술과 SQL on HDFS(Hadoop) 등에 대해서 각 기술의 특징을 잘 보고, 요구 사항에 맞는 것을 선택하라고 이야기했었는데요.

“대부분의 성능 수치는 일반적인 질의나 전체 질의에 대해서 평균 몇배 빠르다가 아닌 자신들이 유리한 조건에서 테스트한 결과만을 언급하는 경우가 많다… 따라서 자신의 데이터 속성과 질의 속성에 맞는 플랫폼을 선택하는 안목이 필요할 때이다.”
– 출처: 김형준, SQL on Hadoop 100배, 200배 성능의 진실 http://jaso.co.kr/480

SQL on HDFS(Hadoop)는 로그 데이터를 단순 질의해야 하는 요구가 많을 때, Map/Reduce같은 배치 작업을 하지 않고 빠르게 처리해 주는 분산 쿼리 엔진인데, 임팔라, 타조, 드릴 등이 오픈 소스로 나와서 경쟁 구도를 형성하고 있죠.

이번에 페이스북이 Presto를 내 놓으면서 이쪽에도 큰 판도 변화가 있을 것 같네요. 아무래도 지구상에서 가장 큰 소셜 네트워크 데이터(300PB라니…)를 처리하는 곳에서 쓴다면, 무시할 수 없겠죠. 오픈 컴퓨팅을 비롯해서 요즘 오픈 소스는 구글이 아닌 페이스북이 주도하는 인상입니다.

Presto: Interacting with petabytes of data at Facebook
By
Martin Traverso Background Facebook is a data-driven company. Data
processing and analytics are at the heart of building and delivering
products for the 1 billion+active users of Facebook.

요즘은 오픈 소스도 마케팅이 중요한 시대가 됐습니다 ㅠㅠ

VM 몇 대 띄워서 한번 돌려봐야 할 것 같네요. (TB급 샘플 데이터는 인터넷에 널려 있습니다. 여러분도 한번 해보세요~)

여러분의 생각

의견 쓰기

이름* 이메일* 홈페이지(선택)