728x90
- 하둡 에코시스템(Haddop Ecosystem) : 빅데이터는 수집, 정제, 분석, 시각화 등 여러 단계를 거치는데 이 단계를 거치는 동안 여러가지 기술을 이용하여 처리되는데 이 기술을 통틀어 빅데이터 에코 시스템이라고 한다.
- Hue란?
휴(Hue, Hadoop User Experience)는 하둡*과 하둡 에코시스템을 지원하는 오픈소스 웹 인터페이스입니다. 다른 하둡 에코시스템과 그룹화되어 Hive작업과 Spark Job 등을 실행할 수 있습니다.
*하둡은 여러 개의 저렴한 컴퓨터를 마치 하나인 것처럼 묶어 대용량 데이터를 처리하는 프레임워크이다.
- Hue 기능
"Query. Explore. Share"
-
- SQL 편집기
- 시각화
- Job의 스케줄링
- Job, HDFS, 등 하둡 모니터링
- Hue 인터페이스
쿼리에 대한 결과를 테이블 뿐만 아니라 시각화로도 볼 수 있습니다.
- Editor
- Presto : 페이스북이 개발한 대화형 질의를 처리하기 위한 분산 쿼리 엔진, 단계별 결과를 디스크에 올리지 않고 메모리에서 메모리로 데이터를 전달하는 구조여서 Hive보다 빠른 성능을 보이기도 함. 태블로 같은 BI 툴에서 연동할 때 Hive보다 더 적합함
- Hive :페이스북에서 만든 오픈소스로 맵리듀스(Map-Reduce)로 변환하여 처리하므로 응답시간이 길며 대량 데이터의 Full-scan에 최적화되어 있음. 작은 쿼리문을 여러 번 시행하는 게 부적합
- SparkSql : R의 데이터프레임 또는 Python의 Pandas와 비슷한 DSL을 통해 DataFrame을 지원하며 View라는 가상 테이블을 만들 수 있음
- 이외에도 Scala, java, Impala, Phoenix SQL 등을 제공함
- Scheduler
- Oozie workflow를 생성하여 스케줄링할 수 있음
- https://www.youtube.com/watch?v=Nnzd_q6vSHU
- Zeppelin이란?
NFLab이라는 국내 회사에서 개발하여 Apache top level 프로젝트로 승인 받은 오픈소스 솔루션. spark를 통한 데이터 분석의 불편함을 해결하기 위해 웹 기반의 Notebook을 통해서 환경에서 분석.
- Zeppelin 기능
- 데이터 탐색, 시각화
- 공유 및 협업 기능 → 여러 사람이 Notebook을 동시에 편집하고 실시간으로 확인이 가능
- Python, Scala, Hive, SparkSql, Shell, Markdown 등 다양한 프로그래밍 언어 지원
- Zeppelin 인터페이스
Python, Spark, R, bigquery 등 Interpreter를 선택하여 Zeppelin의 웹 인터페이스를 통해 분석 코드 실행하면 된다.
기본 spark로 노트북을 만든 이후에 쿼리를 실행하기 위해서 코드 상단에 %sql 입력 후 실행!
https://github.com/cloudera/hue
https://github.com/cloudera/hue
https://demo.gethue.com/hue/accounts/login?next=/
데모 사이트에서 접속하여 SQL 연습도 가능함
728x90