하둡 Hue / Zeppelin 소개

데이터 분석

하둡 Hue / Zeppelin 소개

INCHELIN 2022. 2. 14. 13:22
728x90
  • 하둡 에코시스템(Haddop Ecosystem) : 빅데이터는 수집, 정제, 분석, 시각화 등 여러 단계를 거치는데 이 단계를 거치는 동안 여러가지 기술을 이용하여 처리되는데 이 기술을 통틀어 빅데이터 에코 시스템이라고 한다.

하둡 서브 프로젝트들의 모이 모여서 에코시스템을 이룸. 출처: https://1004jonghee.tistory.com/


  • Hue란?

휴(Hue, Hadoop User Experience)는 하둡*과 하둡 에코시스템을 지원하는 오픈소스 웹 인터페이스입니다. 다른 하둡 에코시스템과 그룹화되어 Hive작업과 Spark Job 등을 실행할 수 있습니다.

 

*하둡은 여러 개의 저렴한 컴퓨터를 마치 하나인 것처럼 묶어 대용량 데이터를 처리하는 프레임워크이다. 

 

  • Hue 기능

"Query. Explore. Share"

    • SQL 편집기
    • 시각화
    • Job의 스케줄링
    • Job, HDFS, 등 하둡 모니터링

 

  • Hue 인터페이스

 

쿼리에 대한 결과를 테이블 뿐만 아니라 시각화로도 볼 수 있습니다.

 

 

  • Editor
    • Presto : 페이스북이 개발한 대화형 질의를 처리하기 위한 분산 쿼리 엔진, 단계별 결과를 디스크에 올리지 않고 메모리에서 메모리로 데이터를 전달하는 구조여서 Hive보다 빠른 성능을 보이기도 함. 태블로 같은 BI 툴에서 연동할 때 Hive보다 더 적합함
    • Hive :페이스북에서 만든 오픈소스로 맵리듀스(Map-Reduce)로 변환하여 처리하므로 응답시간이 길며 대량 데이터의 Full-scan에 최적화되어 있음. 작은 쿼리문을 여러 번 시행하는 게 부적합
    • SparkSql : R의 데이터프레임 또는 Python의 Pandas와 비슷한 DSL을 통해 DataFrame을 지원하며 View라는 가상 테이블을 만들 수 있음
    • 이외에도 Scala, java, Impala, Phoenix SQL 등을 제공함

 


 

  • Zeppelin이란?

NFLab이라는 국내 회사에서 개발하여 Apache top level 프로젝트로 승인 받은 오픈소스 솔루션. spark를 통한 데이터 분석의 불편함을 해결하기 위해 웹 기반의 Notebook을 통해서 환경에서 분석.

 

  • Zeppelin 기능
    • 데이터 탐색, 시각화
    • 공유 및 협업 기능 → 여러 사람이 Notebook을 동시에 편집하고 실시간으로 확인이 가능
    • Python, Scala, Hive, SparkSql, Shell, Markdown 등 다양한 프로그래밍 언어 지원

 

  • Zeppelin 인터페이스

Python, Spark, R,  bigquery 등 Interpreter를 선택하여 Zeppelin의 웹 인터페이스를 통해 분석 코드 실행하면 된다.

기본 spark로 노트북을 만든 이후에 쿼리를 실행하기 위해서 코드 상단에 %sql 입력 후 실행!

 

 


 

 

https://github.com/cloudera/hue

 

GitHub - cloudera/hue: Open source SQL Query Assistant service for Databases/Warehouses

Open source SQL Query Assistant service for Databases/Warehouses - GitHub - cloudera/hue: Open source SQL Query Assistant service for Databases/Warehouses

github.com

 

 

https://github.com/cloudera/hue

 

GitHub - cloudera/hue: Open source SQL Query Assistant service for Databases/Warehouses

Open source SQL Query Assistant service for Databases/Warehouses - GitHub - cloudera/hue: Open source SQL Query Assistant service for Databases/Warehouses

github.com

https://gethue.com/

 

Hue - The open source SQL Assistant for Data Warehouses

Find and connect your data The tables and storage browsers leverage your existing Data Catalogs knowledge transparently. Help users find the correct data among thousands of databases and self document it. Learn More »

gethue.com

https://demo.gethue.com/hue/accounts/login?next=/ 

 

Hue - SQL Editor

Let anybody query, write SQL, explore data and share results.

demo.gethue.com

데모 사이트에서 접속하여 SQL 연습도 가능함

728x90