[python] pyspark 집계함수

데이터 분석/[Python] 기초

[python] pyspark 집계함수

INCHELIN 2022. 9. 14. 14:25
728x90
  • count
    • count(컬럼명) : null 미포함
    • count(*) : null 포함
from pyspark.sql.functions import count
df.select(count('colname')).show()

 

  • countDistinct
    • countDistinct(컬럼명) : 고유 레코드 수의 카운트
from pyspark.sql.functions import countDistinct
df.select(countDistinct('colname')).show()

 

  • first / last
    • first(컬럼명) : 첫 번째 값
    • last(컬럼명) :  마지막 값
from pyspark.sql.functions import first, last
df.select(first('colname'), last('colname')).show()
  • Row타입을 통해 반환
df.first()

 

  • min / max
    • min(컬럼명) : 최솟값
    • max(컬럼명) : 최댓값
from pyspark.sql.functions import min, max
df.select(min('colname'), max('colname')).show()

 

  • sum
    • sum(컬럼명) : 컬럼의 모든 값을 합산
from pyspark.sql.functions import sum
df.select(sum('colname')).show()

 

  • sumDistinct
    • sumDistinct(컬럼명) : 컬럼의 고유값을 합산
from pyspark.sql.functions import sumDistinct
df.select(sumDistinct('colname')).show()

 

  • avg
    • avg(컬럼명) : 평균 값
from pyspark.sql.functions import avg
df.select(avg('colname')).show()
728x90