데이터 분석/[Python] 기초
[python] pyspark 집계함수
INCHELIN
2022. 9. 14. 14:25
728x90
- count
- count(컬럼명) : null 미포함
- count(*) : null 포함
from pyspark.sql.functions import count
df.select(count('colname')).show()
- countDistinct
- countDistinct(컬럼명) : 고유 레코드 수의 카운트
from pyspark.sql.functions import countDistinct
df.select(countDistinct('colname')).show()
- first / last
- first(컬럼명) : 첫 번째 값
- last(컬럼명) : 마지막 값
from pyspark.sql.functions import first, last
df.select(first('colname'), last('colname')).show()
- Row타입을 통해 반환
df.first()
- min / max
- min(컬럼명) : 최솟값
- max(컬럼명) : 최댓값
from pyspark.sql.functions import min, max
df.select(min('colname'), max('colname')).show()
- sum
- sum(컬럼명) : 컬럼의 모든 값을 합산
from pyspark.sql.functions import sum
df.select(sum('colname')).show()
- sumDistinct
- sumDistinct(컬럼명) : 컬럼의 고유값을 합산
from pyspark.sql.functions import sumDistinct
df.select(sumDistinct('colname')).show()
- avg
- avg(컬럼명) : 평균 값
from pyspark.sql.functions import avg
df.select(avg('colname')).show()
728x90