[python] pyspark 집계함수

[python] pyspark 집계함수

Smelt Roe Sushi

데이터 분석/[Python] 기초

[python] pyspark 집계함수

INCHELIN 2022. 9. 14. 14:25

728x90

count
- count(컬럼명) : null 미포함
- count(*) : null 포함

from pyspark.sql.functions import count
df.select(count('colname')).show()

countDistinct
- countDistinct(컬럼명) : 고유 레코드 수의 카운트

from pyspark.sql.functions import countDistinct
df.select(countDistinct('colname')).show()

first / last
- first(컬럼명) : 첫 번째 값
- last(컬럼명) : 마지막 값

from pyspark.sql.functions import first, last
df.select(first('colname'), last('colname')).show()

Row타입을 통해 반환

df.first()

min / max
- min(컬럼명) : 최솟값
- max(컬럼명) : 최댓값

from pyspark.sql.functions import min, max
df.select(min('colname'), max('colname')).show()

sum
- sum(컬럼명) : 컬럼의 모든 값을 합산

from pyspark.sql.functions import sum
df.select(sum('colname')).show()

sumDistinct
- sumDistinct(컬럼명) : 컬럼의 고유값을 합산

from pyspark.sql.functions import sumDistinct
df.select(sumDistinct('colname')).show()

avg
- avg(컬럼명) : 평균 값

from pyspark.sql.functions import avg
df.select(avg('colname')).show()

728x90

'데이터 분석 > [Python] 기초' 카테고리의 다른 글

[python] pyspark null값 제거 (1)	2022.10.26
[python] pyspark isnull 개수 (0)	2022.10.21
[python] list 안에 각 원소들 타입 변경 (1)	2022.04.04
[python] plot axis 지수 포맷팅 (0)	2022.03.03
[python] 가상환경 생성 (0)	2022.03.03

현재글[python] pyspark 집계함수

댓글

✈️

백준, Python, 스피킹, 캐나다워홀, SQL, 영어회화, 핵심패턴, 토론토맛집, speaking, baekjoon, 파이썬, MySQL, Programmers, error, 프로그래머스, 코딩테스트, r, 토론토워홀, 토론토, 233,

Today :
Yesterday :

티스토리툴바