728x90
- count
- count(컬럼명) : null 미포함
- count(*) : null 포함
from pyspark.sql.functions import count
df.select(count('colname')).show()
- countDistinct
- countDistinct(컬럼명) : 고유 레코드 수의 카운트
from pyspark.sql.functions import countDistinct
df.select(countDistinct('colname')).show()
- first / last
- first(컬럼명) : 첫 번째 값
- last(컬럼명) : 마지막 값
from pyspark.sql.functions import first, last
df.select(first('colname'), last('colname')).show()
- Row타입을 통해 반환
df.first()
- min / max
- min(컬럼명) : 최솟값
- max(컬럼명) : 최댓값
from pyspark.sql.functions import min, max
df.select(min('colname'), max('colname')).show()
- sum
- sum(컬럼명) : 컬럼의 모든 값을 합산
from pyspark.sql.functions import sum
df.select(sum('colname')).show()
- sumDistinct
- sumDistinct(컬럼명) : 컬럼의 고유값을 합산
from pyspark.sql.functions import sumDistinct
df.select(sumDistinct('colname')).show()
- avg
- avg(컬럼명) : 평균 값
from pyspark.sql.functions import avg
df.select(avg('colname')).show()
728x90
'데이터 분석 > [Python] 기초' 카테고리의 다른 글
[python] pyspark null값 제거 (0) | 2022.10.26 |
---|---|
[python] pyspark isnull 개수 (0) | 2022.10.21 |
[python] list 안에 각 원소들 타입 변경 (0) | 2022.04.04 |
[python] plot axis 지수 포맷팅 (0) | 2022.03.03 |
[python] 가상환경 생성 (0) | 2022.03.03 |