[python] pyspark 집계함수

INCHELIN 2022. 9. 14. 14:25

728x90

from pyspark.sql.functions import count
df.select(count('colname')).show()

from pyspark.sql.functions import countDistinct
df.select(countDistinct('colname')).show()

from pyspark.sql.functions import first, last
df.select(first('colname'), last('colname')).show()

df.first()

from pyspark.sql.functions import min, max
df.select(min('colname'), max('colname')).show()

from pyspark.sql.functions import sum
df.select(sum('colname')).show()

from pyspark.sql.functions import sumDistinct
df.select(sumDistinct('colname')).show()

from pyspark.sql.functions import avg
df.select(avg('colname')).show()

728x90