[python] pyspark isnull 개수 from pyspark.sql import functions as f df.select([f.count(f.when(f.isnull(c),c)).alias(c) for c,t in df.dtypes if t not in ('timestamp','boolean','date')]).show() df.select([f.count(f.when(f.isnull(c),c)).alias(c) for c,t in df.columns]).show() 데이터 분석/[Python] 기초 2022.10.21
[python] pyspark 집계함수 count count(컬럼명) : null 미포함 count(*) : null 포함 from pyspark.sql.functions import count df.select(count('colname')).show() countDistinct countDistinct(컬럼명) : 고유 레코드 수의 카운트 from pyspark.sql.functions import countDistinct df.select(countDistinct('colname')).show() first / last first(컬럼명) : 첫 번째 값 last(컬럼명) : 마지막 값 from pyspark.sql.functions import first, last df.select(first('colname'), last('colna.. 데이터 분석/[Python] 기초 2022.09.14