'결측값' 태그의 글 목록
728x90

결측값 3

[Python] 결측치 시각화 missingno

캐글의 타이타닉 train 데이터를 불러와서 구조를 살펴본 뒤, 시각화를 통해 결측값이 있는 컬럼을 알아보겠습니다. train = pd.read_csv('train.csv') train.info() 구조에서도 알 수 있듯이 전체 891행 중에 Age와 Cabin, Embarked에 결측치가 존재하는 것을 확인할 수 있습니다. 시각화로 표현해보겠습니다. import missingno as msno msno.matrix(train, figsize=(12,5) matrix 그래프 외에 bar chart나 heatmap 등으로도 표현이 가능합니다~

[Python] 사이킷런 결측치 대체 함수 SimpleImputer

from sklearn.preprocessing import Imputer가 from sklearn.impute import SimpleImputer 로 바뀌었습니다. from sklearn.preprocessing import SimpleImputer SimpleImputer(missing_values, strategy, fill_value, verbose, copy, add_indicator) 주요 파라미터 missing_values - 데이터에서의 결측치 값 - default는 nan - 만약 결측치 값이 -1이라면 missing_values=-1 strategy - 결측치를 대체할 방법 - 예: mean, median, most_frequent, constant... fill_value - str..