'2021/03/14 글 목록 Smelt Roe Sushi
728x90

2021/03/14 3

[Python] 범주형에 따라 그래프 나누어 그리기

범주형에 따라 그리드로 나누어 그래프를 나누어 한 번에 그리는 방법입니다. 캐글의 타이타닉 데이터를 이용하여 보여드리겠습니다. 각 그래프에 대한 설명은 생략하도록 하겠습니다. import pandas as pd import seaborn as sns train = pd.read_csv('train.csv') train.head() train['Survived'].value_counts() 0과 1로 이루어진 범주형 변수 'Survived'에 따라 연령대('Age')가 어떤지 히스토그램 그래프로 살펴보겠습니다. g = sns.FacetGrid(train, col='Survived') g.map(plt.hist, 'Age', bins=20) 또는, 남자/여자로 이루어진 범주형 변수 'Sex'에 따라 연령별 ..

카테고리 없음 2021.03.14

[Python] 결측치 시각화 missingno

캐글의 타이타닉 train 데이터를 불러와서 구조를 살펴본 뒤, 시각화를 통해 결측값이 있는 컬럼을 알아보겠습니다. train = pd.read_csv('train.csv') train.info() 구조에서도 알 수 있듯이 전체 891행 중에 Age와 Cabin, Embarked에 결측치가 존재하는 것을 확인할 수 있습니다. 시각화로 표현해보겠습니다. import missingno as msno msno.matrix(train, figsize=(12,5) matrix 그래프 외에 bar chart나 heatmap 등으로도 표현이 가능합니다~

[Python] 사이킷런 결측치 대체 함수 SimpleImputer

from sklearn.preprocessing import Imputer가 from sklearn.impute import SimpleImputer 로 바뀌었습니다. from sklearn.preprocessing import SimpleImputer SimpleImputer(missing_values, strategy, fill_value, verbose, copy, add_indicator) 주요 파라미터 missing_values - 데이터에서의 결측치 값 - default는 nan - 만약 결측치 값이 -1이라면 missing_values=-1 strategy - 결측치를 대체할 방법 - 예: mean, median, most_frequent, constant... fill_value - str..