'데이터 분석/[Python] 기초' 카테고리의 글 목록 (3 Page)

728x90

데이터 분석/[Python] 기초 38

위 데이터처럼 일부 결측이 있을 경우 숫자형 타입을 바꿀 때 다음과 같이 에러가 납니다. df['실거래_거래금액(만원)'] = df['실거래_거래금액(만원)'].astype(int) ValueError: invalid literal for int() with base 10: 'nan' 아래와 같이 해결할 수 있습니다! df['실거래_거래금액(만원)'] = df['실거래_거래금액(만원)'].apply(pd.to_numeric, errors='coerce')

데이터 분석/[Python] 기초 2021.08.19

[Python] groupby 컬럼명

df_g = df.groupby('등록공장ID')['표제부PK'].count() #등록공장ID별 표제부PK의 개수 print(df_g) 등록공장ID가 index로 잡혀있고, 표제부PK 컬럼에 count 개수가 있습니다. 이때, reset_index( )를 해주면 index가 빠져나오게 되겠죠 df_g = df.groupby('등록공장ID')['표제부PK'].count().reset_index() print(df_g) count 값의 내용을 포함하는 표제부PK 컬럼 이름을 바꾸고싶다면 reset_index(name='컬럼명')을 해주면 됩니다. df_g = df.groupby('등록공장ID')['표제부PK'].count().reset_index(name='표제부PK개수') print(df_g)

데이터 분석/[Python] 기초 2021.08.05

[Python] list append / extend

list형 append vs extend 1) list - append( ) x = [1, 2, 3] y = [4, 5] x.append(y) print(x) # [1, 2, 3, [4, 5]] 2) list - extend( ) x = [1, 2, 3] y = [4, 5] x.extend(y) print(x) # [1, 2, 3, 4, 5]

데이터 분석/[Python] 기초 2021.08.03

[Python] Pandas 옵션- 행/열 더 많이 보기

pd.set_option('display.max_columns', 500) # 열(컬럼) 모두 보기 pd.set_option('display.max_rows', 500) # 행 모두 보기 데이터프레임을 print하여 콘솔에서 확인할 때, 행과 열이 일부만 보일 수 있습니다. pd.get_option('display.max_columns') # 0 컬럼이 많아서 중간 컬럼들은 생략됩니다 pd.set_option('display.max_columns', 500) 모든 컬럼을 확인할 수 있습니다. # option 초기화 pd.reset_option('display.max_columns')

데이터 분석/[Python] 기초 2021.07.21

[Python] dataframe apply lambda 다중 컬럼 적용

result['buff'] = result.apply(lambda x : x['bound'].buffer(x['length'], join_style=2)) # KeyError ('EMD_CD', 'occurred at index count') result['buff'] = result.apply(lambda x : x['bound'].buffer(x['length'], join_style=2), axis=1) # default axis=0

데이터 분석/[Python] 기초 2021.07.12

[Python] 두 리스트 안에 유니크한 값 찾기

list(set(x).symmetric_difference(set(f))) # x,f는 리스트

데이터 분석/[Python] 기초 2021.07.12

[python] 코드 실행시간 측정하기

import time start = time.time() print(time.time() - start) # 초 단위로 보여줌 작업 소요시간을 시(h):분(m):초(s)로 표현하기 import time import datetime start = time.time() end = time.time() - start print(str(datetime.timedelta(seconds = end)).split('.')[0]) # 1:13:43 로 표현됨

데이터 분석/[Python] 기초 2021.05.04

[Python] 결측치 시각화 missingno

캐글의 타이타닉 train 데이터를 불러와서 구조를 살펴본 뒤, 시각화를 통해 결측값이 있는 컬럼을 알아보겠습니다. train = pd.read_csv('train.csv') train.info() 구조에서도 알 수 있듯이 전체 891행 중에 Age와 Cabin, Embarked에 결측치가 존재하는 것을 확인할 수 있습니다. 시각화로 표현해보겠습니다. import missingno as msno msno.matrix(train, figsize=(12,5) matrix 그래프 외에 bar chart나 heatmap 등으로도 표현이 가능합니다~

데이터 분석/[Python] 기초 2021.03.14

[Python] np.where 조건에 맞는 값 변경

np.where(조건, True일 때의 값, False일 때의 값) import numpy as np import pandas as pd df = pd.read_csv("인천_행정구역현황.csv", encoding="949") # 인천광역시 남구는 과거 2018년에 미추홀구로 명칭이 변경되어 해당 내용을 바꾸려고 합니다. df['주소'] = np.where(df['주소'] == "인천광역시 남구", "인천광역시 미추홀구", df['주소']) # df['주소']가 '인천광역시 남구'에 해당(True)하면, "인천광역시 미추홀구"로 바꾸고 # 해당하지 않으면(False) 그대로 df['주소'] 의 내용을 남긴다.

데이터 분석/[Python] 기초 2021.02.04

[Python] read_csv 필요한 컬럼만 불러오기

불러오고자 하는 데이터 안에 여러 개의 컬럼 중에 필요한 컬럼만 불러올 때 col = [0,37] # 0번째와 37번째 컬럼 df = pd.read_csv("데이터.txt", usecols = col) # 다른 파라미터는 생략함

데이터 분석/[Python] 기초 2020.12.04

1 2 3 4

취뽀🙏🏻

토론토맛집, 핵심패턴, 토론토, speaking, 백준, MySQL, baekjoon, Programmers, SQL, 스피킹, 토론토워홀, 파이썬, 코딩테스트, 캐나다워홀, 프로그래머스, r, Python, 영어회화, error, 233,

Today :
Yesterday :

ㅋㄷㅋㄷ

데이터 분석/[Python] 기초 38

티스토리툴바

« 2025/04 »
일	월	화	수	목	금	토
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30