판다스
-
[파이썬] 판다스 자료 저장 및 불러오기판다스 2022. 4. 28. 02:08
저장 .to_picke(’파일이름.pickle’) 피클 형태로 저장 .to_csv(’파일이름.csv’) csv파일로 저장 .to_xlsx(’파일이름.xlsx’) 엑셀로 저장 import openpyxl 모듈을 불러와야 함 불러오기 import glob df_name_list =glob.glob("data/con*.csv") df_name_list df_list =[] for csv_filenmae in df_name_list: df = pd.read_csv(csv_filenmae) df_list.append(df) concat_df = pd.concat(df_list)
-
[파이썬] 판다스 데이터프레임 병합판다스 2022. 4. 28. 02:06
(1) pd.merge(데이터1, 데이터2, left_on=, right_on=, how= ) join 타입 ( how = ) inner(디폴트 값) left right outer on = : 양쪽에 동일한 key 값이 있을 경우 아닐경우 left_on 과 right_on 으로 조인 키 값 설정 키 값은 여러개여도 상관 없음. (2) pd.concat(리스트, axis=, sort=, ignore_index=False, join='outer') 시리즈는 열 이름이 없기에 행 연결이 되지 않는다.(데이터프레임으로 변환 요구) 행 방향 병합시 공통된 열 인덱스가 없을 경우 열을 추가하고 행 병합 ignore_index = False : 기존 인덱스 유지(디폴트) True : 인덱스 초기화 keys= : 조인..
-
[파이썬] 판다스에서 자주 사용하는 함수판다스 2022. 4. 28. 02:03
.sort_values( ) : 데이터 정렬 dia_agg.sort_values(['cut','clarity'], ascending = [True,False]).head() .set_index() 특정 변수를 인덱스로 지정할 경우 사용하는 메서드 데이터 병합 또는 시계열 분해에서 연산을 위해 활용 .isin(리스트) : 리스트안에 하나라도 있으면 참 .rename(columns=) : 데이터 프레임을 변경할 때 사용하는 메서드 columns = { 기존 열 이름 : 바꿀 열 이름} 딕셔너리 형태로 전달 .columns = 리스트 : 전체 열 이름을 변경할 수 있음 .quantile(q=) 제1 사분위수 : q=0.25 제2 사분위수 : q=0.50 ( .median() ) 제3 사분위수 : q=0.75 ..
-
[파이썬] 요약변수 생성판다스 2022. 4. 28. 01:57
요약 변수 생성 (1) 더미 변수 생성 pd.get_dummies(data = , columns = [ ] , drop_first = ) columns = : 리스트형태로 전달 drop_frist = True : 첫 번째 더미변수는 생성하지 않음 False : 모든 더미 변수 생성 (디폴트) (2) np.where(조건, 조건이 참일때 데이터, 조건이 거짓일 때 데이터) (3) 시리즈.str. : 문자열 데이터 요약변수 생성 str.slice(시작 숫자, 끝 숫자) : 시작 인덱스부터 끝 인덱스 -1 까지 문자열을 반환 str.split : 문자열 데이터를 구분자를 통해 리스트로 반환 str.get() : 여러 값이 있는 데이터를 인덱싱으로 불러옴 (4) 시리즈.dt. : 날짜형 데이터 요약변수 생성 ...
-
[파이썬] 데이터 프레임 생성판다스 2022. 4. 28. 01:49
(1) pd.Series(리스트,index = 리스트) index = ['person','who'] s = pd.Series(['Wes Mckinney', 'Creator of Pandas'], index = index) print(s) #person Wes Mckinney #who Creator of Pandas #dtype: object index와 value로 이루어진 객체 index의 디폴트 값은 정수(0부터) (2) pd.DataFrame( , index = , columns= ) scientists = pd.DataFrame({'Name':['Rosaline Franklin', 'William Gosset'], 'Occupation' : ['Chemist','Statiustication'], ..
-
[파이썬] 결측치 및 중복 데이터 처리판다스 2022. 4. 21. 18:48
.isna().sum() : 각 열의 결측치 개수 출력 dropna(inplace = True, how=) Nan 값을 가지고 있는 행을 삭제 실제 데이터를 삭제하지 않고 NaN 값을 가진 행을 제외한 값을 반환 inplace = True 메소드를 이용하거나 값을 할당해야 한다. how = all : 모두 결측치이면 해당 행 제거 any : 하나라도 결측치가 있으면 해당 행 제거, 디폴트 fillna('데이터',inplace = True, method =) method = ‘ffill’ : 누락값이 나타나기 전의 값으로 누락값 변경 (처음 부터 누락값은 그대로 남아있음) ‘bfill’ : 누락값이 나타난 이후의 첫 번째 값이 누락값으로 변경 (마지막 누락값은 그대로 남아 있음) .interpolate()..
-
[파이썬] 판다스 인덱싱판다스 2022. 4. 21. 18:46
bike_data[["Gender","Distance"]] bike_data.loc[:,["Gender","Distance"]] 기본 열추출 방법 같은 열 이름이 있는 데이터 프레임에서 열 이름으로 데이터를 추출하면 해당 열 이름의 데이터를 모두 출력 마스킹 data['Q4']=="Doctoral degree" #data.loc[:,'Q4'] == "Doctoral degree" 행 및 열을 한개의 행(열)만 불러오면 데이터 타입은 pandas.core.series.Series data.loc[data['Q4']=="Doctoral degree",'Q4'] #data[data['Q4'] == "Doctoral degree"]['Q4'] #체인 인댁싱 (행조건 :) ‘Q4’ 가 Doctoral degree..