-
[파이썬] 결측치 및 중복 데이터 처리판다스 2022. 4. 21. 18:48
- .isna().sum() : 각 열의 결측치 개수 출력
- dropna(inplace = True, how=)
- Nan 값을 가지고 있는 행을 삭제
- 실제 데이터를 삭제하지 않고 NaN 값을 가진 행을 제외한 값을 반환
- inplace = True 메소드를 이용하거나 값을 할당해야 한다.
- how =
- all : 모두 결측치이면 해당 행 제거
- any : 하나라도 결측치가 있으면 해당 행 제거, 디폴트
- fillna('데이터',inplace = True, method =)
- method =
- ‘ffill’ : 누락값이 나타나기 전의 값으로 누락값 변경
- (처음 부터 누락값은 그대로 남아있음)
- ‘bfill’ : 누락값이 나타난 이후의 첫 번째 값이 누락값으로 변경
- (마지막 누락값은 그대로 남아 있음)
- method =
- .interpolate() : 누락값 양쪽에 있는 값을 이용하여 중간값을 구한 다음 누락값을 처리
- skipna = True
- 결측치를 무시한 채 계산
- EX) .sum(skipna=True)
- pd.to_numeric(데이터, errors='coerce') : 숫자로 변환할 수 없는 값을 누락값으로 지정
- .drop_duplicates(): 중복값을 제거하고 반환
- .duplicated()** : 중복데이터 확인(bool)
※
본 게시물은 개인적인 용도로 작성된 게시물이며. 이후 포트폴리오로 사용될 정리 자료이니
불펌과 무단도용은 하지 말아주시길 부탁드리고, 개인 공부 목적으로 이용해주시면 감사하겠습니다.
※'판다스' 카테고리의 다른 글
[파이썬] 판다스 데이터프레임 병합 (0) 2022.04.28 [파이썬] 판다스에서 자주 사용하는 함수 (0) 2022.04.28 [파이썬] 요약변수 생성 (0) 2022.04.28 [파이썬] 데이터 프레임 생성 (0) 2022.04.28 [파이썬] 판다스 인덱싱 (0) 2022.04.21