판다스

[파이썬] 결측치 및 중복 데이터 처리

한교리 2022. 4. 21. 18:48
  • .isna().sum() : 각 열의 결측치 개수 출력
  • dropna(inplace = True, how=)
    • Nan 값을 가지고 있는 행을 삭제
    • 실제 데이터를 삭제하지 않고 NaN 값을 가진 행을 제외한 값을 반환
    • inplace = True 메소드를 이용하거나 값을 할당해야 한다.
    • how =
      • all : 모두 결측치이면 해당 행 제거
      • any : 하나라도 결측치가 있으면 해당 행 제거, 디폴트
  • fillna('데이터',inplace = True, method =)
    • method =
      • ‘ffill’ : 누락값이 나타나기 전의 값으로 누락값 변경
      • (처음 부터 누락값은 그대로 남아있음)
      • ‘bfill’ : 누락값이 나타난 이후의 첫 번째 값이 누락값으로 변경
      • (마지막 누락값은 그대로 남아 있음)
  • .interpolate() : 누락값 양쪽에 있는 값을 이용하여 중간값을 구한 다음 누락값을 처리
  • skipna = True
    • 결측치를 무시한 채 계산
    • EX) .sum(skipna=True)
  • pd.to_numeric(데이터, errors='coerce') : 숫자로 변환할 수 없는 값을 누락값으로 지정
  • .drop_duplicates(): 중복값을 제거하고 반환
  • .duplicated()** : 중복데이터 확인(bool)

 

 

 

 



본 게시물은 개인적인 용도로 작성된 게시물이며. 이후 포트폴리오로 사용될 정리 자료이니
불펌과 무단도용은 하지 말아주시길 부탁드리고, 개인 공부 목적으로 이용해주시면 감사하겠습니다.