ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • [파이썬] 판다스에서 자주 사용하는 함수
    판다스 2022. 4. 28. 02:03
    • .sort_values( ) : 데이터 정렬
    dia_agg.sort_values(['cut','clarity'],
                        ascending = [True,False]).head()
    • .set_index()
      • 특정 변수를 인덱스로 지정할 경우 사용하는 메서드
      • 데이터 병합 또는 시계열 분해에서 연산을 위해 활용
    • .isin(리스트) : 리스트안에 하나라도 있으면 참
    • .rename(columns=) : 데이터 프레임을 변경할 때 사용하는 메서드 
      • columns = { 기존 열 이름 : 바꿀 열 이름}
      • 딕셔너리 형태로 전달
      • .columns = 리스트 : 전체 열 이름을 변경할 수 있음
    • .quantile(q=)
      • 제1 사분위수 : q=0.25
      • 제2 사분위수 : q=0.50 ( .median() )
      • 제3 사분위수 : q=0.75
    • .index, .columns
      • .index 는 시리즈에서 .key()와 같은 결과 출력
      • .colums 는 판다스에서 .key() 와 같은 결과 출력
      • 시리즈에서는 당연히 .colums 사용을 못한다.
    • .unique() : 열의 고유 값들을 출력한다.
      • 데이터 타입은 numpy.ndarray
      • 시리즈에서만 사용 가능하다.
      • df['Gender'].unique()[0] 처럼 인덱싱을 활용할 수 있다.
      data["Species"].unique()
      
    • .value_counts() : 열의 고유 값들의 개수들을 출력한다.
      • 결측치 값은 제외한다.
      • (normalize = True) : 고유 값들의 비율을 출력한다.
      • 시리즈에서만 사용가능하다.
    data["Species"].value_counts()
    
    df.groupby('continent')['country'].value_counts()
    
    • .drop('column데이터' , axis=1) : 해당 열 삭제
      • .drop('row데이터',aixs=0) : 해당 행 삭제
    • rand.shuffle(시리즈)** : 데이터 셔플
    • .idxmax() : 최대값의 위치(인덱스)를 반환한다
    • reset_index(inplace = True) : 테이블의 인덱스를 0부터 시작하는 정수로 반환한다.
    • .sample : 임의의 값을 반환
      • n =
      • random_state = : seed
    • replace : 특정 값을 가진 시리즈 값을 교체
    • .mode() : 최빈값

     

     



    본 게시물은 개인적인 용도로 작성된 게시물이며. 이후 포트폴리오로 사용될 정리 자료이니
    불펌과 무단도용은 하지 말아주시길 부탁드리고, 개인 공부 목적으로 이용해주시면 감사하겠습니다.

    댓글

Designed by Tistory.