-
[파이썬] 판다스에서 자주 사용하는 함수판다스 2022. 4. 28. 02:03
- .sort_values( ) : 데이터 정렬
dia_agg.sort_values(['cut','clarity'], ascending = [True,False]).head()
- .set_index()
- 특정 변수를 인덱스로 지정할 경우 사용하는 메서드
- 데이터 병합 또는 시계열 분해에서 연산을 위해 활용
- .isin(리스트) : 리스트안에 하나라도 있으면 참
- .rename(columns=) : 데이터 프레임을 변경할 때 사용하는 메서드
- columns = { 기존 열 이름 : 바꿀 열 이름}
- 딕셔너리 형태로 전달
- .columns = 리스트 : 전체 열 이름을 변경할 수 있음
- .quantile(q=)
- 제1 사분위수 : q=0.25
- 제2 사분위수 : q=0.50 ( .median() )
- 제3 사분위수 : q=0.75
- .index, .columns
- .index 는 시리즈에서 .key()와 같은 결과 출력
- .colums 는 판다스에서 .key() 와 같은 결과 출력
- 시리즈에서는 당연히 .colums 사용을 못한다.
- .unique() : 열의 고유 값들을 출력한다.
- 데이터 타입은 numpy.ndarray
- 시리즈에서만 사용 가능하다.
- df['Gender'].unique()[0] 처럼 인덱싱을 활용할 수 있다.
data["Species"].unique()
- .value_counts() : 열의 고유 값들의 개수들을 출력한다.
- 결측치 값은 제외한다.
- (normalize = True) : 고유 값들의 비율을 출력한다.
- 시리즈에서만 사용가능하다.
data["Species"].value_counts()
df.groupby('continent')['country'].value_counts()
- .drop('column데이터' , axis=1) : 해당 열 삭제
- .drop('row데이터',aixs=0) : 해당 행 삭제
- rand.shuffle(시리즈)** : 데이터 셔플
- .idxmax() : 최대값의 위치(인덱스)를 반환한다
- reset_index(inplace = True) : 테이블의 인덱스를 0부터 시작하는 정수로 반환한다.
- .sample : 임의의 값을 반환
- n =
- random_state = : seed
- replace : 특정 값을 가진 시리즈 값을 교체
- .mode() : 최빈값
※
본 게시물은 개인적인 용도로 작성된 게시물이며. 이후 포트폴리오로 사용될 정리 자료이니
불펌과 무단도용은 하지 말아주시길 부탁드리고, 개인 공부 목적으로 이용해주시면 감사하겠습니다.
※'판다스' 카테고리의 다른 글
[파이썬] 판다스 자료 저장 및 불러오기 (0) 2022.04.28 [파이썬] 판다스 데이터프레임 병합 (0) 2022.04.28 [파이썬] 요약변수 생성 (0) 2022.04.28 [파이썬] 데이터 프레임 생성 (0) 2022.04.28 [파이썬] 결측치 및 중복 데이터 처리 (0) 2022.04.21