분류 전체보기
-
EDA 및 통계카테고리 없음 2022. 7. 3. 03:05
수치형 분포 확인정상성정상성 변환 수치형 분포 확인컬럼이 많을 경우fig = plt.figure(figsize= (20,20)) ax = [] for i in range(1,len(num_list)+1): ax.append(fig.add_subplot(5,len(num_list)//5+3,i)) for i,x in enumerate(num_list): x_skew = df[x].skew() x_kurt = df[x].kurt() sns.distplot(df[x],norm_hist=True, ax=ax[i], fit=stats.norm, axlabel=f'{x}- sw:{round(x_skew,2)} kt:{round(x_kurt,2)}') plt.tight_layout() 적을 경우sns.pairplot..
-
EDA 및 통계카테고리 없음 2022. 7. 3. 03:04
수치형 분포 확인정상성정상성 변환 수치형 분포 확인컬럼이 많을 경우fig = plt.figure(figsize= (20,20)) ax = [] for i in range(1,len(num_list)+1): ax.append(fig.add_subplot(5,len(num_list)//5+3,i)) for i,x in enumerate(num_list): x_skew = df[x].skew() x_kurt = df[x].kurt() sns.distplot(df[x],norm_hist=True, ax=ax[i], fit=stats.norm, axlabel=f'{x}- sw:{round(x_skew,2)} kt:{round(x_kurt,2)}') plt.tight_layout() 적을 경우sns.pairplot..
-
[백준] 1449 수리공 항승 (python)카테고리 없음 2022. 6. 29. 21:55
문제 항승이는 품질이 심각하게 나쁜 수도 파이프 회사의 수리공이다. 항승이는 세준 지하철 공사에서 물이 샌다는 소식을 듣고 수리를 하러 갔다. 파이프에서 물이 새는 곳은 신기하게도 가장 왼쪽에서 정수만큼 떨어진 거리만 물이 샌다. 항승이는 길이가 L인 테이프를 무한개 가지고 있다. 항승이는 테이프를 이용해서 물을 막으려고 한다. 항승이는 항상 물을 막을 때, 적어도 그 위치의 좌우 0.5만큼 간격을 줘야 물이 다시는 안 샌다고 생각한다. 물이 새는 곳의 위치와, 항승이가 가지고 있는 테이프의 길이 L이 주어졌을 때, 항승이가 필요한 테이프의 최소 개수를 구하는 프로그램을 작성하시오. 테이프를 자를 수 없고, 테이프를 겹쳐서 붙이는 것도 가능하다. 입력 첫째 줄에 물이 새는 곳의 개수 N과 테이프의 길이 ..
-
Lightgbm 총 정리카테고리 없음 2022. 6. 28. 04:02
#사용할 데이터 titanic = sns.load_dataset('titanic') titanic.info() #범주형 변수 3개 , 수치형 변수 4개 >> Int64Index: 342 entries, 0 to 343 Data columns (total 7 columns): # Column Non-Null Count Dtype --- ------ -------------- ----- 0 species 342 non-null object 1 island 342 non-null object 2 bill_length_mm 342 non-null float64 3 bill_depth_mm 342 non-null float64 4 flipper_length_mm 342 non-null float64 5 body_..
-
(파이썬)빅데이터분석기사 실기를 시작하시는분들께카테고리 없음 2022. 6. 28. 02:30
많은 분들이 빅데이터분석기사만을 위한 강의 같은거 사는거 보면 정말 제가 답답합니다. 정말 준비를 하나도 안했고 2~3일남았는데 sklearn api 하나도 모르겠다 하시면 실기 강의봐야되는거 맞긴합니다만, 만약 시험이 2~3주넘게 남았다면 그리고 자기가 정말 빅데이터분석가가 되고싶다면 빅분기만을 위한 준비는 정말 비추입니다. 우선 실기시험 같은 경우는 여기 직군으로 제대로 공부하면 그냥 거저먹는 자격증인데, 10만원, 20만원 돈내고 보는 게 정말 안타까워요. 취준에, 자격증에 급한 학생들 상대로 사기치는 느낌의 강의로 보이더라구요. (특정 언급은 안하겠습니다.) https://www.udemy.com/ 온라인 강의 - 자신의 일정에 맞춰 뭐든지 배워 보세요 | Udemy Udemy는 185,000개 ..
-
빅데이터분석기사 실기 단답형 예상문제1카테고리 없음 2022. 6. 25. 01:40
데이터 정제와 통합, 축소, 변환을 포함하는 광의적 개념으로 데이터를 분석 및 처리에 적합한 형태로 만드는 과정은? >> 데이터 전처리 값이 존재하지 않고 비어있는 상태를 의미하는 해당 속성값이 Na, Nan, Null 등으로 표현하는 것은? >> 결측치 결측치를 대치하는 기법으로 결측값이 존재하는 레코드를 삭제하여 불완전한 자료는 무시하고 완전한 자료만 사용하여 분석하는 방법은? >> 완전분석법, 완전 제거법 결측값을 해당 변수의 나머지 값들의 평균으로 대치하는 방법 >> 평균대치법 평균 대치법에서 발생했던 추정량 표준오차의 과소 추정 문제를 보완하고자 고안된 방법으로 추정된 통계량으로 결측값을 대치할 때 어떤 적절한 확률값을 부여하는 대치법은? >> 단순확률 대치법 동일한 데이터 내에서 결측값이 발생..
-
빅데이터분석기사 필기 1과목 단답형 예상 문제카테고리 없음 2022. 6. 25. 00:42
언어로는 설명할 수 없이 전적으로 개인의 경험이나 잠재적인 능력에서 비롯되는 지식 >> 암묵지 언어로 명로화 되어 전달될 수 있는 지식 >> 형식지 정보를 일원화하여 처리를 효율적으로 수행하기 위해 서로 관련성을 가지며 중복성이 없는 데이터의 집합을 유지하는 것 >> 데이터 베이스 빅데이터 활용 3요소 >> 자원, 기술, 인력 기업의 현재 분석 수준을 정확히 진단하고 분석 조직, 분석 전문 인력 배치, 분석 관련 프로세스 성숙도 평가, 분석 교육 등의 관점에서 분석 환경을 지속적으로 개선하고 개발 및 확산하기 위한 체계 >> 데이터 분석 거버넌스 분석 수준 진단 프레임 워크 중 분석 업무 파악, 인력 및 조직, 분석 기법, 분석 데이터, 분석 문화, IT인프라 총 6개 영역에서 평가하는 분석 수준 진단 ..
-
빅데이터분석기사 실기 - 작업형1 정리카테고리 없음 2022. 6. 23. 00:06
1. 특정 칼럼의 이상치를 찾을 수 있는가 import pandas as pd #iris 데이터의 sepal_width 이상치를 탐색 import seaborn as sns iris = sns.load_dataset('iris') print(iris['sepal_width'].describe()) >> count 150.000000 mean 3.057333 std 0.435866 min 2.000000 25% 2.800000 50% 3.000000 75% 3.300000 max 4.400000 # 평균과 표준 편차를 이용한 이상치 탐색 SW_mean = iris['sepal_width'].mean() #평균 SW_std = iris['sepal_width'].std() #표준 편차 left_outlier..