빅데이터 분석가 양성과정

from sklearn.datasets import load_irisimport matplotlib.pyplot as plt import numpy as np import pandas as pd %matplotlib inlineiris = load_iris()feature_names = ['sepal_length', 'sepal_width', 'petal_length', 'petal_width']# 보다 편리한 데이타 Handling을 위해 DataFrame으로 변환 irisDF = pd.DataFrame(data=iris.data, columns-feature_names) irisDF['target'] = iris.target ### 클러스터 결과를 담은 DataFrame과 사이킷런의 Cluster 객..
GMM을 이용한 붓꽃 데이터 셋 클러스터링from sklearn.datasets import load_iris from sklearn.cluster import KMeansimport matplotlib.pyplot as plt import numpy as npimport pandas as pd0%matplotlib inlineiris = load_iris() feature_names = ['sepal_length', 'sepal_width', 'petal_length', 'petal_width']#보다 편리한 데이타 Handling을 위해 DataFrame으로 변환 irisDF = pd.DataFrame(data=iris.data, columns=feature_names) irisDF ['target'..
실루엣 분석 코드from sklearn.preprocessing import scalefrom sklearn.datasets import load_irisfrom sklearn.cluster import KMeans# 실루엣 분석 metric 값을 구하기 위한 API 추가from sklearn.metrics import silhouette_samples, silhouette_scoreimport matplotlib.pyplot as pltimport numpy as npimport pandas as pd%matplotlib inlineiris = load_iris()feature_names = ['sepal_length','sepal_width','petal_length','petal_width']iri..
K-Means clustering군집 중심점 기반 클러스터장점일반적인 군집화에서 가장 많이 활용쉽고 간결함대용량 데이터에도 활용 가능단점거리 기반 알고리즘으로 속성 개수 매우 많을 경우 정확도 떨어짐(차원의 저주)반복 수행 하는데, 횟수 많을 경우 수행 시간 느려짐이상치(Outlier) 데이터에 취약주요 파라미터n_cluster : 군집화 할 개수, 즉 군집 중심점의 개수 의미init : 초기 군집 중심점 좌표 설정 방식. 일반적으로 k-means++방식 최초 설정max_iter : 최대 반복 횟수, 이 횟수 이전 모든 데이터의 중심점 이동 없으면 종료주요 속성labels_ : 각 데이터 포인트가 속한 군집 중심점 레이블cluster_centers_ : 각 군집 중심점 좌표. 이를 이용하면 군집 중심점 ..
차원의 저주차원이 커질수록데이터 포인트들 간 거리가 크게 늘어남데이터가 희소화 됨수백~수천 개 이상의 피처로 구성된 포인트들 간 거리에 기반한 ML 알고리즘이 무력하됨피처가 많을 경우 개별 피처간에 상관관계가 높아 선형 회귀와 같은 모델에서는 다중 공선성 문제로 모델의 예측 성능이 저하될 가능성이 높음차원 축소의 장점수십~수백개의 피처들을 작은 수의 피처들로 축소한다면?학습 데이터 크기를 줄여서 학습 시간 절약불필요한 피처들을 줄여서 모델 성능 향상다차원 데이터를 3차원 이하의 차원 축소를 통해 시각적으로 보다 쉽게 데이터 패턴 인지피처 선택과 피처 추출피처 선택(feature selection)과 피처 추출(feature extraction)로 나눌 수 있습니다.피처 선택특정 피처에 종속성이 강한 불필..
실습 - 캐글 : bike-sharing-demand자전거 데이터 확인import numpy as npimport pandas as pdimport seaborn as snsimport matplotlib.pyplot as plt%matplotlib inlineimport warningswarnings.filterwarnings("ignore", category=RuntimeWarning)bike_df = pd.read_csv('./train.csv')print(bike_df.shape)bike_df.head(3) bike_df.info()년,월,일,시 각각 분해# 문자열을 datetime 타입으로 변경. bike_df['datetime'] = bike_df.datetime.apply(pd.to_date..
황규진
'빅데이터 분석가 양성과정' 카테고리의 글 목록 (7 Page)