Scikit-learn 소개와 특징
- 파이썬 기반의 다른 머신러닝 패키지도 사이킷런 스타일의 API를 지향할 정도로 쉽고 가장 파이썬 스러운 API를 제공합니다.
- 머신러닝을 위한 매우 다양한 알고리즘과 개발을 위한 편리한 프레임워크와 API를 제공합니다.
- 오랜 기간 실전 환경에서 검증됐으며, 매우 많은 환경에서 사용되는 성숙한 라이브러리 입니다.
- 주로 Numpy와 Scipy 기반 위에서 구축된 라이브러리 입니다.
지도학습 - 분류
- 분류(Classfication)는 대표적인 지도학습(Supervised LEarning)방법의 하나 입니다. 지도학습은 학습을 위한 다양한 피처와 분류 결정값인 레이블(Label) 데이터로 모델을 학습한 뒤, 별도의 테스트 데이터 세트에서 미지의 레이블을 예측합니다.
- 즉, 지도학습은 명확한 정답이 주어진 데이터를 먼저 학습한 뒤 미지의 정답을 예측하는 방식입니다. 이 때 학습을 위해 주어진 데이터 세트를 학습 데이터 세트, 머신러닝 모델의 예측 성능을 평가하기 위해 별도로 주어진 데이터 세트를 테스트 데이터 세트로 지칭합니다.
사이킷런 기반 프레임워크 익히기
- 학습을 위해 fit(), 학습된 모델의 예측을 위해 predict() 제공
- Classification and Regression 의 다양한 알고리즘 구현
- Classifier 와 Regressor가 구현된 class 로 Estimator class
사이킷런의 주요 모듈
내장된 예제 데이터 세트
Data Set의 Key의 의미
- Data : 피터의 데이터셋
- Target: 분류시 레이블값, 숫자 결과값
- Target_names : 개별 레이블 이름
- feature_names : 피처의 이름
- DESCR은 데이터 세트의 대한 설명과 피처의 설명
'빅데이터 분석가 양성과정 > Python - 머신러닝' 카테고리의 다른 글
머신러닝 평가 ( 2 ) (2) | 2024.07.11 |
---|---|
머신러닝 평가 ( 1 ) (0) | 2024.07.11 |
실습 - 타이타닉 생존자 ML 예측 구현 (0) | 2024.07.11 |
사이킷 런(scikit-learn) - 실습 (0) | 2024.07.11 |
Machine learning (ML) (0) | 2024.07.11 |