황규진 2024. 7. 11. 14:31

Scikit-learn 소개와 특징

  • 파이썬 기반의 다른 머신러닝 패키지도 사이킷런 스타일의 API를 지향할 정도로 쉽고 가장 파이썬 스러운 API를 제공합니다.
  • 머신러닝을 위한 매우 다양한 알고리즘과 개발을 위한 편리한 프레임워크와 API를 제공합니다.
  • 오랜 기간 실전 환경에서 검증됐으며, 매우 많은 환경에서 사용되는 성숙한 라이브러리 입니다.
  • 주로 Numpy와 Scipy 기반 위에서 구축된 라이브러리 입니다.

지도학습 - 분류

  • 분류(Classfication)는 대표적인 지도학습(Supervised LEarning)방법의 하나 입니다. 지도학습은 학습을 위한 다양한 피처와 분류 결정값인 레이블(Label) 데이터로 모델을 학습한 뒤, 별도의 테스트 데이터 세트에서 미지의 레이블을 예측합니다.
  • 즉, 지도학습은 명확한 정답이 주어진 데이터를 먼저 학습한 뒤 미지의 정답을 예측하는 방식입니다. 이 때 학습을 위해 주어진 데이터 세트를 학습 데이터 세트, 머신러닝 모델의 예측 성능을 평가하기 위해 별도로 주어진 데이터 세트를 테스트 데이터 세트로 지칭합니다.

 

사이킷런 기반 프레임워크 익히기

  • 학습을 위해 fit(), 학습된 모델의 예측을 위해 predict() 제공
  • Classification and Regression 의 다양한 알고리즘 구현
  • Classifier 와 Regressor가 구현된 class 로 Estimator class

 

사이킷런의 주요 모듈

 

내장된 예제 데이터 세트

 

Data Set의 Key의 의미

  • Data : 피터의 데이터셋
  • Target: 분류시 레이블값, 숫자 결과값
  • Target_names : 개별 레이블 이름
  • feature_names : 피처의 이름
  • DESCR은 데이터 세트의 대한 설명과 피처의 설명