Machine learning (ML)
인공지능의 미래
- 모든 산업과 사회 분야에 깊숙이 파고들어 무한한 부를 창출
- 자신의 전문분야는 다른 전공자가 접근하기 어렵기 때문에 자신만이 최적의 맞춤형 인공지능 서비스를 제작할 수 있음
- 인공지능 서비스는 분야별로 특성이 다르기 때문에 빅데이터 분석 방법이나 인공지능 서비스 모델의 적용이 달라짐
- 자신의 전공을 최대한 살리는 방법
기계 학습이란
- 현재의 컴퓨터는 스스로 학습할 수 없기 때문에 우리가 컴퓨터에게 어떤 작업을 시키려면 반드시 프로그램을 작성하여 작업을 지시하여야 한다.
- 컴퓨터가 스스로 학습할 수 있다면 컴퓨터는 프로그램 없이도 여러 가지 일을 할 수 있을 것이다.
Why Machine learning (ML) ?
- 현실 세계의 복잡한 업무와 규칙을 구현하기 위한 매우 복잡하고 방대한 코드
- 수시로 변하는 업무 환경, 정책, 사용자 성향에 따른 애플리케이션 구현의 어려움
- 많은 자원과 비용을 통해서 구현된 애플리케이션의 예측 정확성 문제
- 동일한 숫자라 하더라도 여러 변형으로 인해 숫자 인식에 필요한 여러 특징(feature)들을 if else 와 같은 조건으로 구분하여 숫자를 인식하기 어렵다.
- 머신러닝은 이러한 복잡한 문제를 데이터를 기반으로 숨겨진 패턴을 인지해 해결합니다.
- 머신러닝 알고리즘은 데이터를 기반으로 통계적인 신뢰도를 강화하고 예측 오류를 최소화하기 위한 다양한 수학적 기법을 적용해 데이터 내의 패턴을 스스로 인지하고 신뢰도 있는 예측 결과를 도출해 냅니다.
머신러닝의 분류
머신러닝은 지도학습(Supervised Learning)과 비지도학습(Un-supervised Learning), 강화학습(Reinforcement Learning)으로 나뉩니다. 지도 학습은 명확한 결정값이 주어진 데이터를 학습하는 것이며, 비지도 학습은 결정값이 주어지지 않는 데이터를 학습하는 것입니다.
지도학습(fit, predict)
- 분류
- 회귀
- 시각/음성 감지/인지
비지도 학습(fit, transform)
- 군집화(클러스터링)
- 차원 축
Machine learning (ML) (Predictive Analysis)
- 머신러닝은 데이터를 관통하는 패턴을 학습하고, 이에 기반한 예측을 수행하면서 데이터 분석 영역에 새로운 혁신을 가져왔습니다.
- 데이터 분석 영역은 재빠르게 머신러닝 기반의 예측분석(Predictive Analysis)으로 재편되고 있습니다.
- 많은 데이터 분석가와 데이터 과학자가 머신러닝 알고리즘 기반의 새로운 예측 모델을 이용해 더욱 정확한 예측 및 의사 결정을 도출하고 있으며, 데이터에 감춰진 새로운 의미와 인사이트를 발굴해 놀랄 만한 이익으로 연결시키고 있습니다.
Machine learning (ML) 단점
- 데이터에 너무 의존적이다.
- 학습 시에 최적의 결과를 도출하기 위해 수립된 머신러닝 모델은 실제 환경 데이터 적용 시 과적합 되기 쉽다.
- 복잡한 머신러닝 알고리즘으로 인해 도출된 결과에 대한 논리적인 이해가 어려울 수 있다.
- 데이터만 집어 넣으면 자동으로 최적화된 결과를 도출할 것이라는 환상이다. 끊임없이 모델을 개선하기 위한 노력이 필요하기 때문에 데이터의 특성을 파악하고 최적의 알고리즘과 파라미터를 구성할 수 있는 고급 능력이 필요하다.
기계 학습
- 기계 학습은 항상 입력을 받아서 출력하는 함수 y=f(x)를 학습한다고 생각할 수 있다.(함수 근사)
특징(features)
- 특징이란 우리가 학습 모델에게 공급하는 입력이다. 가장 간단한 경우에는 입력 자체가 특징이 된다.
레이블과 샘플
- 레이블(label)
- y = f(x)에서 y변수에 해당한다.
- 샘플, 또는 예제
- 샘플은 기계 학습에 주어지는 특정한 예이다. y = f(x)에서 x에 해당한다. 레이블이 있는 샘플도 있고 레이블이 없는 샘플도 있다. 지도 학습을 시키려면 레이블이 있어야 한다.
학습 데이터와 테스트 데이터
학습과 예측
- 학습(learning)은 모델을 만들거나 배우는 것을 의미한다.
- 예측(prediction)은 학습된 모델을 레이블이 없는 샘플에 적용하는 것을 의미한다. 즉 학습된 모델을 사용하여 유용한 예측(y)을 해내는 것이다.
지도 학습
- 회귀(regression) : 회귀에서는 입력과 출력이 모두 실수이다.
- 회귀는 실수 입력(x)과 실수 출력(y)이 주어질 때, 입력에서 출력으로의 매핑 함수를 학습하는 것이라 할 수 있다.
- 분류(classification) : 입력을 두 개 이상의 레이블(유형)으로 분할하는 것
- 해당 모델을 학습시킬 때 우리는 레이블을 제공해야 한다.
- 앞에 나왔던 식 y = f(x)에서 출력 y가 이산적(discrete)인 경우에 이것을 분류 문제 (또는 인식 문제)라고 부른다.
- 분류에서는 입력을 2개 이상의 클래스로 나누는 것이다.
- 분류는 지도 학습의 형태로 이루어지는 것이 일반적이다.
- 분류를 수행하기 위한 일반적인 알고리즘에는 신경망, KNN(k-nearest neighbor), SVM(Support Vector Machine), 의사 결정 트리 등이 포함된다.
비지도 학습
- 비지도 학습(unsuqervised Learning)은 “교사” 없이 컴퓨터가 스스로 입력들을 분류하는 것을 의미한다. 식 y = f(x)에서 레이블 y가 주어지지 않는 것이다.
- 데이터들의 상관도를 분석하여 유사한 데이터들을 모을 수는 있다.
- 군집화(clustering)
- 가장 대표적인 비지도 학습이 클러스터링이다.
- 클러스터링 이란 데이터 간 거리를 계산하여서 입력을 몇 개의 그룹으로 나누는 방법이다.
- 강화 학습(Reinforcement Learning)에서는 컴퓨터가 어떤 행동을 취할 때 마다 외부에서 처벌이나 보상이 주어진다.
'빅데이터 분석가 양성과정 > Python - 머신러닝' 카테고리의 다른 글
머신러닝 평가 ( 2 ) (2) | 2024.07.11 |
---|---|
머신러닝 평가 ( 1 ) (0) | 2024.07.11 |
실습 - 타이타닉 생존자 ML 예측 구현 (0) | 2024.07.11 |
사이킷 런(scikit-learn) - 실습 (0) | 2024.07.11 |
사이킷 런(scikit-learn) 개요 (0) | 2024.07.11 |