상세 컨텐츠

본문 제목

Classification, Regression, Clustering

ML

by (방울)도마토 2024. 7. 7. 23:52

본문

1. Classification(분류)

- 항목을 미리 정의된 카테고리나 클래스로 할당하는 데 사용

- 지도 학습 방식(Supervised learning) : 레이블이 있는 데이터셋을 사용하여 모델을 학습 

 

# 작동 방식 

(1) 학습 요소 

- 데이터 셋 : features(입력 변수)과 레이블(출력 카테고리)

- 모델 : 학습 데이터에서 패턴을 찾아 특징과 레이블 간의 관계 학습

- 알고리즘 

    - 로지스틱 회귀(Logistic Regression)

    - 나이브 베이즈(Naive Bayes)

    - 의사결정 나무(Decision Tree)

    - K-최소 근접(K-Nearest Neighbor, KNN)

    - 서포트 벡터 머신(SVM)

    - 심층 신경망(Deep Neural Networks)

    - 앙상블 학습(Ensemble Learning)

(2) 학습된 모델을 사용하여 새로운 데이터의 레이블을 예측 

    → 이메일을 '스팸' 또는 '스팸 아님'으로 분류 

    → 질병 진단, 이미지 인식 등

 

 

2. Regression(회귀)

- 연속적인 수치 값을 예측하는 데 사용 

- 지도 학습 기법, 출력이 카테고리 라벨이 아닌 연속 변수임 

 

# 작동 방식

(1) 학습 요소 

- 데이터 셋 : features(입력 변수)과 연속적인 목표 값

- 모델 : 예측 값과 실제 값 간의 차이를 최소화(주로 MSE(평균 제곱 오차)와 같은 손실함수 사용)하여 특징과 목표 값 간의 관계를 학습

- 알고리즘 

    - 단순 선형 회귀(Simple Linear Regression)

    - 다항 회귀(Polynomial Regression)

    - 경사 하강법(Gradient Descent)

    - 회귀 트리(Regression Tree)

    - 규제(Regression) Models

        - 릿지 회귀(Ridege Regression), 라쏘 회귀(Lasso Regression), 엘라스틱넷 회귀(Elastic Net Regression)

(2) 학습된 모델이 새로운 데이터에 대해 연속적인 값 예측

    → 집의 크기, 위치, 방 개수 등의 특징을 기반으로 집 값 예측하기 

    → 판매 예측, 위험 평가 등 

 

 

3. Clustering(군집)

- 유사한 항목을 그룹으로 묶는 데 사용 

- 비지도 학습 방식(Unsupervised learning) : 레이블이 없는 데이터에서 패턴과 그룹을 발견 

 

# 작동 방식

(1) 학습 요소 

- 데이터 셋 : 레이블 없이 오직 features(입력 변수) 만으로 구성

- 모델 : 데이터에서 내재된 그룹을 식별하여 클러스터 내 유사성을 극대화, 클러스터 간 유사성을 최소화 

- 알고리즘 

    - K-평균(K-Means)

    - 계층적 군집(Hierarchical Clustering)

    - DBSCAN

    - 가우시안 혼합 모델(GMM)

(2) 새로운 데이터 포인트를 유사성에 따라 가장 가까운 클러스터에 할당 

    → 구매 행동을 기반으로 고객을 다양한 세그먼트로 그룹화하기 

    → 소셜 네트워크 분석, 이상 탐지 등 

'ML' 카테고리의 다른 글

ML의 기초 개념(feat. 생활코딩)  (0) 2024.08.11
Classification Algorithms with Create ML  (0) 2024.07.08

관련글 더보기

댓글 영역