Classification, Regression, Clustering

ML

by (방울)도마토 2024. 7. 7. 23:52

1. Classification(분류)

- 항목을 미리 정의된 카테고리나 클래스로 할당하는 데 사용

- 지도 학습 방식(Supervised learning) : 레이블이 있는 데이터셋을 사용하여 모델을 학습

# 작동 방식

(1) 학습 요소

- 데이터 셋 : features(입력 변수)과 레이블(출력 카테고리)

- 모델 : 학습 데이터에서 패턴을 찾아 특징과 레이블 간의 관계 학습

- 알고리즘

- 로지스틱 회귀(Logistic Regression)

- 나이브 베이즈(Naive Bayes)

- 의사결정 나무(Decision Tree)

- K-최소 근접(K-Nearest Neighbor, KNN)

- 서포트 벡터 머신(SVM)

- 심층 신경망(Deep Neural Networks)

- 앙상블 학습(Ensemble Learning)

(2) 학습된 모델을 사용하여 새로운 데이터의 레이블을 예측

→ 이메일을 '스팸' 또는 '스팸 아님'으로 분류

→ 질병 진단, 이미지 인식 등

2. Regression(회귀)

- 연속적인 수치 값을 예측하는 데 사용

- 지도 학습 기법, 출력이 카테고리 라벨이 아닌 연속 변수임

# 작동 방식

(1) 학습 요소

- 데이터 셋 : features(입력 변수)과 연속적인 목표 값

- 모델 : 예측 값과 실제 값 간의 차이를 최소화(주로 MSE(평균 제곱 오차)와 같은 손실함수 사용)하여 특징과 목표 값 간의 관계를 학습

- 알고리즘

- 단순 선형 회귀(Simple Linear Regression)

- 다항 회귀(Polynomial Regression)

- 경사 하강법(Gradient Descent)

- 회귀 트리(Regression Tree)

- 규제(Regression) Models

- 릿지 회귀(Ridege Regression), 라쏘 회귀(Lasso Regression), 엘라스틱넷 회귀(Elastic Net Regression)

(2) 학습된 모델이 새로운 데이터에 대해 연속적인 값 예측

→ 집의 크기, 위치, 방 개수 등의 특징을 기반으로 집 값 예측하기

→ 판매 예측, 위험 평가 등

3. Clustering(군집)

- 유사한 항목을 그룹으로 묶는 데 사용

- 비지도 학습 방식(Unsupervised learning) : 레이블이 없는 데이터에서 패턴과 그룹을 발견

# 작동 방식

(1) 학습 요소

- 데이터 셋 : 레이블 없이 오직 features(입력 변수) 만으로 구성

- 모델 : 데이터에서 내재된 그룹을 식별하여 클러스터 내 유사성을 극대화, 클러스터 간 유사성을 최소화

- 알고리즘

- K-평균(K-Means)

- 계층적 군집(Hierarchical Clustering)

- DBSCAN

- 가우시안 혼합 모델(GMM)

(2) 새로운 데이터 포인트를 유사성에 따라 가장 가까운 클러스터에 할당

→ 구매 행동을 기반으로 고객을 다양한 세그먼트로 그룹화하기

→ 소셜 네트워크 분석, 이상 탐지 등

저작자표시

'ML' 카테고리의 다른 글

ML의 기초 개념(feat. 생활코딩) (0)	2024.08.11
Classification Algorithms with Create ML (0)	2024.07.08

(방울)도마토의 개발일지

고정 헤더 영역

메뉴 레이어

메뉴 리스트

검색 레이어

검색 영역

상세 컨텐츠

본문 제목

본문

'ML' 카테고리의 다른 글

관련글 더보기

댓글 영역

추가 정보

인기글

최신글

티스토리툴바