1. Classification(분류)
- 항목을 미리 정의된 카테고리나 클래스로 할당하는 데 사용
- 지도 학습 방식(Supervised learning) : 레이블이 있는 데이터셋을 사용하여 모델을 학습
# 작동 방식
(1) 학습 요소
- 데이터 셋 : features(입력 변수)과 레이블(출력 카테고리)
- 모델 : 학습 데이터에서 패턴을 찾아 특징과 레이블 간의 관계 학습
- 알고리즘
- 로지스틱 회귀(Logistic Regression)
- 나이브 베이즈(Naive Bayes)
- 의사결정 나무(Decision Tree)
- K-최소 근접(K-Nearest Neighbor, KNN)
- 서포트 벡터 머신(SVM)
- 심층 신경망(Deep Neural Networks)
- 앙상블 학습(Ensemble Learning)
(2) 학습된 모델을 사용하여 새로운 데이터의 레이블을 예측
→ 이메일을 '스팸' 또는 '스팸 아님'으로 분류
→ 질병 진단, 이미지 인식 등
2. Regression(회귀)
- 연속적인 수치 값을 예측하는 데 사용
- 지도 학습 기법, 출력이 카테고리 라벨이 아닌 연속 변수임
# 작동 방식
(1) 학습 요소
- 데이터 셋 : features(입력 변수)과 연속적인 목표 값
- 모델 : 예측 값과 실제 값 간의 차이를 최소화(주로 MSE(평균 제곱 오차)와 같은 손실함수 사용)하여 특징과 목표 값 간의 관계를 학습
- 알고리즘
- 단순 선형 회귀(Simple Linear Regression)
- 다항 회귀(Polynomial Regression)
- 경사 하강법(Gradient Descent)
- 회귀 트리(Regression Tree)
- 규제(Regression) Models
- 릿지 회귀(Ridege Regression), 라쏘 회귀(Lasso Regression), 엘라스틱넷 회귀(Elastic Net Regression)
(2) 학습된 모델이 새로운 데이터에 대해 연속적인 값 예측
→ 집의 크기, 위치, 방 개수 등의 특징을 기반으로 집 값 예측하기
→ 판매 예측, 위험 평가 등
3. Clustering(군집)
- 유사한 항목을 그룹으로 묶는 데 사용
- 비지도 학습 방식(Unsupervised learning) : 레이블이 없는 데이터에서 패턴과 그룹을 발견
# 작동 방식
(1) 학습 요소
- 데이터 셋 : 레이블 없이 오직 features(입력 변수) 만으로 구성
- 모델 : 데이터에서 내재된 그룹을 식별하여 클러스터 내 유사성을 극대화, 클러스터 간 유사성을 최소화
- 알고리즘
- K-평균(K-Means)
- 계층적 군집(Hierarchical Clustering)
- DBSCAN
- 가우시안 혼합 모델(GMM)
(2) 새로운 데이터 포인트를 유사성에 따라 가장 가까운 클러스터에 할당
→ 구매 행동을 기반으로 고객을 다양한 세그먼트로 그룹화하기
→ 소셜 네트워크 분석, 이상 탐지 등
ML의 기초 개념(feat. 생활코딩) (0) | 2024.08.11 |
---|---|
Classification Algorithms with Create ML (0) | 2024.07.08 |
댓글 영역