728x90

Machine Learning 17

[머신 러닝] 머신러닝 성능향상 - Feature Engineering

*Feature Engineering 1. Feature Selection - 결과값에 유효한 영향들을 미치는 Feature 값을 임의로 선택하여 머신러닝 성능을 향상시킨다. (상관 분석을 통하여 유효값의 기준 및 범위를 세울 수 있다.) 2. Feature Nomalization(정규화) - Feature마다 서로 다른 범위를 가지고 있을 때 값이 발생시키는 유효성의 차이가 생길 수 있음 - 차이를 최소화 하여 성능을 향상시키는 방법 1) Standardization(표준화) - 범위값(Numerical Column)의 각기 다른 범위를 정규분포표를 만들어 사용 from sklearn import preprocessing normalized_data=preprocessing.StandardScaler(..

Machine Learning 2021.09.02

[머신 러닝] K-Fold Cross Validation(K-Fold 교차검증)

K-Fold 교차검증 - 데이터의 개수가 너무 적을경우, 트레이닝 데이터와 테스트 데이터가 어떻게 나눠지는가에 따라 성능 측정 결과가 크게 달라질 수 있다. ==> 이런 문제를 해결하기 위해 K-Fold 교차검증을 사용 할 수 있음 import numpy as np from sklearn.model_selection import KFold X=np.array([[1,2],[3,4],[1,2],[3,4]]) y=np.array([1,2,3,4]) kf=KFold(n_splits=2) KFold(n_splits=2, random_state=None, shuffle=False) for train_index, test_index in kf.split(X): X_train, X_test = X[train_inde..

Machine Learning 2021.09.01

[머신 러닝] 결정트리(Decision Tree)

결정트리(Decision Tree) - 데이터 마이닝에서 일반적으로 사용되는 방법론 - 입력 변수를 바탕으로 목표 변수의 값을 예측하는 모델을 생성하는 것을 목표로 한다 - 수 많은 if절로 이루어져 있다고 생각하면 이해하기 쉬움 *장점 - 알고리즘의 동작과정이 직관적이다 -> 이해하기 쉽다 - 학습시간이 빠르다 - 개별 feature들을 판단하므로, 일반화가 필요하지 않다. *단점 - 오버피팅에 빠지기 쉽다 ==> 너무 세부적으로 나누어 진 트리는 결국 training data에만 맞추어지기 때문에 예측값의 정확도가 떨어질 수 있다. *scikit-learn의 DecisionTree Estimator from sklearn.tree import DecisionTreeClassifier #분류(class..

Machine Learning 2021.09.01

[머신 러닝] Scikit-learn

*scikit-learn 기본 사용법 1. Estimator 선언 (e.g. LinearRegression) 2. .fit() 함수 호출을 통한 트레이닝 3. .predict()함수 호츨을 통한 예측 * scikit-learm을 이용하여 training data, test data 나누기 from sklearn.model_selection import train_test_split #80%는 트레이닝 데이터, 20%는 테스트 데이터로 나누고 싶을 때 X_train, X_test, y_train, y_test = train_test_split(X,y, test_size=0.2) * Estimator 선언하기 from sklearn.linear_model import LinearRegression #선형회귀..

Machine Learning 2021.09.01

Regression 알고리즘의 성능 평가 지표

1. MSE(Mean Squared Error) - 학습된 예측 모델의 성능을 평가할 수 있어야만 합니다. - Regressing 예측모델의 성능평가 지표 중 가장 대표적이다. - 테스트 데이터에 대한 MSE 가 적은게 좋은 모델이다. 2. RMSE(Root Mean Squared Error) - MSE는 차이를 제곱해서 더하므로 차이가 증폭되는 문제가 있을 수 있다. - MSE에 Root를 씌운 형태의 RMSE도 많이 사용하는 지표이다. 3. MAE(Mean Absolute Error) - 예측값과 정답간의 차이에 절대값을 취함

Machine Learning 2021.08.22
728x90