[머신 러닝] 머신러닝 성능향상

Machine Learning

[머신 러닝] 머신러닝 성능향상 - Feature Engineering

Scarlett_C 2021. 9. 2. 13:17

728x90

*Feature Engineering

1. Feature Selection

- 결과값에 유효한 영향들을 미치는 Feature 값을 임의로 선택하여 머신러닝 성능을 향상시킨다.

(상관 분석을 통하여 유효값의 기준 및 범위를 세울 수 있다.)

2. Feature Nomalization(정규화)

- Feature마다 서로 다른 범위를 가지고 있을 때 값이 발생시키는 유효성의 차이가 생길 수 있음

- 차이를 최소화 하여 성능을 향상시키는 방법

1) Standardization(표준화)

- 범위값(Numerical Column)의 각기 다른 범위를 정규분포표를 만들어 사용

from sklearn import preprocessing

normalized_data=preprocessing.StandardScaler().fit_transform(data)

2)Min-Max Scaler

- 최소값과 최댓값사이를 범위로 한 정규화방법 (0~1사이에 위치함)

from sklearn import preprocessing

normalized_data = preprocessing.MinMaxScaler().fit_transform(data)

3. Feature Generation

- 여러개의 Feature를 조합하여 새로운 Feature를 만드는 방법

- PolynomialFeatures : 서로 다른 Feature들 간의 곱셈으로 새로운 Feature를 만듬

from sklearn.preprocessing import MinMaxScaler, PolynomialFeatures

X=MinMaxScaler().fit_transform(Data)
X=PolynomialFeatures(degree=2, include_bias=False).fit_transform(X)

728x90

저작자표시 비영리 변경금지

'Machine Learning' 카테고리의 다른 글

[머신러닝] Random Forest(랜덤 포레스트) (0)	2021.10.02
[머신 러닝] Regression 알고리즘 (0)	2021.09.02
[머신 러닝] 상관분석(Correlation Analysis) (0)	2021.09.01
[머신 러닝] K-Fold Cross Validation(K-Fold 교차검증) (0)	2021.09.01
[머신 러닝] 결정트리(Decision Tree) (0)	2021.09.01

현재글[머신 러닝] 머신러닝 성능향상 - Feature Engineering

스칼렛의 코딩라이프