728x90
*Feature Engineering
1. Feature Selection
- 결과값에 유효한 영향들을 미치는 Feature 값을 임의로 선택하여 머신러닝 성능을 향상시킨다.
(상관 분석을 통하여 유효값의 기준 및 범위를 세울 수 있다.)
2. Feature Nomalization(정규화)
- Feature마다 서로 다른 범위를 가지고 있을 때 값이 발생시키는 유효성의 차이가 생길 수 있음
- 차이를 최소화 하여 성능을 향상시키는 방법
1) Standardization(표준화)
- 범위값(Numerical Column)의 각기 다른 범위를 정규분포표를 만들어 사용
from sklearn import preprocessing
normalized_data=preprocessing.StandardScaler().fit_transform(data)
2)Min-Max Scaler
- 최소값과 최댓값사이를 범위로 한 정규화방법 (0~1사이에 위치함)
from sklearn import preprocessing
normalized_data = preprocessing.MinMaxScaler().fit_transform(data)
3. Feature Generation
- 여러개의 Feature를 조합하여 새로운 Feature를 만드는 방법
- PolynomialFeatures : 서로 다른 Feature들 간의 곱셈으로 새로운 Feature를 만듬
from sklearn.preprocessing import MinMaxScaler, PolynomialFeatures
X=MinMaxScaler().fit_transform(Data)
X=PolynomialFeatures(degree=2, include_bias=False).fit_transform(X)
728x90
'Machine Learning' 카테고리의 다른 글
[머신러닝] Random Forest(랜덤 포레스트) (0) | 2021.10.02 |
---|---|
[머신 러닝] Regression 알고리즘 (0) | 2021.09.02 |
[머신 러닝] 상관분석(Correlation Analysis) (0) | 2021.09.01 |
[머신 러닝] K-Fold Cross Validation(K-Fold 교차검증) (0) | 2021.09.01 |
[머신 러닝] 결정트리(Decision Tree) (0) | 2021.09.01 |