MLOps-Feature Selection

Apr 22, 2021

Post Series

Feature Selection

Feature Spaces

Feature Space 는 N개의 Featrues에 의해 정의된 N diemnsional space이다. (label은 포함하지 않음)

예를들어 방의개수, 넓이, 지역의 3개 Feature를 가지고 집값 Y를 예측하는 문제에서 모델 f 는 3D feature space에서 활동을한다.

Feature coverage는 매우 중요하다. Model을 학습하거나 평가할 때 제공되는 data 는 실제 Serving되는 data를 대표하고 cover할 수 있어야한다. 즉 같은 numerical range,classes 등을 가져야 한다.

앞서 나왔던 여러가지 요소에 의해 일어나는 Concept,data drift 등의 문제가 발생할 수 있기 때문에, 항상 Monitoring을 통해 같은 space를 커버하는지 관리하는것이 성공의 핵심 포인트다.

Feature Selection

Feature selection은 가지고 있는 Data의 여러 Feature들 중에서 필요한 것을 선택하는 과정이다.

어쩔때는 모두 필요할 수도있고, 어쩔때는 모두 필요 없을수도 있다.

중요한 점은 Feature가 예측 하려고 하는 목표와의 연관성을 잘 나타낼 수 있어야 한다는것이다.

Feature의 개수는 곧 Feature space의 차원으로 이어지고, 차원이 높을수록 모델의 복잡도가 올라가기 때문에 최소한의 Feature들로 효율적을로 구성하는것이 좋다.

적절한 Feature selection을 수행하여 Data의 전체 크기를 줄이고, training / inference cost를 최소화할 수 있다.

Feature selection method는 크게 Unsupervised, Supervised의 두가지로 나뉜다.

Unsupervised feature selection은 feature와 label의 관계를 고려하지 않는다. 보통 중복된 feature나 연관성이 높은 feature를 제거하는 등의 작업이다.

Supervised feature selection은 label과의 관계를 고려한다. 여러개의 feature중 label의 결과 도출에 가장 큰 영향을 미치는 feature 들을 선택하는 등의 작업을 한다.

Supervised feature selection에는 Filter Methods, Wrapper methods, Embedded methods 등이 존재한다.

이렇게 선정한 Feature들에 대해서 성능 평가는 baseline value에서 부터 시작한다. 그리고 Random Forest classifier를 이용해 feature들을 선택해 가면서 Acc, AUROC, Precision, Recall, F1score 등을 사용해 성능을 평가한다.