본문 바로가기
데이터인문학/데이터스토리

데이터 분석 중심 피처 엔지니어링(Feature engineering) - 반복적인 데이터 분석의 중심

by 데이터스토리 2024. 2. 1.
반응형

탐색적 데이터분석 작업의 한 단계로 피처 엔지니어링이 있다. 피처 엔지니어링이 데이터 분석 과정에서 어떤 역할을 하고 왜 중요한지를 살펴 보고자 한다.

 

데이터분석 중심
데이터분석 중심

 

 

1. 피처 엔지니어링(Feature engineering) 이란

 

피처 엔지니어링은 머신러닝 모델의 성능을 향상시키기 위해 데이터를 변환하고 개선하는 과정을 말한다. 피처 엔지니어링에서 피처 Feature  는 머신러닝 모델이 학습하는 데이터의 속성 또는 특성을 말한다. 피처에는 수치형, 범주형, 순서형 등으로 구분할 수 있다.

데이터 분석
데이터 분석

● 수치형 피처
    - 숫자로 표현
    - 예를 들어, 점수, 혈압, 몸무게, 매출액, 수량 등이 았음

● 범주형 피처
    - 문자열이나 기호로 표현
    - 예를 들어, 상품군, 나이대, 성별, 직업, 지역 등이 있음

● 순서형 피처
    - 정렬 가능한 피처
    - 예를 들어, 학점, 직급, 등급, 순위 등이 있음

 

피처 엔지니어링은 이러한 피처를 보다 효과적으로 활용하기 위해 수행하는 과정이다. 이 과정은 데이터 분석 작업을 하게 되면 자연스럽게 체득된다. 그래도 옆에 체크리스트를 두고 일을 하면 보다 일이 단순해 질 것이다.

 

 

 

 

 

2. 데이터분석에서 피처엔지니어링 중요성

피처 엔지니어링은 머신러닝 모델의 성능을 좌우하는 중요한 요소 중 하나이다. 피처 엔지니어링의 주요 목표는 다음과 같다.

  • 모델의 예측 성능을 향상시킨다.
  • 모델의 해석 가능성을 향상시킨다.
  • 모델의 훈련 및 평가 과정을 개선한다.

즉, 데이터 분석 작업의 성능을 향상하고 이를 위한 개선의 과정이다. 이런 형태는 EDA의 탐색적 데이터분석의 탐색의 과정과 같다. 형사나 탐정이 범인을 찾기 위해 하나씩 밟아가는 과정과 닮은 것이다.

 

빅데이터 분석, AI, 딥러닝 학습을 위해서 가장 중요한 것은 데이터이다. 그 데이터가 활용하기 좋게 구성되어 있어야 한다. 수량이라는 속성 칼럼이 있다고 하자. 그 데이터는 숫자여야 한다. 그런데 문자로 되어 있을 수 있다. 그러면 데이터 분석은 물건너 간다.

데이터베이스 테이블
데이터베이스 테이블

 

# 같은 1,2,3 이지만 숫자일수도 있고, 문자일 수도 있다.

int_data   = [1,2,3]       # 숫자 데이터
char_data  = ['1','2','3'] # 문자 데이터

 

우리 사람이 보는 시각에서는 나와있는 결과가 같은 문자로 보이기 때문이다. 이럴 때는 숫자로 형변환(데이터타입 변환)을 해야 하는 것이다. 데이터를 보다보면 참으로 할일이 많다.

그래서인지 데이터분석 관련 교육 및 학습과정이 많다. 온라인 교육 센터 뿐만 아니라 오프라인으로 진행되는 취업자 대상 교육, 재직자 대상 교육에도 과정이 포함되어 나온다.

 

 

 

 

 

>> 구글 "데이터분석 교육과정" 검색 결과보기

 

 

 

3. 피처 엔지니어링 방법

그러면 피처엔지니어링 방법에 대해서 알아보자, 일반적으로 다음과 같은 4가지가 있다. 주의할 것은 이게 전부가 아니라는 것이다. 각 업무 도메인별로 피처 엔지니어링 적용 방법은 세밀한 작업이 더 있을 것이기 때문이다. 더 깊고 상세한 것은 해당 업종에서 배우고 익히면된다. 그래도 말을 알아 듣기 위해서 이 정도는 알면 좋다.

 

● 결측치 처리
   - 데이터에 결측치가 있는 경우 결측치를 처리
   - 결측치 처리 방법으로는 평균값, 최빈값, 중위값, 랜덤값 대입 등이 있음

● 이상치 처리
   - 데이터에 이상치가 있는 경우 이상치를 처리
   - 이상치 처리 방법으로는 이상치 삭제, 이상치 대체 등이 있음

● 변환
   - 데이터의 값을 변환하여 모델의 학습 및 예측을 개선할 수 있음
   - 변환 방법으로는 정규화, 스케일링, 로그 변환 등이 있음

● 추출
   - 새로운 피처를 생성하여 모델의 성능을 향상시킬 수 있음
   - 추출 방법으로는 통계적 함수, 지리적 위치, 텍스트 분석 등이 있

 

 

 

[데이터 제공 사이트]

 

 

 

 

 

4. 정리하며

 

피처 엔지니어링은 머신러닝 모델의 성능을 향상시키는 데 중요한 역할을 하며, 필수과정이다. 피처 엔지니어링을 통해 모델의 예측 성능을 향상시키고, 모델의 해석 가능성을 향상시키고, 모델의 훈련 및 평가 과정을 개선할 수 있다.이를 통해 머신러닝 모델의 성능을 극대화할 수 있는 것이다.

 

하지만, 쉬운 작업은 아니다. 데이터를 분석하다보면 항시 새로운 분석 주제가 도출된다. 그 만큼 시간은 사라져 이다. 남은 시간 동안 원하는 분석결과를 만들어야 한다. 그래서 중간적 합의점을 찾게 된다.

 

'이 정도면 되겠지'

 

이 합의점에 수긍이 가고 관련된 분들의 호응을 얻기 위해서는 커뮤니케이션이 중요하다. 말로만 하기 보다는 중간 중간의 결과물릉 보여 주며 서로의 합을 맞추는 시간이 필요한 것이다. 그래서 사무실 근처에 카페가 그리 많은 거라고 본다.

데이터의 중심 커뮤니케이션
데이터의 중심 커뮤니케이션

 

 

>> 같이보기

 

  • 대한항공 마일리지 - 항공권 구입 알아보기, 마일리지 확인하기
 

대한항공 마일리지 - 항공권 구입 알아보기, 마일리지 확인하기

대한항공 마일리지 항공권 구입 - 누적된 대한항공 마일리지를 사용해서 항공권을 구매하는 것을 알아보겠습니다. 마일리지 사용법이니 잘 따라와 보세요. 1. 대한항공 마일리지 항공권 구입 -

twdatastory.tistory.com

 

  • 대중교통 아끼기 - 기후동행카드 알아보고 준비하기
 

대중교통 아끼기 - 기후동행카드 알아보고 준비하기

대중교통 비용을 아끼기 위한 방법이 나왔습니다. 기후동행카드가 그것인데, 이 카드에 대해서 알아보게습니다. 아낄 수 있는 방법이 있으니 활용해야 겠죠! 1. 기후동행카드란? 기후동행카드는

twdatastory.tistory.com

 

  • 해외여행 기내 반입 금지물품 - 보조배터리 기내 반입 가능, 치약 기내 반입 불가능 등
 

해외여행 기내 반입 금지물품 - 보조배터리 기내 반입 가능, 치약 기내 반입 불가능 등

해외여행 시 기내 반입 금지물품 관련하여 살펴보면, 보조배터리는 기내 반입이 가능하지만 수화물로는 안되고, 치약은 기내 반입이 불가능하지만 수화물로는 가능합니다. 이런 기내 반입물품

twdatastory.tistory.com

 

반응형