탐색적 데이터분석 작업의 한 단계로 피처 엔지니어링이 있다. 피처 엔지니어링이 데이터 분석 과정에서 어떤 역할을 하고 왜 중요한지를 살펴 보고자 한다.
1. 피처 엔지니어링(Feature engineering) 이란
피처 엔지니어링은 머신러닝 모델의 성능을 향상시키기 위해 데이터를 변환하고 개선하는 과정을 말한다. 피처 엔지니어링에서 피처 Feature 는 머신러닝 모델이 학습하는 데이터의 속성 또는 특성을 말한다. 피처에는 수치형, 범주형, 순서형 등으로 구분할 수 있다.
● 수치형 피처
- 숫자로 표현
- 예를 들어, 점수, 혈압, 몸무게, 매출액, 수량 등이 았음
● 범주형 피처
- 문자열이나 기호로 표현
- 예를 들어, 상품군, 나이대, 성별, 직업, 지역 등이 있음
● 순서형 피처
- 정렬 가능한 피처
- 예를 들어, 학점, 직급, 등급, 순위 등이 있음
피처 엔지니어링은 이러한 피처를 보다 효과적으로 활용하기 위해 수행하는 과정이다. 이 과정은 데이터 분석 작업을 하게 되면 자연스럽게 체득된다. 그래도 옆에 체크리스트를 두고 일을 하면 보다 일이 단순해 질 것이다.
2. 데이터분석에서 피처엔지니어링 중요성
피처 엔지니어링은 머신러닝 모델의 성능을 좌우하는 중요한 요소 중 하나이다. 피처 엔지니어링의 주요 목표는 다음과 같다.
- 모델의 예측 성능을 향상시킨다.
- 모델의 해석 가능성을 향상시킨다.
- 모델의 훈련 및 평가 과정을 개선한다.
즉, 데이터 분석 작업의 성능을 향상하고 이를 위한 개선의 과정이다. 이런 형태는 EDA의 탐색적 데이터분석의 탐색의 과정과 같다. 형사나 탐정이 범인을 찾기 위해 하나씩 밟아가는 과정과 닮은 것이다.
빅데이터 분석, AI, 딥러닝 학습을 위해서 가장 중요한 것은 데이터이다. 그 데이터가 활용하기 좋게 구성되어 있어야 한다. 수량이라는 속성 칼럼이 있다고 하자. 그 데이터는 숫자여야 한다. 그런데 문자로 되어 있을 수 있다. 그러면 데이터 분석은 물건너 간다.
# 같은 1,2,3 이지만 숫자일수도 있고, 문자일 수도 있다.
int_data = [1,2,3] # 숫자 데이터
char_data = ['1','2','3'] # 문자 데이터
우리 사람이 보는 시각에서는 나와있는 결과가 같은 문자로 보이기 때문이다. 이럴 때는 숫자로 형변환(데이터타입 변환)을 해야 하는 것이다. 데이터를 보다보면 참으로 할일이 많다.
그래서인지 데이터분석 관련 교육 및 학습과정이 많다. 온라인 교육 센터 뿐만 아니라 오프라인으로 진행되는 취업자 대상 교육, 재직자 대상 교육에도 과정이 포함되어 나온다.
3. 피처 엔지니어링 방법
그러면 피처엔지니어링 방법에 대해서 알아보자, 일반적으로 다음과 같은 4가지가 있다. 주의할 것은 이게 전부가 아니라는 것이다. 각 업무 도메인별로 피처 엔지니어링 적용 방법은 세밀한 작업이 더 있을 것이기 때문이다. 더 깊고 상세한 것은 해당 업종에서 배우고 익히면된다. 그래도 말을 알아 듣기 위해서 이 정도는 알면 좋다.
● 결측치 처리
- 데이터에 결측치가 있는 경우 결측치를 처리
- 결측치 처리 방법으로는 평균값, 최빈값, 중위값, 랜덤값 대입 등이 있음
● 이상치 처리
- 데이터에 이상치가 있는 경우 이상치를 처리
- 이상치 처리 방법으로는 이상치 삭제, 이상치 대체 등이 있음
● 변환
- 데이터의 값을 변환하여 모델의 학습 및 예측을 개선할 수 있음
- 변환 방법으로는 정규화, 스케일링, 로그 변환 등이 있음
● 추출
- 새로운 피처를 생성하여 모델의 성능을 향상시킬 수 있음
- 추출 방법으로는 통계적 함수, 지리적 위치, 텍스트 분석 등이 있
[데이터 제공 사이트]
4. 정리하며
피처 엔지니어링은 머신러닝 모델의 성능을 향상시키는 데 중요한 역할을 하며, 필수과정이다. 피처 엔지니어링을 통해 모델의 예측 성능을 향상시키고, 모델의 해석 가능성을 향상시키고, 모델의 훈련 및 평가 과정을 개선할 수 있다.이를 통해 머신러닝 모델의 성능을 극대화할 수 있는 것이다.
하지만, 쉬운 작업은 아니다. 데이터를 분석하다보면 항시 새로운 분석 주제가 도출된다. 그 만큼 시간은 사라져 이다. 남은 시간 동안 원하는 분석결과를 만들어야 한다. 그래서 중간적 합의점을 찾게 된다.
'이 정도면 되겠지'
이 합의점에 수긍이 가고 관련된 분들의 호응을 얻기 위해서는 커뮤니케이션이 중요하다. 말로만 하기 보다는 중간 중간의 결과물릉 보여 주며 서로의 합을 맞추는 시간이 필요한 것이다. 그래서 사무실 근처에 카페가 그리 많은 거라고 본다.
>> 같이보기
- 대한항공 마일리지 - 항공권 구입 알아보기, 마일리지 확인하기
- 대중교통 아끼기 - 기후동행카드 알아보고 준비하기
- 해외여행 기내 반입 금지물품 - 보조배터리 기내 반입 가능, 치약 기내 반입 불가능 등
'데이터인문학 > 데이터스토리' 카테고리의 다른 글
데이터의 종류 - 수치데이터, 범주형데이터 그리고 또 우리가 알던 데이터 (6) | 2024.03.16 |
---|---|
워드프레스 글 조회수 보여주기 - 조회수 플러그인 Post Views Counter 설치 (2) | 2024.02.02 |
구글 트렌드 전세계 올해의 인기 검색어 - 요리법 편, 비빔밥이 1위 (2) | 2023.12.27 |
고속도로 졸음 쉼터 개수 및 평균 거리 알아보기 (1) | 2023.12.26 |
Small data로 만드는 경량 머신러닝 TinyML (1) | 2023.12.21 |