우리 주변에는 많은 장소가 있습니다. 카페, 병원, 관공서, 사무실, 공원 , 도로 등 건물과 환경이 존재합니다.
이런 사물에서 발생되는 다양한 종류의 데이터가 있습니다.
이번에는 이런 데이터의 종류에 대해서 알아보겠습니다.
1. 데이터의 종류 - 내주변의 데이터
주변에서 생성되는 수치, 문자, 사진, 그림, 소리 등이 디지털로 변환되어 컴퓨터에 저장되는 것을 데이터하고 합니다.
하지만 데이터라고 다 동일한 데이터가 아닙니다.
데이터도 종류를 구분할 수 있기 때문입니다.
우리에게 가장 가까운 곳에 있는 데이터는 바로 우리 입니다.
키, 몸무게, 나이, 집주소, 학점, 세금, 카드비용, 커피값 등 내가 만들어 내는 데이터이지요.
이런 데이터가 모여서 데이터셋이 되고 데이터베이스가 만들어집니다.
나를 벗어나면 더 많은 데이터가 있습니다.
자동차가 만드는 데이터, 주택이 만드는 데이터, 국가가 만드는 데이터 등 아주 많은 데이터가 수시로 생성되고 있습니다.
아주 많은 데이터가 생성되죠.
데이터를 분류하는 이유는 데이터를 이해하고 분석하기 위해서 입니다.
예를 들어, “15”란 숫자가 있습니다. 이 숫자가 의미하는 바가 무엇일까요?
나이가 15살, 통에 들어있는 사탕의 수가 15개 아니면 교실에 출석한 학생이 15명.
과연 무엇일까요?
숫자 자체로는 그 의미를 파악할 수 없습니다.
의미를 알기 위해서는 이 숫자를 꾸미는 다른 단어가 있어야 합니다. 이를 데이터 속성에 포함시키죠
여기서 이 속성도 데이터 항목입니다.
우리가 가지고 있는 데이터가
학교에서 신체검사를 측정한 데이터라면, 카페에서 커피를 판매한 데이터라면, 엘리베이터 운행일지에 기록된 데이터라면 어떨까요!
그 데이터에 포함된 각각의 수치와 문자의 의미 파악이 명확할 것입니다.
>>> [신세계그룹 보도자료] 스타벅스 빅데이터로 예상하는 2021년 커피 트렌드는 “H.O.P.E.” -- 보러가기
데이터는 단일값으로 의미보다는 다른 데이터와 연동될 때 그 의미는 더욱 가치를 가집니다.
그래서 데이터 분석의 첫 작업이 통계를 만드는 일입니다.
합계를 구하고, 평균을 구하고 중간값을 구하는 그런 작업이죠. 이게 시작이 됩니다.
2. 데이터의 종류 - 수치형, 범주형 데이터
이제 데이터 종류를 알아보도록 하겠습니다.
데이터는 숫자 또는 문자가 일반적입니다.
숫자인 “1, 2, 3, …”이 의미없이 양을 나타낼 수도 있지만, 성적 등수를 나타낼 수도 있습니다.
먼저 데이터는 수치데이터와 범주형 데이터로 분류합니다.
데이터 종류 - 수치형데이터, 범주형데이터
수치 데이터는 양을 나타냅니다.
10개, 20개, 55KG, 182Cm와 같은 양, 부피를 표현합니다.
여기에 해당하는 데이터를 보면 카페의 커피 판매량, 과일 가게의 사과 판매량, 영어 시험 점수, 목욕탕에서 잰 내 몸무게 등이 있습니다. 즉, 숫자 형태로 측정되는 데이터이죠.
수치형 데이터(Numerical Data)
- 키, 몸무게, 시간
- 커피 판매량, 과일 판매량, 지나간 자동차 수, 등산객 수
범주 데이터는 양보다는 질적인 측면을 나타냅니다.
“1등급, 2등급 / 남자, 여자 / 과일, 채소, 육고기” 와 같은 범위 즉, 범주를 의미하는 데이터입니다.
여기에 해당하는 데이터에는 성별, 고기 등급, 지역, 기업규모, 연령대 등 범위에 포함할 수 있는 데이터 입니다.
범주데이터(Categorical Data)
- 성별: 남,여
- 고기 등급: 1등급, A플러스, A등급
- 지역: 강원도, 충청도, 부산)
- 기업 규모: 대기업, 중견 기업, 중소기업, 소기업, 자영업 등
- 연령대: 청소년기, 중장년층, 노년층 등
수치형데이터를 더 알아보겠습니다.
수치형 데이터인 숫자를 보면 “1,2,3,4..” 와 같은 연속적인 데이터가 있고, “23잔, 12잔, 52잔 등” 과 같은 비연속적인 데이터가 있습니다.
연속적인 데이터를 “연속형 데이터(Continuous Data)”라고 부릅니다.
여기에 속하는 데이터에는 연속적인 성격이어야 합니다. 즉, 데이터 사이에 끊어짐이 없습니다.
반면 비연속 데이터를 “이산형 데이터(Discrete Data)”리고 부릅니다.
여기에는 카페 커피 판매량, 시장에서 판매되는 과일 물량 등 데이터 간의 연속성이나 숫자간 연관 의미가 없는 데이터입니다.
- 연속형 데이터(Continuous Data): 키, 몸무게, 시험점수 등
- 이산형 데이터(Discrete Data): 커피 판매량, 책 판매 건수, 공장 불량 수량 등
범주형 데이터도 2가지로 분류합니다.
앞뒤 순서를 니티내는 순위형데이터와 순위가 아닌 딱 그 의미를 뜻하는 명목형 데이터로 나뉩니다.
순위형 데이터(Ordinal Data)는 순서를 의미합니다. 계급, 등급, 학점 등입니다.
명목형 데이터(Nominal Data)는 순서 보다는 그 자체의 분류값으로 사용됩니다.
성별, 과목, 백화점 부문 등입니다. 주로 명시적으로 분류하여 부르는 말이죠.
- 순위형 데이터(Ordinal Data): 계급(이병, 일병, 상병,…), 등급(A등급, B등급,..), 학점(A+, A, A-, B+, B, …)
- 명목형 데이터(Nominal Data): 성별(남, 여), 과목(영어, 국어, 수학 등), 백화점 부문(신사복, 숙녀복, 아동복 등), 혈액형, MBTI 등
데이터 종류 체계를 다시 정리하면 아래와 같습니다.
>>> [투이컨설팅 데이터 기사] 데이터 품질 국제 표준, ISO 8000 -- 바로가기
3. 데이터 종류 파악하기 - BMI 데이터 활용
데이터가 어떤 종류에 해당하는지 알면 활용 측면에서 유리합니다.
수집된 데이터는 정제되지 않은 경우가 있습니다.
아래 표는 학생 10명의 키, 몸무게와 BMI지수 그리고 비만 여부를 판정한 데이터 입니다.
BMI 지수
신체질량지수(Body Mass Index:BMI,카우프지수)에 의한 비만도 계산법으로 비만의 판정의 올바른 지표는 체중이 아니라 체지방량이므로 몸의 지방량을 직접 측정하는 것이 이상적이나 이것은 기술적인 어려움이 있기 때문에 표준체중, 신체질량지수 등 체지방량을 간접적으로 측정하는 방법이다.
- BMI 계산식: 신체질량지수(BMI) = 체중(kg) / [신장(m)]2
- 판정기준
판정 | BMI지수 범위 |
저체중 | 20 미만 |
정상 | 20 - 24 |
과체중 | 25 - 29 |
비만 | 30 이상 |
위 데이터를 활용하여 데이터 종류를 알아보겠습니다.
- 번호: 일련번호이므로 수치형데이터 - 연속형 데이터 입니다.
- 학년: 1,2,3학년 이렇게 범주가 정해지므로 범주형 이면서 순위형 데이터 입니다.
- 키, 몸무게: 측정된 값으로 수치형이고, 이산형데이터 입니다.
- 신체질량지수(BMI): 키와 몸무게로 계산되므로 수치형이고 이산형데이터가 됩니다.
- 신체등급: 위 BMI 값을 범주화 하여 등급을 규정하고 있습니다. 범주형이고 명목형 데이터입니다. 만약 판정결과인 저체중, 정상, 과체중, 비만에 등급의 의미를 준다면 순위형 데이터가 됩니다.
자. 이렇게 데이터의 종류에 대해서 알아봤습니다.
데이터를 수치형과 범주형으로 나누고, 이를 다시 연속형과 이산형 그리고 순위형과 명목형으로 분류하는 것은 데이터를 이해하고 분석하고 활용하는 측면에서 아주 용이 합니다.
데이터를 바라볼 때, 이런 종류를 분류해 보는 시각을 가지면 좋겠죠.
[같이 보기]
- 비행기 반입 금지 물품 - 휴대용 라이터, 호신용 스프레이 는
- 대한항공 기내 면세품 KAL기내 면세품 - 구매, 사전주문 알아보기
- 해외 여행 준비 필수 준비물 - 필수템, 꼭 챙겨야 하는 것들
- 아시아나 마일리지 가족회원 등록하기 - 항공마일리지 모으기, 아시아나 마일리지 적립 방법, 가족 간 사용 공유
- 대한항공 마일리지 - 비행기표 예매, 마일리지 확인하기
- 해외 여행의 필수품 재외공관 - 외교부 재외공관, 해외여행 안전지도 알아두기
'데이터인문학 > 데이터스토리' 카테고리의 다른 글
칼럼의 값을 Null 처리하기 - Dbeaver에서 (0) | 2024.07.18 |
---|---|
CEO가 읽어봐야 할 혁신 서적 6권 - 혁신의 수익 창출, 행운과의 경쟁, Zero to One (0) | 2024.04.10 |
워드프레스 글 조회수 보여주기 - 조회수 플러그인 Post Views Counter 설치 (2) | 2024.02.02 |
데이터 분석 중심 피처 엔지니어링(Feature engineering) - 반복적인 데이터 분석의 중심 (2) | 2024.02.01 |
구글 트렌드 전세계 올해의 인기 검색어 - 요리법 편, 비빔밥이 1위 (2) | 2023.12.27 |