본문 바로가기

그 외 지식

데이터 타입(Data Type)

데이터 분석을 하기 위한 글들을 읽어보면 Qualitative data, Quantitative data, Nomial data, Discrete data... 등 굉장히 다양한 데이터 타입이 줄줄이 등장하게 됩니다. 연속(Continous)과 이산(Discrete)까지는 친숙했지만 다른 데이터 타입들은... 해서 오늘은 데이터 타입에 대해 간략히 정리하겠습니다.

Qualitative(질적), Categorical(범주형) Quantitative(양적), Numerical(수치형)
Nomial(명목형) Ordinal(순서형) Discrete(불연속적) Continuous(연속적)
순서가 없는 범주 순서가 있는 범주 연속되지 않는 수치 연속적인 수치

사실 데이터 특성을 구분하는 기준에 따라 다른 분류법이 있습니다만, 저같은 경우 베이스를 위의 표와 같이 잡았습니다. 데이터는 크게 범주형 / 수치형으로 나뉘고, 이후 각각 명목, 순서, 불연속, 연속 데이터로 세분화되는 방식입니다.

1. 명목형 데이터(Nomial Data)

: 순서가 없는 범주형 데이터를 칭하는 말입니다. 예를 들면 성별(남/녀), 좋아하는 음식(치킨/피자/불고기), 좋아하는 색상(빨강/파랑/검정) 등이 있습니다. 더 세분히 하여 보통 남자를 1, 여자를 0으로 표현한다면, 1과 0이라는 값은 숫자로써는 1>0이라는 순서관계가 생기게 되고, 평균은 0.5라는 값이 계산되지만 이러한 순서관계와 값은 실제 데이터와는 아무런 관련이 없습니다.

2. 순서형 데이터(Ordinal Data)

: 순서가 있는 범주형 데이터를 칭하는 말입니다. 예를 들면 만족도 설문조사 결과(좋음, 보통, 나쁨) 따위가 있습니다. 이 경우에는 좋음을 3, 보통을 2, 나쁨을 1으로 표현한다면, 3>2>1이라는 순서관계가 생기게됨이 꽤나 합리적으로 보이며, 평균이 만약 2.5점 정도 나왔다면, 만족도가 꽤나 높다고 칭할 수 있습니다. 다만 문자열을 수치로 매칭하는 과정을 합리적으로 진행하지 않는다면 원하지 않는 과장 또는 과소평가가 일어날 수 있습니다.

3. 불연속적 데이터(Discrete Data)

: 연속되지 않는 수치형 데이터를 칭하는 말입니다. 다른 표현으로는 세릴 수 있는 자료형입니다. 예를 들면 주사위 결과를 들 수 있습니다. 이 경우 1, 2, 3, 4, 5, 6이라는 6개의 불연속적인 결과값만이 존재할 수 있을 뿐, 1.5와 같은 값은 불가능합니다.

4. 연속적 데이터(Continous Data)

: 연속되는 수치형 데이터를 칭하는 말입니다. 다른 표현으로는 세릴 수 없는 자료형입니다. 예를 들면 키, 몸무게 등이 있습니다. 평균과 표준편차, 분산 등이 자유롭기에 다루기에 편리합니다. 그런데 깊이 생각해보면, 키를 재더라도 결국 키를 재는 메져의 물리적 특성상 어느 자릿수에서는 분명히 반올림을 해버리기에(예를 들면, 실제 키가 175.12332413435cm 라면 175cm로 기록) 한 데이터셋은 이산형 데이터라고 생각이 들기도 합니다. 그러나 기록된 값은 이산의 형태더라도, 실제 관측 가능한 값은 연속적 척도로 주어지기에 연속적 데이터라 말합니다.

이를 기반으로 조금 더 깊이 생각해봅시다. 나이(Age)라는 데이터는 어떤 데이터일까요. 명목형? 순서형? 연속적? 당연히도 이는 데이터를 수집하는 과정에서 달라질 수 있습니다. 나이를 수집할 때, 자신의 나이(00세)를 기록하였다면, 이는 연속적 데이터라고 할 것이며, '영아', '청소년', '청년', '장년' 등으로 기록하였다면 명목형 데이터라 할 수 있을 것입니다. 또 10대, 20대 등으로 구분한다면 순서형 데이터가 될 수 있겠습니다.

구간 데이터(Interval Data), 비율 데이터(Ratio Data) 등은 다루지 않았습니다.

아래는 박스 플롯(Box Plot), 바이올린 플롯(Violin Plot)에서 참고한 표입니다. 코드와 함께 다시 한 번 정리하시면 좋을 것 같습니다.

변수 개수 변수 형태 그래프
일변량(1개) 연속형 데이터 히스토그램(Histogram)
박스 그래프(Box Plot)
커널 밀도 곡선(Kernel Density)
바이올린 그래프(Violin Plot)
범주형 데이터 막대 그래프(Bar Chart)
원 그래프(Pie Chart)
다변량(2개 이상) 연속형 데이터 선 그래프(Line Chart)
산점도(Scatter)
범주형 데이터 히트맵(Heatmap)

'그 외 지식' 카테고리의 다른 글

최대 우도 추정(Maximum Likelihood Estimation, MLE)  (0) 2020.04.16
객체(Object)  (0) 2020.03.29
박스 플롯(Box Plot), 바이올릿 플롯(Violin Plot)  (0) 2020.03.10
P-NP 문제  (0) 2020.03.08
휴리스틱(Heuristic)  (1) 2020.03.07