데이터의 유형과 분류

2017. 11. 30. 19:30

데이터의 유형과 분류에 대해서 언급해야 할 필요성이 있다는 생각이 들었습니다. 원래 계획은 이번 주에 logistic regression에 관해 글을 쓰려고 했습니다. 하지만, 로지스틱 회귀분석을 얘기해 보려고 하니 regression이 먼저 애기되어야 할 것 같더라고요. 그래서 꼬리를 물고 물고 가다 보니 데이터의 유형과 분류에 대해서 한 번 정리하고 넘어가는 것이 좋을 것 같다는 생각이 들었습니다. 그래서 이번에는 데이터의 유형과 분류에 대해서 잠깐 얘기하고 넘어가도록 하겠습니다.


데이터의 유형을 분류하기 위해서는 기준이 필요한데요. 기준에 따라서 많은 분류가 나올 수 있습니다.

먼저 출처를 기준으로 구분할 때는 내부 자료와 외부 자료로 나눌 수 있습니다. 이전에 본 외국 자료 중에 스포츠 경기 승패를 예측하는 모델을 만드는 글을 본 적이 있습니다. 거기서는 실제 확보할 수 있는 데이터외에 경기장에서 관측을 통해 추가로 데이터를 확보하여 적중률을 높이는 방법도 고려해야 한다고 하더군요. 위 기준에 정확히 맞지는 않지만, 내부에 이미 있는 자료와 외부에서 구해서야 하는 자료로 데이터를 나눌 수 있습니다.


다음으로 자료의 척도에 따라 연속형 데이터와 범주형 데이터로 나눌 수 있습니다. 연속형 자료는 속도나 무게 같이 등간으로 연속되는 데이터 유형을 말하며, 범주형 자료는 명목형이나 순위형 데이터와 같이 그룹핑한 데이터를 말합니다.


다음은 그 유형에 따라 수치형, 문자형, 논리형으로 나눌 수 있다고 합니다. 수치형은 우리가 일반적으로 아는 숫자형 데이터를 말하며, 문자형은 텍스트 형태의 데이터, 논리형은 True/False의 데이터를 말합니다. 수치형은 연속형 데이터이고, 문자형과 논리형은 범주형 데이터로 볼 수 있겠습니다. 모델을 만들기 위해서는 종속변수(혹은 반응변수) y의 데이터 유형이 무엇인지를 알아야 합니다. 수치형의 연속형 변수인지, ‘이다/아니다'의 여부를 나타내는 이산형 변수인지에 따라서 특정 모델은 사용이 불가하기 때문입니다. 명목형의 변수는 이산형 변수를 여러 개로 분류해서 사용할 수 있습니다. ( 모델에서 y에 해당하는 값을 ‘종속변수, 반응변수’라고 하고, x에 해당하는 값을 ‘독립변수, 예측변수’라고도 합니다. 저는 이게 항상 헷갈리더라고요. )




다음 자료의 가공에 따라서 집계 데이터인지 원천 데이터인지 나눌 수 있다고 합니다. 집계 데이터는 평균이나 합계 같은 통계 데이터를 이야기 하는데요. 모델을 만들 때 이렇게 가공한 데이터를 쓰는 경우도 있는 것으로 알고 있습니다.


마지막으로 정형 데이터와 비정형 데이터로 나눌 수 있습니다. 빅데이터가 부상하게 된 이유는 여러가지가 있지만 기존에 다루지 못했던 비정형 데이터를 다룰 수 있게 된 것도 하나의 이유입니다. 비정형 데이터는 음성, 그림, 문서 등과 같이 그 구조가 정형화 되어 있지 않은 데이터를 말합니다. 정형 데이터는 데이터베이스 구조와 같이 형태와 구조가 정형화되어 있는 데이터를 말합니다. 비정형 데이터는 그 구조 그대로 사용할 수는 없고 정형 데이터로 변환하여 사용하게 됩니다.

과거에는 비정형 데이터의 양도 적고, 처리하는 데 시간이 오래 걸려 다루기 어려웠습니다. 하지만, 지금은 인터넷이 널리 쓰임에 따라 비정형 데이터의 양이 폭발적으로 늘어났고, 컴퓨팅 파워가 향상됨에 따라 처리 시간도 많이 단축되었습니다. 데이터의 활용도가 늘어난데는 과거와 다른 분석이나 모델링 방법이 나왔다기 보다는, 이렇게 데이터의 양과 컴퓨팅 파워가 향상됨에 따라 과거에는 상상만 했던 것들이 가능해진 부분도 있다고 합니다.


그래서 모델을 만들기 전에 예측하려는 변수의 형태가 어떤지 파악하고, 그에 맞는 모델을 사용하는 것이 필요합니다. 더 전문적으로는 각각의 상황에 따라 장단점을 파악하고, 그에 따른 커스터 마이징(?)까지 할 수 있으면 금상첨화겠네요. 하지만, 그런 경지에 이르려면 많은 시간과 노력을 투자해야겠지요. ㅎㅎ


그럼, 오늘은 이만 마치도록 하겠습니다. 감사합니다.




댓글()