경마로 코딩 교육 배우기(빅데이터 분석학습하기)
목차
요즘은 어디서나 4차 산업, AI, 빅데이터에 대한 애기를 들을 수 있다. 많은 사람들이 모델링, 예측, 타겟팅이라는 말을 익숙하게 쓰고, 어떤 사람들은 초등학생때부터 코딩교육을 시켜야 한다는 이야기를 한다. 데이터마이닝을 넘어 머신러닝에 대한 관심도 높고 데이터 사이언티스트, 빅데이터 분석사를 진로로 희망하는 학생들도 많은 것으로 안다. 빅데이터 자격증을 공부하는 사람도 있고, 빅데이터 학원에 다니는 사람들도 있다. 요즘에는 국가에서도 중요한 사업으로 보고 있어, 국비지원 교육도 많은 것 같다.
관련 글 보기
파이썬을 위해 pycharm(파이참)을 써야만 하는 이유 5가지!
이렇게 많이 통용되다 보니 누구나 한번 쯤 파이썬이나 R 또는 데이터 마이닝에 대해서 공부해 볼까라는 마음을 갖게 된다. 하지만, 실제 시간을 내서 공부한다는 것은 쉽지 않다.
데이터 분석에 대한 자료는 넘쳐나지만, 시간이 없고 당장 필요하지 않기 때문인 듯 하다. 인터넷에 가면 무료 빅데이터 교육도 있고, 무크에서 빅데이터 강의도 무료로 들을 수 있다.
(참조: 파이썬프로그래밍 유료&무료 교육 강좌 알아보기)
하지만 배운 것을 실제로 적용해 볼 수 있는 곳이 많지 않다보니 지속적으로 학습하기가 쉽지 않다. 배울 때는 그런가보다 하지만 막상 어딘가에 적용하려고 하면 그림이 잘 그려지지 않는다.
필자도 그런 사람중에 한 명이다.
그래서 데이터사이언스를 좀 더 재밌게 공부하고자 생각한 것이 경마(horse racing)였다.
그러면 경마가 데이터 마이닝을 공부하는데, 효과적이라고 생각하는 이유는 무엇일까?
1. 데이터가 풍부하다
우리나라에 경마가 도입된 것은 1928년 9월이다. 1928년 9월부터 데이터가 축적돼 있는지 모르겠지만, 최소 2010년 이후 데이터가 렛츠펀파크(구 마사회) 홈페이지에 있다. 이 데이터만 해도 어마어마하다.
5년치 경마 데이터가 얼마나 되는지 대략 계산해보면 아래와 같다.
* 60개월(5년) X 1개월 경기수 X 1경기에 뛰는 말의 수(약 10마리) = 108,000 천건
10만건이라는 데이터가 많지 않다고 생각하실 수도 있지만, 그 옆에 붙게 되는 칼럼들까지 생각하면 데이터 크기가 꽤 된다. 이게 부족하다고 생각하면 그 이전 경기 데이터를 더 축적하실 수 있다.
2. 예측의 결과를 매주 확인할 수 있다
렛츠런파크(경마장)의 데이터를 수집하고 모델을 만들고 나면 매주 3일간 예측의 결과를 확인할 수 있다. 우리나라는 금,토,일 3일간 매주 경마를 개최하고 있기 때문이다. 꼭 과천에 가야 할 수 있는 것도 아니다. 지역단위로 지사가 있다.
(참조: 렛츠런파크 경마 지점 알아보기)
가까운 지사에 5천원에서 1만원 정도 지불하시면, 실제 베팅도 할 수 있고 경마결과도 확인 가능하다. 그리고 최근에 과천 경마장에 2~30대 만을 위한 '놀'이라는 공간이 생겨서 쾌적한 환경에서 즐길 수 있다.
3. 재밌다
경마는 문화레져 스포츠라고 하지만 돈을 걸고 그 결과에 따라 배당을 받는다. 그렇기 때문에 개인적으로 '경마'는 도박에 가깝다고 생각한다. 경마는 사행성 스포츠라고도 불리우기도 한다.용산에 있는 스크린 경마장은 주민들의 반대로 철거됐다.
하지만 그렇다고 경마를 나쁘게만 볼 필요는 없다고 생각한다. 외국에서는 경마가 하나의 문화이고, 경마 경기가 있는 날은 하나의 축제처럼 즐긴다. 경마 자체보다는 경마를 바라보는 시각이 중요하다고 생각한다.
무론 여기서 경마가 도박인지 아닌지를 애기하려는 것은 아니다. 그보다 재미라는 측면에서 접근하고 싶다. 도박의 위험성은 다들 알고 있을테고, 도박에 중독되서 패가망신하는 이야기도 종종 들을 수 있다. 필자는 그만큼 재미가 있기 때문에 게임처럼 중독되는 사람들이 나온다고 생각한다. 경마도 도박이 성격이 강하기 때문에, 해 보면 재미가 있다.
마지막에 역전하는 경기들이 나올 때는 '와~'하고 감탄사가 나오기도 한다. 하지만, 재미로 즐겨야 되고 여기에 빠져서 중심을 놓치는 일이 있어서는 안 되겠다.
그럼 이제 경마를 도박이 아닌 데이터 분석의 놀이감으로 여겨주기를 바란다. 다음 글에서는 경마 데이터를 수집하는 방법에 대해 알아보도록 하겠다. 자세한 내용은 아래 포스팅을 참고하도록 하자.
(참조: 경마 데이터 수집하기 - 렛츠런 파크 사이트 보기)
'Python > 파이썬 경마 분석' 카테고리의 다른 글
데이터의 유형과 분류 (0) | 2017.11.30 |
---|---|
2017년 11월 1주차 BEST 경마 경기(11월 4일) (0) | 2017.11.07 |
경마분석, 말은 거리에 따라 속력이 다를까 (4) | 2017.10.15 |
#2-3 사람들은 경마 예측을 잘 할까요 (0) | 2017.10.14 |
#2-7 decision tree 알고리즘 사용하기 (0) | 2017.10.10 |
#2-6 KNN 군집화 알고리즘 사용하기 (질병 정보 분류하기) - 파이썬, pandas, sklearn (6) | 2017.08.29 |
모델링 참고자료 (0) | 2017.08.28 |
#1-4 경마 데이터 수집하기 - 경주 결과 웹크롤링 하기 (6) | 2017.08.26 |