#1-8 경마 데이터 수집하기(7) - 경기 결과를 다 크롤링해야 하나요?
목차
앞에서 크롤링을 통해 경마 정보를 DB형태로 저장하는 방법에 대해 알아보았습니다.
그러나, 실제로 이렇게 크롤링을 통해 DB형태로 만드는 것이 시간도 많이 소요되고
지루하기 때문에, 제가 크롤링한 DB를 다운 받을 수 있도록 블로그에 올려 놓도록 하겠습니다.
데이터 유형을 제가 일일이 다 지정하지 않았기 때문에,
사용하실 때는 숫자는 int나 float형으로 변환해서 사용하셔야 된다는 점은 미리 말씀드립니다.
- 기간: 2012년 1월~2017년 7월23일
- 내용: 경기결과 및 훈련 정보 등 10개 테이블
- 다운방법: 아래 파일들을 다운 받아서, 압축을 해제하시면 됩니다.
- 포맷: SQLite DB
10개 테이블이 어떤 테이블인지 설명드리겠습니다.
10개의 테이블은 제가 렛츠런파크나 말형통정보 싸이트에서 크롤링한 데이터입니다.
1. ban: 경주 중에 제재를 받은 이력
경주중에 제재를 받은 내역들이 저장되었습니다. 주의도 있고, 출전정지, 주행심사 등의 값들도 저장되어 있습니다.
2. cure: 경주마가 치료를 받은 내역
경주마 치료 내역은 질병도 다양하고, 특정 질병들은 발병건수도 많지 않기 때문에 작업하기가 힘듭니다.
중간에 보시면 콤마(,)로 되어 있는 부분도 다 일일이 분리를 해 줘야 분석이 가능한데요.
이 부분은 다음에 시간이 되면 코드를 따로 올려놓도록 하겠습니다.
3. grade: 경주마의 등급 변동 이력
경주마의 등급은 유용한 변수 중에 하나입니다.
다만, 등급이 고정되어 있지는 않고 계속해서 변하기 때문에 경기를 한 날짜에 맞는 등급을 설정해 주는 작업은 필요합니다.
4. race_record: 경주마의 경주 기록
경주마의 과거 경주를 한 기록들입니다. 경주마의 경주기록도 중요한 변수 중의 하나입니다.
최근 경기로 할 지 3개월 평균으로 할 지 등은 고려해 봐야 하는데, 제가 해 봤을 때는 직전 경기가 가장 유용했던 것으로 기억합니다.
5. race_test: 경주마의 주행심사 기록 (실제 경기는 아니고, 경기에 앞서 테스트를 한 기록이라고
보시면 됩니다.)
새로 편성된 말은 이전 경기기록이 없기 때문에, 그와 유사한 주행심사 기록을 참고할 수 있습니다.
하지만, 주행심사는 실제 경기는 아니기 때문에 활용하기에 좀 아쉽기는 합니다.
일부 말들도 이전 경기가 주행 심사인 경우도 있습니다.
6. rider: 심판의 지적사항(서울경기)
기수의 지적사항이 있습니다.
처분종류에 따른 처분 결과는 어떻게 되는지 잘 모르겠지만, 경기에 영향을 미칠 것 같아 저장해 놓았습니다.
7. rider_bu: 심판의 지적사항(부산경기)
동일한 기수의 지적사항입니다. 서울,부산 경기를 따로 저장해 놓았습니다.
8. sudo_total: 경주마 혈통정보 싸이트의 출전마분석정보
경주마 혈통정보 싸이트에 가면, 경주마의 다양한 정보들이 공개되어 있습니다.
렛츠런 파크 싸이트에 공개되어 있지 않은 정보들도 있어서, 유용하게 활용할 수 있습니다.
9. total_hn_bu: 경주 결과 (서울, 부산)
경주 결과를 저장해 놓은 테이블입니다.
어느 말인 1위 했는지, 배당은 어떻게 됐는지에 대한 정보가 있습니다.
말체중, 연령 등의 정보가 있어서 이 테이블만 가지고도 테스트 버전의 모델을 만들어 볼 수 있습니다.
10. train: 경주마의 훈련 내역
경주마들의 훈련 내역입니다.
수영훈련을 하는 경우에는 수영훈련 내역이 저장되어 있습니다.
여기 있는 정보들을 가지고, 변수도 새로 만들어보고 분석도 해 볼 수 있습니다.
물론, 어떤 말이 1등 할 지에 대한 모델도 만들어 볼 수 있고요.
다운받아서 사용하시는 분들은, 댓글을 남겨 놓으시면 저에게 도움이 많이 될 거 같습니다.
혹시, 더 필요한 내용이 있다면 남겨 주세요.
감사합니다.
'Python > 파이썬 경마 분석' 카테고리의 다른 글
#1-2 경마 데이터 수집하기 - 렛츠런 파크 사이트 보기 (0) | 2017.08.11 |
---|---|
#1-3 경마 데이터 수집하기 - 크롤링을 위해 필요한 프로그램 (0) | 2017.08.11 |
#2-4 나만의 레이팅 시스템 만들기(elo rating) (2) | 2017.08.11 |
#3-1 모델링을 위한 패키지 - sklearn (0) | 2017.08.10 |
2017년 8월 6일 렛츠런파크 부산 4번째 경주 (0) | 2017.08.10 |
#2-2 경주 기록을 속도로 바꾸기 - pandas의 dataframe에서 문자열 다루기 (2) | 2017.08.02 |
SQLite3 파이썬 pandas 데이터프레임으로 불러오기 (0) | 2017.07.31 |
#1-7 경마 데이터 수집하기 - 다수의 경기를 SQLite3 DB에 저장하기 (2) | 2017.07.28 |