#1-8 경마 데이터 수집하기(7) - 경기 결과를 다 크롤링해야 하나요?

목차

    2017. 7. 28. 15:52


    앞에서 크롤링을 통해 경마 정보를 DB형태로 저장하는 방법에 대해 알아보았습니다.


    그러나, 실제로 이렇게 크롤링을 통해 DB형태로 만드는 것이 시간도 많이 소요되고


    지루하기 때문에, 제가 크롤링한 DB를 다운 받을 수 있도록 블로그에 올려 놓도록 하겠습니다.


    데이터 유형을 제가 일일이 다 지정하지 않았기 때문에, 


    사용하실 때는 숫자는 int나 float형으로 변환해서 사용하셔야 된다는 점은 미리 말씀드립니다.




    - 기간: 2012년 1월~2017년 7월23일


    - 내용: 경기결과 및 훈련 정보 등 10개 테이블


    - 다운방법: 아래 파일들을 다운 받아서, 압축을 해제하시면 됩니다.

                     

    race.zip.001

    race.zip.007

    race.zip.008

    race.zip.006

    race.zip.005

    race.zip.004

    race.zip.003

    race.zip.002



    - 포맷: SQLite DB




    10개 테이블이 어떤 테이블인지 설명드리겠습니다.


    10개의 테이블은 제가 렛츠런파크나 말형통정보 싸이트에서 크롤링한 데이터입니다. 






    1. ban: 경주 중에 제재를 받은 이력



    경주중에 제재를 받은 내역들이 저장되었습니다. 주의도 있고, 출전정지, 주행심사 등의 값들도 저장되어 있습니다.




    2. cure: 경주마가 치료를 받은 내역



    경주마 치료 내역은 질병도 다양하고, 특정 질병들은 발병건수도 많지 않기 때문에 작업하기가 힘듭니다.


    중간에 보시면 콤마(,)로 되어 있는 부분도 다 일일이 분리를 해 줘야 분석이 가능한데요. 


    이 부분은 다음에 시간이 되면 코드를 따로 올려놓도록 하겠습니다.



    3. grade: 경주마의 등급 변동 이력



    경주마의 등급은 유용한 변수 중에 하나입니다. 


    다만, 등급이 고정되어 있지는 않고 계속해서 변하기 때문에 경기를 한 날짜에 맞는 등급을 설정해 주는 작업은 필요합니다.




    4. race_record: 경주마의 경주 기록



    경주마의 과거 경주를 한 기록들입니다. 경주마의 경주기록도 중요한 변수 중의 하나입니다.


    최근 경기로 할 지 3개월 평균으로 할 지 등은 고려해 봐야 하는데, 제가 해 봤을 때는 직전 경기가 가장 유용했던 것으로 기억합니다.



    5. race_test: 경주마의 주행심사 기록 (실제 경기는 아니고, 경기에 앞서 테스트를 한 기록이라고 

                         보시면 됩니다.)




    새로 편성된 말은 이전 경기기록이 없기 때문에, 그와 유사한 주행심사 기록을 참고할 수 있습니다.


    하지만, 주행심사는 실제 경기는 아니기 때문에 활용하기에 좀 아쉽기는 합니다.


    일부 말들도 이전 경기가 주행 심사인 경우도 있습니다.


    6. rider: 심판의 지적사항(서울경기)



    기수의 지적사항이 있습니다. 


    처분종류에 따른 처분 결과는 어떻게 되는지 잘 모르겠지만, 경기에 영향을 미칠 것 같아 저장해 놓았습니다.



    7. rider_bu: 심판의 지적사항(부산경기)


    동일한 기수의 지적사항입니다. 서울,부산 경기를 따로 저장해 놓았습니다.




    8. sudo_total: 경주마 혈통정보 싸이트의 출전마분석정보



    경주마 혈통정보 싸이트에 가면, 경주마의 다양한 정보들이 공개되어 있습니다.


    렛츠런 파크 싸이트에 공개되어 있지 않은 정보들도 있어서, 유용하게 활용할 수 있습니다.



    9. total_hn_bu: 경주 결과 (서울, 부산)


    경주 결과를 저장해 놓은 테이블입니다.


    어느 말인 1위 했는지, 배당은 어떻게 됐는지에 대한 정보가 있습니다.


    말체중, 연령 등의 정보가 있어서 이 테이블만 가지고도 테스트 버전의 모델을 만들어 볼 수 있습니다.



    10. train: 경주마의 훈련 내역



    경주마들의 훈련 내역입니다.


    수영훈련을 하는 경우에는 수영훈련 내역이 저장되어 있습니다.




    여기 있는 정보들을 가지고, 변수도 새로 만들어보고 분석도 해 볼 수 있습니다.


    물론, 어떤 말이 1등 할 지에 대한 모델도 만들어 볼 수 있고요.


    다운받아서 사용하시는 분들은, 댓글을 남겨 놓으시면 저에게 도움이 많이 될 거 같습니다.


    혹시, 더 필요한 내용이 있다면 남겨 주세요.



    감사합니다.