모델링 참고자료

2017. 8. 28. 22:33


구글과 네이버에 검색 해 보면, 기존에 경마를 예측하기 위한 많은 시도들과 문서, 논문들을 확인할 수 있습니다.


국내에도 경마 예측을 데이터 모델링 관점에서 다룬 문서들이 많이 있습니다.




서울 경마 경기 우승마 예측 모형 연구 (출처: 국가과학기술정보센터)



link를 클릭하시면, 원문을 보실 수 있습니다. 모델을 만들기 전에 읽어보면 개념을 잡는데 도움이 될 듯 합니다. 


순위를 예측하는 classify 모형하고, 기록을 예측하고 그 순서대로 순위를 부여하는 방법이 있는데. 후자가 예측력은이 더 좋다고 합니다.





해외에는 물론 더 많이 있고요. horse racing predict로 검색하시면 관련된 논문도 있네요.

 


AMAZON MACHINE LEARNING: HACKING HORSE RACING FOR PROFIT



해외 사례이기 때문에, 국내에 적용하기에는 불가능한 부분들이 있습니다. morning odds라는 베팅 사이트에 있는 odds값을 가져다 썼다고 하는데,


국내에는 그런 값을 가져올 수 있는 싸이트는 없는 것으로 알고 있습니다.


이 문서는 아마존 앱서비스를 이용해서 구축한 모델이라고 하는데, 자신도 모델을 만들어서 베팅하고 그 정확성에 놀랐다(?)고 하는데요. 


전 그냥 믿거나 말거나 인 것 같습니다. 약간 AWS 홍보 글 같기도 하고요. 





경마 예측에 대한 최고의 모델링 방법이 무엇인지 토론한 내용들


Gambling: What would be a good method or algorithm to predict the winner of a horse race?



이해하기 어렵기 때문에, 구글 번역을 사용하시는 것을 추천드립니다.


probabilistic matrix factorization을 적용하면 된다는 애기가 나오는데, 무슨 애기인지 이해하기 난해하더라고요.


잘 아시는 분 있으면, 설명해 주시면 감사하겠습니다.





경마보다 어려운 농구경기를 예측


- 주소: http://blog.smellthedata.com/2011/02/thoughts-on-modeling-basketball.html(현재는 페이지가 닫힌 듯 하다)




농구 경기에서 우승하는 팀을 예측하고 그 정확도를 높이기 위한 방법을 고민한 내용으로, 


DB에 있는 데이터가 아닌 관측을 통해 새로 생성한 변수를 활용하고자 하는 아이디어가 인성적입니다.


모델링에 대한 지식도 얻을 수 있고, 변수 추가에 대한 아이디어도 많이 얻을 수 있는 것 같습니다.




Predicting Housing Prices with Linear Regression using Python, pandas, and statsmodels (출처: Learn DataSci)



pandas와 statsmodel 패키지를 이용하여, 회귀분석 모형을 만드는 방법에 대해


변수 선택에서부터 차례대로 설명해 주는 문서입니다. 파이썬을 이용해서 어떤 절차로 모델을 만드는 지 그 방법에 대해서 알 수 있습니다.




일부 자료들은 모델을 만들어서 수익을 볼 수 있다는 내용도 있는데요. 사실 그대로 믿기는 어렵습니다.


일부 배당이 높은 경기가 우연히 모델 결과에 포함되어 수익이 과대하게 나올 수도 있습니다.




하지만, 모델을 구상할 때 어떤 변수와 모델을 사용할지에 대해서 아이디어를 얻을 수 있기에 유용한 듯 합니다.




감사합니다.

댓글()