#1-3 경마 데이터 수집하기 - 크롤링을 위해 필요한 프로그램
목차
크롤링을 하기 위해서는 코딩을 해야 한다. 코딩을 하기 위해서는 프로그래밍 언어가 필요하다.
프로그래밍 언어에는 여러가지가 있지만, 여기서는 파이썬(python)을 이용해서 크롤링을 할 계획이다. 파이썬은 인터프리터 방식의 언어로 이해하기 쉽고, 직관적이다. 인터프리터 방식의 언어란 말은 프로그램을 한 줄씩 실행할 수 있다는 말이다. 단계별로 실행해보고 에러를 확인할 수 있어 사용하기 편리하다.
필자는 아래와 같은 환경에서 작업을 시작했다.
- 운영체제: IOS(맥용)
- 파이썬 버전: 아나콘다 파이썬 3.5 버전
- 편집기: 파이참(pycharm)
'아나콘다'는 파이썬 배포판 중의 하나라 데이터 분석과 관련된 패키지들이 포함된 버전이다.
파이썬의 강점 중의 하나는 이미 배포된 패키지를 이용하여, 원하는 프로그램을 쉽게 만들 수가 있다는 것이다. 예를 들면 그래프를 그리기 위해서는 matplotlib를, 통계 분석을 위해서는 statsmodel 등의 패키지를 이용한다. 그런데 이 패키지를 설치하는 작업이 은근히 귀찮고, 오류가 발생할 때도 있다.
아나콘다 배포판에는 데이터 분석 및 모델링을 위한 다양한 패키지가 포함되어 있어 별도로 패키지를 설치할 필요가 없다. 아나콘다에 대한 자세한 내용은 아래 포스팅을 참조해보자.
( 참조: 파이썬(python) - 아나콘다(anaconda) 배포판 설치하기 )
파이참은 파이썬 프로그래밍을 위한 통합개발환경을 제공하는 프로그램이다. 메모장이나 명령어 프롬프트에서 코딩은 가능하지만 불편하다. 편집과 컴파일, 실행을 위한 다양한 기능들이 파이참에 포함되어 있어 훨씬 쉽고 편하게 작업할 수 있다.
파이참을 설치하는 방법과 더 자세한 내용이 궁금하다면, 아래 포스팅을 참조해보자.
( 참조: 파이참 무료로 설치하기 )
( 파이참 화면 )
파이썬( 아나콘다 배포판 )과 파이참을 설치하였다면, 경마데이터를 위한 준비작업은 끝났다.
다음 포스팅에서는 1개의 경마경주결과 데이터를 수집해보도록 하겠다. 다음 포스팅의 내용은 아래 링크에서 확인할 수 있다.
( 다음: #1-4 경마 데이터 수집하기 - 경주 결과 웹크롤링 하기 )
'Python > 파이썬 경마 분석' 카테고리의 다른 글
#1-6 경마 데이터 수집하기 - SQLite라는 DB로 저장하기 (0) | 2017.08.26 |
---|---|
2017년 8월 11일 렛츠런파크 부산 5번째 경주 (0) | 2017.08.23 |
outlier(이상치, 아웃라이어) 제거하기 (0) | 2017.08.22 |
#1-2 경마 데이터 수집하기 - 렛츠런 파크 사이트 보기 (0) | 2017.08.11 |
#2-4 나만의 레이팅 시스템 만들기(elo rating) (2) | 2017.08.11 |
#3-1 모델링을 위한 패키지 - sklearn (0) | 2017.08.10 |
2017년 8월 6일 렛츠런파크 부산 4번째 경주 (0) | 2017.08.10 |
#2-2 경주 기록을 속도로 바꾸기 - pandas의 dataframe에서 문자열 다루기 (2) | 2017.08.02 |