#1-6 경마 데이터 수집하기 - SQLite라는 DB로 저장하기
목차
다수의 경주 결과를 저장하기 전에 어떤 포맷으로 저장할 지 한 번 생각해보도록 하겠습니다.
우선 떠오르는 것은 엑셀이나 csv입니다. 하지만 엑셀은 대용량의 데이터를 저장하기가 어렵고,
csv는 나중에 수정이나 삭제, 조회 등의 작업을 할 때 조금 불편합니다.
그리고, 다수의 경기를 크롤링을 하다 보면 for문을 이용하여 몇 시간 동안 작업을 해야 합니다.
중간에 인터넷 연결상의 문제로 특정 날짜는 에러가 날 때가 있는데요. 그럴 때는 그 날짜만 중간에 작업해서 넣어줘야 합니다.
물론 csv파일로도 해당 작업을 할 수 있고, 저도 csv로 처음에는 저장하였습니다.
하지만 SQLite를 활용하여 DB 형태로 저장하고 나니 작업하기가 훨씬 좋았습니다.
그래서 나중에 작업하기 좋은 DB형태로 저장해 보도록 하겠습니다.
SQLite를 이용하면 무료료 DB 형태로 저장할 수 있습니다.
SQLite는 MySQL나 PostgreSQL와 같은 데이터베이스 관리 시스템이지만,
서버가 아니라 응용 프로그램에 넣어 사용하는 비교적 가벼운 데이터베이스이다. (출처: 위키피디아)
SQLite를 사용하기 위해서는, SQLite 패키지를 import 하면 됩니다.
그리고 저장한 DB 를 조회하고 수정/삭제 등을 편하게 사용하기 위해서 그래픽 인터페이스 기반의
DB Browser for SQLite를 설치하시면 좋습니다.
DB Browser for SQLite를 설치하지 않아도, 사용하는데는 아무런 문제가 없습니다.
하지만 DB가 어떻게 적재되어 있고, 특정 날짜의 값을 갑자기 조회하고 싶거나 할 때 활용하면 편리하게 사용할 수 있습니다.
( SQLite3 홈페이지 )
SQLite3를 설치하기 위해서는, 아래 홈페이지를 방문하도록 하자.
( 참조: SQLite3 홈페이지 바로가기 )
다음 포스팅에서는 에는 다수의 경기결과를 불러오고, SQLite형태로 저장하였다. 자세한 내용은 아래 포스팅을 참조하도록 하자.
( 참조: #1-7 경마 데이터 수집하기 - 다수의 경기를 DB형태로 저장하기 )
SQLite의 기본문법인 CREATE TABLE, SELECT, INSERT, DELETE에 대해서 궁금하다면, 아래 포스팅을 참조하도록 하자.
( 참조: SQLite의 기본 문법-CREATE, SELCT, INSERT, DELETE )
'Python > 파이썬 경마 분석' 카테고리의 다른 글
#2-6 KNN 군집화 알고리즘 사용하기 (질병 정보 분류하기) - 파이썬, pandas, sklearn (6) | 2017.08.29 |
---|---|
모델링 참고자료 (0) | 2017.08.28 |
#1-4 경마 데이터 수집하기 - 경주 결과 웹크롤링 하기 (6) | 2017.08.26 |
#1-5 경마 데이터 수집하기 - 경주 결과를 표 형태로 저장하기 (3) | 2017.08.26 |
2017년 8월 11일 렛츠런파크 부산 5번째 경주 (0) | 2017.08.23 |
outlier(이상치, 아웃라이어) 제거하기 (0) | 2017.08.22 |
#1-2 경마 데이터 수집하기 - 렛츠런 파크 사이트 보기 (0) | 2017.08.11 |
#1-3 경마 데이터 수집하기 - 크롤링을 위해 필요한 프로그램 (0) | 2017.08.11 |