파이썬 데이터 분석 도서 추천, 금융 데이터를 위한 파이썬!

2020. 6. 23. 07:05

파이썬으로 데이터 분석하는 사람이 늘고 있습니다. 빅데이터 분석을 얘기할 때 R과 파이썬을 많이 얘기합니다. 필자는 R보다 파이썬을 선호합니다. 문법이 직관적이고, 활용할 수 있는 패키지가 많기 때문입니다. 데이터 분석 결과를 이용하여 웹페이지 개발, 서비스를 만들기에도 파이썬이 훨씬 용이합니다.

 

금융데이터-파이썬
금융데이터-위한-파이썬

 

이렇게 생각하던 중에, 기회가 돼서 '금융 데이터를 위한 파이썬'이라는 책을 출간하게 됐습니다.

 

데이터 수집, 분석, 활용을 누구나

많은 데이터가 공개돼 있고, '파이썬'이라는 오픈소스 프로그래밍 언어를 통해 누구나 쉽게 데이터를 수집, 분석, 활용할 수 있습니다. 파이썬은 문법이 쉽고 이미 개발된 많은 패키지들이 있기 때문에, 적은 노력으로 원하는 성과를 달성할 수 있습니다. 프로그래밍의 장점 중 하나는 코드를 재사용할 수 있다는 것입니다. 여러 가지 다양한 분석방법의 코드를 익히면 이를 다른 영역의 데이터 분석에도 쉽게 활용할 수 있습니다.

 

파이썬-박스플랏
박스-플랏

 

 

어디에서부터 시작해야 하지

데이터 분석을 공부하는 방법은 여러가지가 있습니다. 필자는 분석 방법도 중요하지만, 어떤 데이터를 분석할지 결정하는 것이 더 중요하다고 생각합니다. 자신과 아무 상관이 없는 데이터는 아무리 하려고 해도 흥미가 생기지 않습니다. 그런 의미에서 금융 데이터는 데이터 분석을 공부하기 위한 좋은 재료입니다. 많은 사람들이 관심을 가지고 있는 데이터이고, 공개도 많이 돼 있습니다. 돈과도 직간접적으로 연결돼 있어 누구나 쉽게 흥미를 가질 수 있습니다.

 

파이썬-주식-차트
주식-차트

 

데이터 수집부터 분석, 활용까지

데이터 분석은 크게 데이터 수집, 분석, 활용의 3단계로 이뤄져 있습니다. 그리고 위의 3단계를 모두 책에서 다루었습니다.

 

데이터 수집은 파이썬 패키지, 오픈API, 웹크롤링을 이용하는 방법에 대해서 다루었습니다. 셀레니움을 이용하여 동적으로 변하는 웹페이지를 수집하는 방법과 스크래피를 이용하는 방법도 담았습니다. 수집한 데이터는 DB(Sqlite3, MySQL)에 저장할 수 있게 하였습니다.

 

데이터 분석은 판다스 패키지를 이용하는 방법과 seaborn, plotly를 이용해서 데이터 시각화를 통해 분석하는 방법을 다루었습니다. 분석한 데이터는 dash를 이용해서 웹 대시보드를 만들 수 있도록 했습니다.

 

데이터 활용 쪽에는 많은 사람들이 흥미를 가질 수 있는 주제를 다뤄보고자 했습니다. 여러가지 경제 지표와 부동산, 주식 데이터를 이용해 궁금한 주제에 대해 분석하고, 활용하는 방안들을 제시해 보았습니다.

 

파이썬-산점도-차트
산점도

 

금융데이터를 위한 파이썬 도서는 Yes24에서 책을 확인할 수 있습니다.

 

필자의 책에서는 부동산, 주식, 금융지표 등의 다양한 내용을 다뤘지만, 요즘 들어 많은 사람들이 주식 투자에 관심을 가지고 있습니다. 다양한 이유가 있겠지만, 코로나 이후 미국 IT기업들의 주가가 큰 폰으로 오른 것이 큰 몫을 했다고 생각합니다. 그래서 코로나 이후 애플,구글,아마존,테슬라,페이스북 등의 주가 흐름을 비교해 보았습니다. 많이 오르긴 했지만, 개별 기업별로 차이가 있었습니다.

 

책에서는 API를 이용해 부동산 데이터를 수집하는 방법을 다루었습니다. 최근에 더 쉽게 부동산 관련 데이터를 수집할 수 있는 방법을 알았습니다. 파이썬 패키지를 이용하는 방법입니다.

 

책에서 재무제표 데이터를 수집하기 위해, OPEN Dart 시스템의 API를 이용하였습니다. 최근에 이를 이용하여 개발된 파이썬 패키지를 알게 되었습니다. 함수 하나로 필요한 정보를 쉽게 수집할 수 있어 굉장히 편리합니다.

 

 

이 책의 목차는 아래와 같습니다.

Chapter1. 금융 데이터 수집하기

1.1 파이썬 패키지를 이용하여 데이터 수집하기
1.2 OPEN API를 이용하여 데이터 수집하기
1.3 웹 크롤링을 이용하여 데이터 수집하기
1.4 수집한 데이터 저장하기
1.5 실제 데이터를 수집해 보자
     1) 주요 경제지표 수집하기
     2) 부동산 실거래가 데이터 수집하기
     3) 주가 정보 수집하기
     4) 재무제표 데이터 수집하기


Chapter 2. 금융 데이터 분석하기

 

2.1 데이터 정리하기
2.2 데이터 시각화 및 분석하기
2.3 데이터 프레젠테이션하기
2.4 dash 웹 대시보드 만들기

 


Chapter 3. 금융 데이터 활용하기

 

3.1 인구 통계 시각화하기
3.2 유동성과 주가, 부동산 가격 비교하기
3.3 주요 각국의 기준금리 비교하기
3.4 금융 대시보드 만들기
3.5 매매가 대비 전세가 높은 아파트 찾아보기
3.6 강남역에서 가까운 아파트 찾아보기
3.7 배당 수익률이 높은 주식 찾아보기
3.8 퀀트 투자 따라 하기

 

 

책에서는 판다스 데이터 프레임과 시각화 패키지를 이용해서 데이터 분석하는 법을 다루었습니다. 하지만 의외로 데이터를 수집하고 무엇을 해야 할지 모르거나 무작정 작업부터 하는 사람들이 많다. pysweetviz는 데이터 탐색 초기에 확인해야 할 내용을 시각화해서 보여주어 유용합니다.

 

파이썬으로 데이터를 수집하고, 분석 및 활용하는 방법에 대해 궁금한 사람들에게 도움이 되기를 바랍니다.

 

파이썬_데이터분석_도서
금융데이터를 위한 파이썬

 

 

포트폴리오 내용을 추가로 블로그에!

책을 출간하면서 한 가지 아쉬움이 있었습니다. 바로 포트폴리오와 관련된 내용을 많이 담지 못했다는 것입니다. 주식투자를 오랫동안 해 왔지만, 개별 종목에 직접 투자하는 것은 피곤한 일입니다. 운이 좋아 약간의 수익을 봤습니다. 하지만 그동안 상폐 위기의 종목도 있었고, 상승해도 하락해도 앞을 알 수 없어 불안한 적이 많았습니다. ( 그래서 가급적 규모가 있는 기업에 투자하는 습관이 생기기도 했습니다. )

 

그러다가 한 가지 대안을 찾았습니다. 개별 종목이 아니라 ETF에 투자하는 것입니다. ETF는 국가 경제가 성장하면, 장기적인 관점에서 상승할 가능성이 높은 펀드입니다. 수수료도 저렴하고 IRP계좌를 이용하면 세액공제도 받을 수 있습니다.

 

가장 고전적인 포트폴리오 구성은 주식 60%, 채권 40%에 투자하는 것입니다. 주식과 채권이 같은 방향으로 상승 또는 하락하지 않기 때문에, 변동성을 줄이고 안정적으로 수익을 올릴 수 있습니다.

 

그래서 ETF를 이용해서 포트폴리오를 만들고 평가하는 작업을 이번 기회에 해보려고 합니다. 가장 먼저 코스피 지수를 추종하는 ETF 중 추천 상품을 알아보았습니다.

 

 

오타 수정합니다.

- 92p, def __init__(self, code="098Y001", cycle="MM", from_ym=None, to_ym=None,  args, **kwargs) -> args앞에 *가 빠졌습니다. *args로 정정합니다.

 

 

직접 쓴 책을 이렇게 추천한다고 포스팅하는 것은 민망합니다. 하지만 그만큼 열심히 썼고, 누군가에게는 큰 시작을 위한 도약이 될 수 있다고 생각합니다. 필자도 파이썬을 접하고 배움을 계속 이어오기까지 누군가의 마중물이 있었습니다. 이 책도 많은 사람들에게 좋은 씨앗이 되었으면 합니다.