超簡單台股每日爬蟲教學

今天教大家如何下載今日的股價,並從中篩選本益比較低的股票,重點是超簡單,只要15行以內就可以辦到!以後這個blog會偶爾釋放一些程式片段,讓大家組裝成一個功能健全的回測+當日選股的架構。

大家最終最終會學到:

  1. 如何爬取每日資訊
  2. 如何爬取財報
  3. 利用上述資料來篩選股票
  4. 觀察篩選後的股票在歷史回測中是否能獲利
  5. 每日計算當天獲利與明天操作

只要長期追蹤這個blog,當我某天心血來潮就會放上一些code,讓大家能夠自行學習並拼裝成自己的系統,以下是我的系統的截圖:

magnet1

可以看到我的系統內每天都有數個程式交易策略在運行,選股策略每天會公布隔天的操作方式,也可以利用這個介面編寫回測,並驗證策略的效果。磁力回測是我們之前黑客松比賽用的名字,其實我們是台大黑客松第一名得獎團隊,後來又於中信金控黑客松得到第一名,才開始了量化回測之路,現在由於大家比較忙,目前只剩我還在使用這套系統而已XDD。

這套系統非常完善,我們編寫了幾套策略在上面,獲利還算OK,當然我不可能直接把這套系統公布出來,畢竟這是大家一起做的心血,然而有一些簡單卻重要的功能,我會在這個blog上面分享給大家。只要持續關注本blog,最後大家可以拼裝出自己的系統!

那就廢話不多說,來看看如何使用 python 爬取當天大盤,首先,我們得先安裝 python 的 package:

  1. requests :幫我們抓取 csv 檔
  2. pandas:幫我們選股

假如懶得安裝的話,也可以用雲端colab直接執行程式,來看看程式怎麼運作的喔!
https://colab.research.google.com/drive/1MgGot14B_nynU4nf4SeJF2UbphubXO8o

然後就可以開始了,首先抓取台股的資料表:

crawler

import requests
from io import StringIO
import pandas as pd
import numpy as np

datestr = '20180131'

# 下載股價
r = requests.post('https://www.twse.com.tw/exchangeReport/MI_INDEX?response=csv&date=' + datestr + '&type=ALL')

# 整理資料,變成表格
df = pd.read_csv(StringIO(r.text.replace("=", "")), 
            header=["證券代號" in l for l in r.text.split("\n")].index(True)-1)

# 整理一些字串:
df = df.apply(lambda s: pd.to_numeric(s.astype(str).str.replace(",", "").replace("+", "1").replace("-", "-1"), errors='coerce'))

# 顯示出來
df.head()

基本上這個 code 可以直接複製貼上就可以用了!我們可以把df印出來:

allstock

可以看到我們有了所有上市的股票,當天所有的資料!

接下來就是選股時間,我們想要選擇 本益比 < 15 的所有股票:

select stocks

df[pd.to_numeric(df['本益比'], errors='coerce') < 15]
pe15

搭拉!是不是發現選股好簡單!
我們之後還會有更多的教學,讓大家不只是選取本益比,還有更多更多的財報數據喔!

但是有個問題,以上的範例只是爬取一天的股價,要是我想要爬很多的的要怎麼辦呢?
可以參考時間序列實做這篇文章
將所有的股價整理成時間序列喔!

FinLab - 韓承佑

嗨大家好,我是韓承佑,FinLab創辦人,畢業於巴黎薩克雷大學資工博士,目前擔任臺灣量化交易協會 學術顧問、台北商業大學 創新育成中心 創業技術顧問與上市科技公司 量化交易顧問。當初,我喜歡寫程式、無意間因為軟體比賽接觸Fintech,從此開始了財經跟程式的學習之路。我們成立 FinLab 量化投資部落格,用自己研發的軟體,對台灣股市做大量快速的實驗。希望可以在量化投資的路上,當大家的「武器製造商」!