pandas – FinLab

產業資料庫的基礎應用

Ben — Tue, 20 Dec 2022 06:35:19 +0000

產業資料庫重要嗎？如果你想讓選股技巧更上一層樓，勢必會進階到產業分析。
投資標的的優劣評價，除了自己跟自己比，例如近期財報是否較過去改善，另一個判斷企業競爭力的評價方式，就是跟同業比，好壞都是比較而來的，選對比較基準才讓評價有意義。
除了同業個股比較，產業資料庫的另一個主要應用在找出族群趨勢，如果一個產業的企業的營收或股價趨勢都向上，那代表該產業蒸蒸日上，有產業景氣良好的基本面護體，更能增加投資判斷把握度與可解釋性，排除單一個股炒作的個別性，更進階的應用甚至可延伸到概念股落後補漲效應。
這一切的應用的基礎都建構在「產業資料庫」的分類，這篇教學文章將說明FinLab的「產業題材資料庫」的簡單應用，並教你如何用 Python 與 Pandas 基礎語法去「客製化」自己的產業分類，讓產業資料庫更豐富。

產業資料

FinLab 的細產業主題資料來源主要取自「產業價值鍊資訊平台」，少部分為自定義分類。從 FinLab資料庫只要一行程式碼就能下載全部的細產業資訊，讓你輕鬆以此基礎做後續應用。要注意的是此份資料僅限 VIP 使用。
產業價值鍊資訊平台會將主產業再分拆上下游的細產業，讓你更精細的去比較，否則證交所一般分類光半導體就近百檔，比較效果相對籠統。

資料庫欄位

每家公司所屬產業的資訊放在 catergory 內，category 欄位的型態是文字格式，所有產業分類會放入 List 後再包成文字型態，從該資料得知公司分別有哪些產業的標籤。
例如1101台泥的產業序列裡有主產業的水泥，也有細產業「水泥:水泥成品」、「水泥:水泥熟料」(格式為「主產業:細產業 or 主產業」)。

簡單查詢應用

如果我們想查詢哪些公司屬於水泥產業？我們可以運用pandas內的 Series.str.contains，讓我們快速分類出產業名單，如下範例，只要「category」欄位內含「水泥」兩字，就會被納入範圍。

from finlab import data
from finlab.backtest import sim

# 取出產業題材
themes = data.get('security_industry_themes')

# 選出產業包含「水泥」的公司
ind1 = themes[themes['category'].str.contains('水泥')]

contains 語法支援 or 的運用，如果我們今天想選出產業包含「水泥」或「建材營造」的公司，可以使用以下語句，使用’|’的符號做邏輯運算串連：

ind2 = themes[themes['category'].str.contains('水泥|建材營造')]

簡單回測範例

「想挑出水泥產業中，本益比低於水泥產業本益比中位數之個股當投資組合」

實作很簡單，用前述contains篩選的stock_id，套入本益比資料做欄位圈選，就能限定資料範圍，再運用 median(axis=1)，計算每日產業本益比中位數，axis=1的用途在取每一期(橫列)的中位數。

from finlab import data
from finlab.backtest import sim

# 取出產業題材
themes = data.get('security_industry_themes')

# 選出產業包含「水泥」公司
ind = themes[themes['category'].str.contains('水泥')]
pe = data.get('price_earning_ratio:本益比')
ind_pe = pe[list(ind['stock_id'])]

# 計算每日產業本益比中位數,axis=1的用途在取每一期(橫列)的中位數
ind_pe_med = ind_pe.median(axis=1)

# 選出本益比小於同業本益比中位數且本益比小於25的公司
position = (ind_pe < ind_pe_med) & (ind_pe < 25)

# 回測
report = sim(position, upload=False)
report.display()

自定義產業分類

有時我們發現產業價值鏈資訊平台的分類仍不能滿足需求，像是他缺少概念股的標籤資料，學會Python 的好處在我們可以任意擴展資料，去自定義新增的分類。
使用開發好的 create_new_industry_themes 的函式去創建新的產業分類，其中 additional_themes 變數控制新增標籤，格式為[([目標群],[標籤群]),...]。

例如以下範例對’6684′, ‘6756’, ‘3014’ 新增 ‘元宇宙:祖克柏概念股’ 的標籤，對’1342′, ‘1584’新增’航太週邊:空中巴士概念股’的標籤，對’2342′, ‘3317’, ‘4923’, ‘5299’, ‘6287’ 增加兩個標籤’半導體:基礎元件’, ‘通訊產業:通訊元件’。

def add_sub_group(dataframe, stock_list: list, theme_list: list):
    try:
        dataframe.loc[stock_list]['category'] = dataframe.loc[stock_list]['category'].apply(
            lambda s: s.extend(theme_list))
    except KeyError:
        print('stock_list not in index.')
    return dataframe


def process_sub_group_list(sub_group_list):
    sub_group_list.extend(list(set({i[:i.index(':')] for i in sub_group_list if ':' in i})))
    return sorted(list(set(sub_group_list)))


def create_new_industry_themes(additional_themes):

    df = data.get('security_industry_themes')
    df = df.set_index(['stock_id', 'name'])
    df['category'] = df['category'].apply(lambda s: eval(s))

    if additional_themes:
        for stock_list, theme_list in additional_themes:
            df = add_sub_group(df, stock_list, theme_list)

    df['category'] = df['category'].apply(lambda s: process_sub_group_list(s))
    df = df.astype(str)
    df = df.reset_index()
    return df


additional_themes = [
    (['6684', '6756', '3014'], ['元宇宙:祖克柏概念股']),
    (['1342', '1584'], ['航太週邊:空中巴士概念股']),
    (['2342', '3317', '4923', '5299', '6287'], ['半導體:基礎元件', '通訊產業:通訊元件']),
]


new_themes = create_new_industry_themes(additional_themes)
# 檢查6684 是否成功新增標籤
new_themes[new_themes['stock_id']=='6684']['category'].values

執行完含式後，會發現 new_themes 已有新增資料～之後就可以用自定義後的 new_themes 做產業分析囉！

小結

colab程式範例

學會基礎的產業資料的資料處理技巧後，就可以進行許多分析與策略開發，像是「產業面選股策略｜同業本益比比較法」就是延伸的應用喔！
如果有自己的產業分類標籤可以加入，那就會進化成個人獨有的資料，可能創造出不易被模仿的策略或產業觀察指標。

國安基金與庫藏股應用教學｜政府軍急了嗎？

Ben — Mon, 17 Oct 2022 05:37:42 +0000

2022 可說是亂世風雲，中國防疫政策、俄烏戰爭、通膨、美國大幅升息、企業庫存暴增…等等利空連發重挫市場，許多市場指數到 2022年10月都回檔30%，台股也在護國神山走山下，從 18000 點下殺到 13000 點以下，明顯跌入熊市。
令人不安的是救市神主牌國安基金在 2022/7/12 已進場護盤，卻仍止不住跌勢，被質疑是否過早進場送頭？如果連最後一張王牌都無法扛住，那確實麻煩大了。
本篇文章將用 Finlab 模組與 Pandas 實作 國安基金與庫藏股 的簡易趨勢分析，讓你更加熟悉 Pandas 各種財經時序資料處理的手法。最後輸出的結果，我們會看到國安基金這次是否和以往不一樣？

庫藏股資料處理

透過FinLab資料庫，我們可取得庫藏股資訊，在之前的「庫藏股實施家數｜崩盤後的長線抄底訊號｜左側交易」文章中有相關實作，不過上篇是用「董事會決議庫藏股的日期」當訊號，這次換示範另一種寫法，使用「庫藏股實施期間」來當訊號，更能精準反應當下有在護盤的公司大概的總家數。

程式範例

import pandas as pd
from finlab import data

預定買回期間_起 = data.get('treasury_stock:預定買回期間-起').unstack()
預定買回期間_迄 = data.get('treasury_stock:預定買回期間-迄').unstack()
# date 為董事會決議庫藏股日期
treasury_stock = pd.DataFrame({'預定買回期間_起':預定買回期間_起, '預定買回期間_迄':預定買回期間_迄}).dropna(how='all')
treasury_stock.index.names = ['stock_id', 'date']

# 產生實施期間序列
treasury_stock['period'] = [pd.date_range(s,e).to_list() for s,e in zip(treasury_stock['預定買回期間_起'],treasury_stock['預定買回期間_迄'])] 

# 使用 explode 展開資料
treasury_stock_period = treasury_stock.explode('period')
treasury_stock_period = treasury_stock_period[['period']]

# 計算每日預計實施庫藏股的公司家數
treasury_count = treasury_stock_period.groupby(['period'])['period'].count()
benchmark = data.get('benchmark_return:發行量加權股價報酬指數')

# 日期索引對應加權大盤報酬指數
treasury_count = treasury_count.reindex(benchmark.index).fillna(0)
treasury_count.plot()

程式說明

組裝資料
將「預定買回期間起迄」兩份資料使用 unstack 方法將格式從 pivot 轉換成 Series，再組裝成 DataFrame。
產生庫藏股實施日日期序列
將開始與結束日期傳入 date_range 方法，得到日期序列。
統計每日預計實施庫藏股的公司家數
在使用 groupby 與 count 統計每日總家數前，要先使用 explode 方法展開上一個步驟得到的日期資料。
日期索引重置
為了等一下畫圖顯示趨勢，將庫藏股家數趨勢的日期對應加權大盤報酬指數，讓兩條序列長度一致，方便呈現。
簡易繪圖檢視
最後使用dataframe內建的 plot 方法，呈現剛剛整理的數據

取得國安基金資料

現在 FinLab 的資料庫可以取得國安基金的進出場基本資訊了，詳見資料庫說明。
簡單一行就能取出囉 data.get('national_security_fund')
目前國安基金共啟動8次。

趨勢繪圖

將國安基金實施期間與庫藏股趨勢疊合，比較兩者訊號時間點。

程式範例

import plotly.graph_objects as go
from plotly.subplots import make_subplots

# Create figure with secondary y-axis
fig = make_subplots(specs=[[{"secondary_y": True}]])

# Add traces
fig.add_trace(
    go.Bar(x=treasury_count.index, y=treasury_count.values, marker_color='navy',name="庫藏股實施家數"),
    secondary_y=False,
)

fig.update_traces(marker_color = 'rgba(0,0,250, 0.5)',
                  marker_line_width = 0,
                  selector=dict(type="bar"))

# 大盤指數
fig.add_trace(
    go.Scatter(x=benchmark.index, y=benchmark['發行量加權股價報酬指數'],line = dict(color = '#2C191B'), name="發行量加權股價報酬指數"),
    secondary_y=True,
)

# 國安基金實施期間
for i,row in national_security_fund.iterrows():
    fig.add_vrect(x0=row['啟動時間'], x1=row['退場時間'], 
                  annotation_text=row['時空背景'], annotation_position="top left",
                  fillcolor="green", opacity=0.25, line_width=0)
    
# Add figure title
fig.update_layout(
        title={
            'text': "庫藏股與國安基金護盤趨勢",
            'x': 0.49,
            'y': 0.9,
            'xanchor': 'center',
            'yanchor': 'top'},
        legend=dict(
            orientation="h",
            yanchor="bottom",
            y=1.02,
            xanchor="right",
            x=0.3
        )
)

# Set x-axis title
fig.update_xaxes(title_text="date",
                 rangeselector=dict(
                     buttons=list([
                         dict(count=1,
                              label="1y",
                              step="year",
                              stepmode="backward"),
                         dict(count=3,
                              label="3y",
                              step="year",
                              stepmode="backward"),
                         dict(count=5,
                              label="5y",
                              step="year",
                              stepmode="backward"),
                         dict(count=10,
                              label="10y",
                              step="year",
                              stepmode="backward"),
                         dict(step="all")
                     ])
                 ),
                 rangeslider=dict(
                     visible=True
                 ),
                 type="date")



# Set y-axes titles
fig.update_yaxes(title_text="count", secondary_y=False)
fig.update_yaxes(title_text="benchmark", secondary_y=True,showgrid=False)
fig.show()

救市趨勢分析

政府救市三步

通常政府救市的步驟如下

1.鼓勵企業實施庫藏股

2.限空令 or 找法人喝咖啡

3.國安感冒糖漿(國家金融安定基金)

庫藏股對政府最省事，因為不用自己出一毛錢就可能有效果，當然別人先動手最好。
企業內部人往往對自家公司價值最了解，有些又有質押股票面臨市值下修的壓力。一般來說，庫藏股這類回燒公司資金的事，經營者多會考量價格是否合理(進入低檔)才買入。

從圖表發現，前幾次國安基金進場前，庫藏股家數(藍柱)都會先明顯變多，內部人護盤也撐不住了，國家隊才會進場。
但這次很不一樣，雖然政府在7月初已經鼓勵企業實施庫藏股，卻沒啥公司響應，於是殺盤持續。即使現在跌多，庫藏股仍靜悄悄，是不是股價不到公司派目標價 (前幾年噴太多)？還是公司派看到未來景氣風險，要保留資金過冬？
還沒等到公司派進場，政府軍這次等不及了，先啟動國安基金，發現還是抵擋不住殺盤，才再祭出「限空令」，SOP似乎和以前不一樣，就怕大招放完後仍抵擋不住，這次沒庫藏股先擋第一線，要自己多扛一點。

如果政府招式出盡後，還是繼續殺呢？那很可能國安基金這個六連勝的底部訊號也會失效，讓我們繼續看下去 ~

下一篇來教大家怎麼將庫藏股和國安基金進出場化作大盤風險濾網加入策略。

程式範例檔

colab連結

註冊 FinLab 量化平台 VIP 才能取得全時段數據喔。

如何用指標計分來選股? | Python 資料分級處理

Ben — Tue, 27 Sep 2022 05:09:39 +0000

前陣子韓老師線上直播時，有同學許願想幫標的打分數，利用分數來篩選。

今天FinLab的神燈精靈就來幫你實現願望，示範如何用 pandas 撰寫指標計分，並實際應用到策略開發。

方法一、Pandas qcut

qcut 是 Pandas模組中基於分位數的離散化函數。剛好適用這位同學的需求。簡單打個範例來看看qcut的效果。

import pandas as pd
# range(20)數列按10分位數切分級
pd.qcut(x=range(20), q=10, labels=False)
# output
# array([0, 0, 1, 1, 2, 2, 3, 3, 4, 4, 5, 5, 6, 6, 7, 7, 8, 8, 9, 9])

從以下範例中，可以得知x參數為要處理的1維序列資料 ; q為分級的設定 ; label如果為 False，則返回整數分級。
輸出結果將 1-20 的序列分成 10 等份，注意分級從 0 開始。

認識了qcut以後，我們要將該函數應用到FinLab的資料格式，就可以得到財務指標分級資料。

with data.universe(market='TSE_OTC'):
    df = data.get('fundamental_features:ROE稅後')
    rank_df = df.T
    for date in rank_df.columns:
        # 方便認知，將0~9變1~10
        rank_df[date] = pd.qcut(rank_df[date].rank(method='first'), 10, labels=False)+1
    rank_df = rank_df.T

方法二、程式簡化

但 qcut 函數有個缺點是他不適用 DataFrame 資料型態，只能用在序列，所以我們要一行行操作再組裝，程式碼變的瑣碎。
其實我們能用 rank 函數直接去做簡化，運用函數的axis參數做整列分級運數，pct參數將數值轉成百分位數以方便之後使用 mul 方法將數據乘上欲分級距，得數值後再將數據全+1，讓最小分級從1開始，而不是0開始，最後使用「無條件捨去法 (np.floor)」取得級距值。
最後由於排第一名的會跑到多出來的 rank (因為只有他是滿分 1 分)，所以要加上clip去限縮分數上限，ex:若用10等分級距，第一名會是11分，用clip讓數據限縮到10分內。
程式範例如下：

with data.universe(market='TSE_OTC'):
    rank_df = (data.get('fundamental_features:ROE稅後')
        .rank(axis=1, pct=True, ascending=True)
        .mul(10)
        .add(1)
        .apply(np.floor).clip(0,10))

程式是不是變乾淨很多呢？

函數封裝

def qcut_feature(data_name='fundamental_features:ROE稅後', q_range=10, ascending=True):
    import numpy as np

    rank_df = (data.get(data_name)
               .rank(axis=1, pct=True, ascending=ascending)
               .mul(q_range)
               .add(1)
               .apply(np.floor).clip(0,q_range))
    return rank_df

參數說明如下：

data_name：設定要處理的FinLab資料庫中的財務指標。
q_range：變數設定分割的級距。
ascending：的用途在有些指標我們希望數值越高則分數越高，如ROE ; 有些指標我們希望數值越低則分數越高，如負債比率，所以用 ascending 來控制指標升降屬性，ascending=False時，會反轉序列排序，產生數值越低則分數越高的作用。

來執行程式並來檢視一下數據吧！可以發現護國神山的 ROE 長年都在前段班。

roe_score = qcut_feature(data_name='fundamental_features:ROE稅後')
roe_score['2330'].plot()

策略開發

from finlab import data
from finlab.backtest import sim


def qcut_feature(data_name='fundamental_features:ROE稅後', q_range=10, ascending=True):
    import numpy as np

    rank_df = (data.get(data_name)
               .rank(axis=1, pct=True, ascending=ascending)
               .mul(q_range
               .add(1)
               .apply(np.floor).clip(0,q_range))
    return rank_df


with data.universe(market='TSE_OTC'):
    # 預想越高越好
    roe_score = qcut_feature(data_name='fundamental_features:ROE稅後')
    營業毛利率_score = qcut_feature('fundamental_features:營業毛利率')
    稅前淨利年增率_score = qcut_feature('fundamental_features:稅前淨利成長率')
    應收帳款週轉率_score = qcut_feature('fundamental_features:應收帳款週轉率')

    # 預想越低越好
    負債比率_score = qcut_feature('fundamental_features:負債比率',ascending=False)

    all_score = roe_score + 營業毛利率_score + 稅前淨利年增率_score + 應收帳款週轉率_score + 負債比率_score 

    # 設定總分要求
    position = all_score >= 40
    report = sim(position,resample='M',position_limit=0.1,name="財務指標計分回測範例",upload=True)

利用前述的qcut_feature函數，範例用5個財報指標來計分，並將分數加總。
策略條件要求總分要高於40分，也就是平均一個分數要達8分以上，算是不低的要求。
如果只用此指標做月週期回測，結果如下，報酬率比大盤優一點點，每月檔數穩定會選到100檔上下。

優化

標的數量偏多，實際上我們資金有限，買不了那麼多，這時我們可以想想，同樣的財務指標總分下，越低價的股票是不是越有上漲的空間呢？

from finlab import data
from finlab.backtest import sim


def qcut_feature(data_name='fundamental_features:ROE稅後', q_range=10, ascending=True):
    import numpy as np

    rank_df = (data.get(data_name)
               .rank(axis=1, pct=True, ascending=ascending)
               .mul(q_range)
               .add(1)
               .apply(np.floor).clip(0,q_range))
    return rank_df


with data.universe(market='TSE_OTC'):
    # 預想越高越好
    roe_score = qcut_feature(data_name='fundamental_features:ROE稅後')
    營業毛利率_score = qcut_feature('fundamental_features:營業毛利率')
    稅前淨利年增率_score = qcut_feature('fundamental_features:稅前淨利成長率')
    應收帳款週轉率_score = qcut_feature('fundamental_features:應收帳款週轉率')

    # 預想越低越好
    負債比率_score = qcut_feature('fundamental_features:負債比率',ascending=False)

    all_score = roe_score + 營業毛利率_score + 稅前淨利年增率_score + 應收帳款週轉率_score + 負債比率_score 

    # 設定總分要求
    position = all_score >= 40

    # 選前10低價股
    close = data.get('price:收盤價')
    position = (position*close).astype(float)
    position = position[position>0].is_smallest(10)
    report = sim(position,resample='M',position_limit=0.1,name="財務指標計分回測範例",upload=True)

所以我們上面程式後段再從原先清單選出每期股價前 10 低的條件，則報酬率明顯拉出差距，也更貼近小資族的使用情境。

結論

qcut 是不是很好用呢？又認識一個pandas的新工具！
附上colab範例檔讓大家練習～來試試打造自己的指標計分策略吧！