什麼是「財務資料分析」?
投資理財除了靠經驗與運氣,能否更科學一點?中研院資訊科技創新研究中心的王釧茹助研究員,與團隊運用機器學習分析財報中的「軟資訊」,找出「特定詞彙的出現」跟「企業財務風險」的關係。

我是廣告 請繼續往下閱讀
「老實說不想去當資工工程師,覺得財金領域應該比較有趣吧!」因為這個念頭,王釧茹從大學開始投入財務資料分析:用數學模型及電腦計算資料,解決財務問題。 攝影│張語辰
「老實說不想去當資工工程師,覺得財金領域應該比較有趣吧!」因為這個念頭,王釧茹從大學開始投入財務資料分析:用數學模型及電腦計算資料,解決財務問題。 攝影│張語辰
若要發行或交易「衍生性金融商品」,例如期貨 (Futures)、選擇權 (Option),往往需要知道其「理論價格」是多少。為此,早期華爾街聘請許多稱為 “Quant” 的人才 ,擁有物理、數學等專業背景,透過電腦計算金融模型,為衍生性金融商品定價、或預測市場行為。

 早期的 Quant 是透過「理論」來定價、分析或預測市場行為,現在則引入透過「資料」進入此過程。

最大的不同在於:以往數學模型是依照理論,假設股票遵循某種分配去擬定理論價格,但理論和假設是會改變的;資料分析則基於現實存在的金融資料,有什麼資料、就說什麼話,而這種專業正是王釧茹團隊所擅長──尤其是財務報告中的「軟資訊」。

資料科學家被形容是「21 世紀最性感的職業」,華爾街也招募大量的資料科學家,有別以往從「數學理論」解決問題,轉變為用「實際資料」來解決問題。圖片來源│Rawpixel
資料科學家被形容是「21 世紀最性感的職業」,華爾街也招募大量的資料科學家,有別以往從「數學理論」解決問題,轉變為用「實際資料」來解決問題。圖片來源│Rawpixel
會有這樣的轉變,拜賜於電腦硬體的發展、機器學習的進步,也因為大量的資料不斷累積,而美國證券交易委員會 (Securities and Exchange Commission,縮寫 SEC) 更規定上市公司要依規撰寫財務報告,累積了許多格式標準、具豐富資訊、可供分析的財務資料。

財報字裡行間 潛藏企業的情緒
若要簡單說明「硬資訊」和「軟資訊」的差別,「硬資訊」主要為財報或市場資訊中的數字,例如企業的每股盈餘 (EPS) ,多為結構化資料;而「軟資訊」主要是文字資料,例如會計事務所撰寫財報時使用了哪些詞彙,來描述下個年度企業經營的發展方向,多為非結構化資料

軟資訊,也就是書寫者在特定情境脈絡下,依照判斷、情緒寫下的文字資料。

「2011 年我們看到 Tim Loughran 和 Bill McDonald 的財務情緒字典發表在 《Journal of Finance》,堪稱財務界的《Science》期刊,就知道這是未來重要的趨勢之一!」王釧茹回想,因此和團隊運用這套財務情緒字典,看看後續能進行什麼研究。

Tim Loughran 和 Bill McDonald 將財務領域的用詞分為這六大類情緒,奠定王釧茹團隊的軟資訊分析基礎。 資料來源│Tim Loughran and Bill McDonald, 2011, When is a Liability not a Liability? Textual Analysis, Dictionaries, and 10-Ks, Journal of Finance, 66:1, 35-65. 圖片重製│柯旂、張語辰
Tim Loughran 和 Bill McDonald 將財務領域的用詞分為這六大類情緒,奠定王釧茹團隊的軟資訊分析基礎。 資料來源│Tim Loughran and Bill McDonald, 2011, When is a Liability not a Liability? Textual Analysis, Dictionaries, and 10-Ks, Journal of Finance, 66:1, 35-65. 圖片重製│柯旂、張語辰
用「軟資訊」預測企業財務風險
傳統的財務資料分析領域,許多研究及實務上多傾向分析硬資訊,而王釧茹團隊選擇了分析「軟資訊」的新方向。

10-K 財務年報,為企業給美國證管會 (SEC) 的正式財報,內有公司運作狀況的詳細描述。資料來源│Starbucks
10-K 財務年報,為企業給美國證管會 (SEC) 的正式財報,內有公司運作狀況的詳細描述。資料來源│Starbucks
王釧茹團隊運用「10-K 財務年報的第七章」,也就是陳述企業管理和未來方向的章節文字,運用該企業未來的「股票報酬波動 (Stock return volatility)」 數據作為風險指標,藉此分析財務報表詞彙與風險的相關性。

「若今天 A 公司股價上漲 70%,隔天突然又跌 50% ,這個報酬波動太大,普遍會被認定為財務高風險的公司。反之,如果公司股價穩定維持高價或低價,就會被視為財務低風險的公司。」王釧茹說明為何會選擇「股票報酬波動」,作為訓練電腦預測未來企業財務風險的資料。

團隊開發的機器學習模型,訓練資料包含 1996-2013 年期間各企業的財務報表,篇數超過萬篇、字數超過十萬字,而資料變數高達好幾萬維度,有別於過往的統計分析難以處理超過二十維度的變數。

電腦分析某企業的 10-K 財務年報後,接續分析後十二個月該企業的股票報酬波動,訓練電腦自動找出「財報詞彙」與「未來財務風險」的關係。時間點依各企業發表年報的時間而有所異動。資料來源│王釧茹提供 圖說設計│柯旂、張語辰
電腦分析某企業的 10-K 財務年報後,接續分析後十二個月該企業的股票報酬波動,訓練電腦自動找出「財報詞彙」與「未來財務風險」的關係。時間點依各企業發表年報的時間而有所異動。資料來源│王釧茹提供 圖說設計│柯旂、張語辰
財報看到哪些字要注意?
王釧茹團隊研究發現,財報中出現 default 這個單字,跟該企業後續的財務風險高度相關。你可能會疑惑, default 不是「預設」的意思嗎?其實在財務報表中, default 是「違約」的意思,像是 2008 年金融危機前大受歡迎的金融商品「信用違約交換」就稱作 Credit Default Swap 。

圖中圓圈越大,代表該單字與財務風險越具正相關性。(單圓框為只透過財報中六大情緒詞分析的結果,雙圓框為運用財報所有單字分析的結果) 資料來源│On the Risk Prediction and Analysis of Soft Information in Finance Reports
圖中圓圈越大,代表該單字與財務風險越具正相關性。(單圓框為只透過財報中六大情緒詞分析的結果,雙圓框為運用財報所有單字分析的結果) 資料來源│On the Risk Prediction and Analysis of Soft Information in Finance Reports
王釧茹團隊分析發現, sureti 擔保、delist 赤字、forbear 隱忍,這些字與財務風險高度相關。而 amend 這個字是「改變」的意思,一般用在企業通過法律程序的某種修改行為,若在財報中高頻率出現,也能聯想到公司經營管理常常改變所帶來的風險。

但你可能會好奇,為什麼 nasdaq 跟財務風險竟然也有這麼大的關係,而且還被分類成負面情緒的字?

為了找出答案,王釧茹團隊亦開發 FIN10K: Financial Reports Analysis 平臺,用以查找財報原始資料、分析上下文,發現財報中 nasdaq 常被隨著 delisting 出現,delisting 為「除名」,兩個字組合一起在金融界為「退市」的意思,也就可以理解當 nasdaq 這個字出現,會跟財務風險高度相關。

出現 Nasdaq 單字的企業財報,多為高風險等級 (RR5 或 RR4,後方括號內的百分比數值為股票報酬波動)。找找看, Nasdaq 常伴隨著 delisting 出現。資料來源│FIN10K: Financial Reports Analysis
出現 Nasdaq 單字的企業財報,多為高風險等級 (RR5 或 RR4,後方括號內的百分比數值為股票報酬波動)。找找看, Nasdaq 常伴隨著 delisting 出現。資料來源│FIN10K: Financial Reports Analysis
另外一個有趣的發現,unsecured note 也就是「未擔保債」,雖然字面看似負向,但若出現在財務報表中,代表該公司的財務狀況較佳、可被信任,才能發行未擔保的債,未來的財務風險也相對較低。

這樣的軟資訊分析模型,將有助銀行改進信用風險評估、或幫助投資者設計投資策略。

王釧茹強調,這項研究並非為了取代現有的金融預測模型,而是讓業者或相關機構在現有的金融預測模型之外,能有多一項「軟資訊情緒用詞」優化評估指標。

除了財報,電影也能分析
除了分析財報資訊,王釧茹團隊藉著文本分析的相關技術,在最新一篇 SIGIR 2017 的研究中運用文字資訊進行了物品 (如:電影) 與相關概念的建模。

其中,王釧茹團隊將建模後所得之電影資訊、和 IMDB 的評論文字之高維度向量,轉換投射至二度平面後,在以下展示平臺中會看到「太空」、「外星人」等單字跟「科幻電影」的散佈位置相近,而「動作電影」則跟「軍隊」、「特工」等單字散佈位置相近。此模型可運用於推薦及資訊檢索的相關應用。

李連杰主演的《精武英雄》屬於動作電影,旁邊相近的單字有 army, fighting, people 。資料來源│ICE: Item Concept Embedding @ SIGIR2017
李連杰主演的《精武英雄》屬於動作電影,旁邊相近的單字有 army, fighting, people 。資料來源│ICE: Item Concept Embedding @ SIGIR2017
Q:目前有和金融業界合作嗎?
A:我們研究團隊 (與臺大陳宏銘教授、中研院楊奕軒研究員、政大蔡銘峰老師) 目前跟國泰金控有一個四方的產學計畫,主要是做 Customer Journey (顧客歷程) 分析,運用顧客曾申辦信用卡、購買相關產品等去識別化資料,預測未來可能的消費行為、投資偏好等。

可以感覺到現在台灣金融業對於 FinTech (金融科技) 蠻積極,不過礙於企業內部的資料歸屬、政府的法規限制,時常造成相關資料無法整合、因此無法進行後續分析或運用。

許多國外金融機構在規劃各部門資料整合、開放匿名資料相對完善,因此有利於後續的研究與應用,這是台灣現在需要盡快優化的地方。

延伸閱讀:

1. 王釧茹的個人網頁

2.CFDA & CLIP Labs

3.Ming-Feng Tsai and Chuan-Ju Wang, "On the Risk Prediction and Analysis of Soft Information in Finance Reports," European Journal of Operational Research, 257:(1), 243-250, 2017.

4.Ming-Feng Tsai, Chuan-Ju Wang, and Po-Chuan Chien, “Discovering Finance Keywords via Continuous Space Language Models,” ACM Transactions on Management Information Systems, 7(3), Article No. 7, 2016. (Selected by ACM Computing Reviews as Notable Article of the 21st Annual Best of Computing)

5.Yu-Wen Liu, Liang-Chih Liu, Chuan-Ju Wang, and Ming-Feng Tsai, “FIN10K: A Web-based Information System for Financial Report Analysis and Visualization,” CIKM, 2016, pp. 2441-2444.

6.Tim Loughran and Bill McDonald, 2011, When is a Liability not a Liability? Textual Analysis, Dictionaries, and 10-Ks, Journal of Finance, 66:(1), 35-65.

更多精彩內容請至 《鉅亨網》 連結>>