第三屆中青杯B題思路

賦閒在家,於是連續參加了泰迪杯廣州數模聯賽MathorCup,之後,就是中青杯了。目前廣州數模聯賽已經進入複試,我也有幸成爲了得獎的候補。 至於泰迪杯,我仍舊在等一等獎的電話(希望有!)。我不想當幸運兒,因爲這是我努力達到的。這幾個比賽都是我一個人參加的,所有的建模、論文、編程都是一人包辦,我相信自己不會比三個人差。找隊友固然好,但一個人做更不會 Out of Control。主要是之前和隊友參加了幾個比賽,心理產生了陰影…

我們是幸運的,因爲大數據的福音,使得越來越多的數學建模變得越來越像泰迪杯這類數據挖掘挑戰賽。不論是之前參加過的 MathorCup、國賽、美賽、數聯,都有大數據的題目。雖然中青杯很扯淡地幫我們把題目給選了,但是第三屆的中青杯,還是有數據挖掘的影子。這不,本科組題目(博主本科):股票預測問題,這明顯是機器學習入門者,玩浪了的題目嘛。

B題背景知識

對於混跡指數基金多年的我,現在接觸股票領域,雖然有點力不從心,但勉強說得過去。首先是股票價格吧,股票分爲發行價和市場價格。發行價是指企業在 IPO 時,股票的價格。即 IPO 時,公司把權力地位,以股票的形式“賣”給證券交易所,這時候的成交價就是發行價。而市場價格,是指股票的流通價格。所謂流通價格,就是股票在我們這些股民們每天的價格。一般流通價格會大於發行價,這是因爲炒股票導致的虛高。

既然股票市場價格是流通價,價格是不斷變化的。對於股票市價來說,一般用四個經典數值替代:開盤價、最低價、最高價、收盤價。開盤價是股票開始交易的價格,收盤價則不然,它不一定代表結束交易的價格。各個交易所對收盤價的定義不一樣,瀘市的定義爲:收盤價爲當日該證券最後一筆交易前一分鐘所有交易的成交量加權平均價(含最後一筆交易)。

題目的關鍵詞是指數,那麼爲什麼要扯出股票價格呢?這是因爲股票指數,全稱爲股票價格指數,這個價格,很明顯是市價。目標指數股,即指數表現很好的股票集合。問題所提供的數據,我想就是從從屬於同一個指數的股票(以下稱爲股票簇)中,抽樣得出的集合把。因爲指數是對一個股票簇的(如果每一個股票都有指數,那直接用股價不就行了?),所以投資者將指數表現良好的股票簇中的所有股票,全部買下來,就不會虧損。所以,這也是指數基金爲什麼穩賺不賠的理由。因爲基金管理者有很多錢壓(幫忙管理的),有實力買下和管理全部的指數股票簇。但散戶就不一樣了,首先沒錢,其二沒管理能力。於是,就誕生了這道題目:如何根據股票指數,購買股票簇中,幾隻股票,使得賺錢多,就是這麼通俗。

第三問中,有一個計算股票指數波動、預測指數波動的題目。這個題目的意思應該是,根據股票簇(10只股票),首先計算出該股票簇的指數,再算出波動。結合今年的波動,預測下一年的波動。

有一個問題搞不明白的是,題目中給出的10只股票,是某個市場(屬於一個指數)的股票除的全部股票嗎?還是部分股票?個人傾向於後者。所以,第三問應該是一個以小見大的問題。即根據股票簇的部分抽樣,求解出股票簇的指數、指數波動。並預測一年內指數波動的值。因此,股票的指數,並不是單單依靠證券交易所給出的指數公式,根據股票簇的所有股票的市價,在求解出來這麼簡單。這是因爲,10只股票只是股票簇的抽樣。所以,爲了以小見大,還是要用到假設檢驗的方法!!

第一問是怎麼做的?

第一問我覺得難點有兩個,一是缺失數據填充;二是方案制定。對於問題一,我是用每一列來進行缺失值預測的(以列爲單位)。我用了幾乎所有的一元非線性函數(包括傅里葉,沒有你想不到),之後將模型的預測值填充進缺失值。當然,我要訓練40個(不弄交易量)模型,期間還有假設檢驗(用來判斷模型是否顯著)。

第一問與第二問一起上!!

第一問的第二個難點就是方案製作了,因爲投資分長短線,很明顯一個萬金油方案是不存在的。這個就要結合很多數據分析了。首先,我畫出了各只股票的線圖、柱狀圖、箱型圖(30天爲單位)、自相關分析圖等等。之後,對於長線,用整體呈現上升趨勢的股票。對於短線,使用局部波動大、整體亦波動的股票(我用的是箱型圖的面積來表徵這些屬性,當然箱型圖以30天爲單位)。

第三問是怎麼做的?

假設檢驗,判斷10只股票能否反應總體。然後根據是否能反應,設置指數的計算公式。在用箱型圖表徵其波動。對於預測,我用了 LSTM 模型。但是,感覺 6 月份以後模型的預測效果就不是很好了。這可能是所需的預測數據過多的緣故吧。

最終總結

中青杯B題作爲一道數學建模的題來說,至少他有建模的成分。作爲一道數據挖掘的題來說,他也有數據挖掘的成分。他更像兩者的結合,因此導致了我在解題過程中遇到非常多的問題。這場比賽,我用了2天構思,1天做完。比起泰迪杯的4天做完、聯賽、Mathorcup 的2天做完、他是花費時間最少的一個比賽了。或者說,這就是所謂的一鼓作氣再而衰三而竭了吧。可能,也許這是我大學中的最後一場數學建模比賽了。

數學建模是有趣的,在沒有隊友的情況下更加有趣。而中青杯,我感覺他題目的質量最對得起數學建模比賽的名字。雖然,我覺得他是之前我參加的所有建模比賽中,最難的、也是耗費我最多精力的一場比賽。但他的確兼顧了建模+挖掘,兩邊都有戰到。因此,希望在之後的學習生活中,能夠和大家一起努力,共建輝煌。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章