數據之美----雪球網股票組合分析

簡介


因爲工作需要,爬了幾個大型的網站,練就一身爬取數據和分析數據的功夫。所以,在無聊的時候寫了個爬取系統。主要功能是爬取雪球組合的數據,並進行分析,得出一些有價值有潛力的股票代碼。實盤到沒有測試,隨便估計了一下,至少跟盤不會出現虧損。

先普及一下組合的概念:由雪球、微博等平臺的投資主理人管理的股票持倉池。


技術架構


特點:簡單可依賴

  • 多服務器多核心異步架構實時爬取
  • 機器學習、數理統計經典方法分析
  • 6000+組合數據分析的結果秒出

以上有點吹。但是爬取的效果還是準確的。


分析方法


主要是基於統計方法。機器學習也會在後面跟上,獲得更多有價值的信息。

我們分析了6000+組合的數據,對每個組合的具體持倉進行了分析。得出所有組合持倉的並集,這就是持倉最多的熱門股票。當然已經排除停牌股。

同時,計算組合持倉的相同的股票的倉位大小,用總倉位除以持有該股的總組合數,得出平均權重。按大小,排除最佳重倉股。有的人會想,不少主理人喜歡重倉一隻股票。所以,我們會特意標出倉位較重的組合名稱及他們的個數,以供參考。不得不建議,想跟風最佳重倉股,請折半投資。比如平均倉位大小是90%,那麼根據自己的倉位,投資20-45%左右是最佳的方案。

6000+ 組合並不是每一個組合都作爲數據的權重出現。對於關停的、殭屍的、長線的組合,對其做分析貌似沒有太多的價值。所以,我們分析以下2類組合:

  • 總收益高於280%,月收益高於9%,每日收益震盪在-5% - 20%的組合,一月調倉3次以上
  • 總收益爲高於45%,月收益高於15%,每日收益震盪在-3% - 20%的組合,一月調倉5次以上


對外接口


之前在做Restful的一些應用,對於相關的技術還算了解。爲了能讓別人訪問數據,我們做了接口,將分析、處理、加工完的數據開放。

只需要用戶名即可,不需要密碼,因爲也沒有打算建立用戶賬戶體系。


展示網站


畢竟不是大多數人都會IT技術,所以沒有辦法。我只好又做了一個網站,專門用於展示分析數據。

不知道這個東西有沒有人會看,但是希望能幫到大家。


團隊簡介


谷震平

目前在某一線互聯網公司,任職數據倉庫工程師,專注是數據採集、ETL。也是本文作者。筆者對這個項目的感情很特別。當初,大學輔脩金融,以爲自己畢業後能進投行工作,但是沒人要。後來做了現在的工作。可能就是心裏還有一絲絲抱怨與不甘,才做了現在的事情。希望,能幫助更多的人們,鼓勵更多人追求夢想。

憶夢漣

一位美少女工程師,北郵研究生,專注NLP、機器學習。數據分析、科學計算的能力了得。


結語


寫到這裏,還有很多想說的沒有說完。如果對我們的工作感興趣,歡迎留言繼續交流。

關注微信公衆號,回覆你所持有的股票中文名稱,就會得到從6000多人的持倉數據中分析出來的該股情況!

現在只回復4項數據:

  • 日期
  • 平均持倉,該股在當天6000多人的平均持有情況,值在0 - 100%之間
  • 總體持倉,該股在當天6000多人的全體持有情況,值大於0%
  • 所在組合數,該股在當天6000多人的總計買入人數,值大於1

持倉的數據,請自己腦補%(百分號),忘記單位可就不好了。

快快添加關注公衆號—-谷震平的專欄吧,也可掃二維碼下方二維碼:
谷震平的專欄  炒股

^-^

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章