數據分析及可視化、前端搭建成果

本科期間,我參與了一些項目,收穫頗豐。在此記錄下來,希望自己能夠不斷進步!

一、數據可視化類

天池大數據競賽--阿里音樂流行趨勢預測

目前市場上存在許多家音樂平臺,其中在阿里音樂擁有非常龐大的數據資源庫,對於音樂流行趨勢的把握有着極爲重要的指引作用。我以阿里音樂用戶 2015 年 3 月-7 月的歷史播放量數據爲基礎,期望可以通過對阿里音樂平臺上 2015年 8月藝人的試聽量的預測,挖掘出即將成爲潮流的藝人,從而實現對一個時間段音樂流行趨勢的準確把控。由於這些數據是時間序列數據,通過一系列實驗後,我發現使用 LSTM 模型以及動態規劃算 法以及相似子序列匹配算法來進行對歌手的熱度預測效果會更好。通過 LSTM 模型,我預測出了最後得到的準確率爲 76%。下方是該項目使用的數據特點、進行的數據預處理過程、模型構建結果的可視化,爲歌手熱度預測提供良好的參考和引導

思路:

  •  其一,先對數據進行四個方面的處理,包括藝人按播放量高低進行分組、藝人相似度計算、子序列模式匹配處理異常數據、藝人粉絲集合判斷。
  •  其二,將藝人的播放量劃分爲三個部分:固定、異常、可變,其中固定播放量未藝人粉絲集合的播放量,異常播放量爲播放量突變幅度較大的播放量部分,最終剩下的部分即爲可變播放量,可變播放量是較爲平穩且波動有一定規律的播放量數據。
  •  其三,將可變播放量作爲LSTM模型的輸入,訓練LSTM模型並進行預測得到可變播放量預測值,而異常播放量的計算方法是,子序列模式匹配出的相似異常情況數據按歌手相似性取不同權重計算得到異常播放量預測值。
  •  最終,總播放量等於可變播放量預測值、異常播放量預測值和固定播放量三者之和。

固定播放量的預測

  • 根據實際數據,將每個用戶3-7月的播放量佔比進行統計,部分結果如圖所示:

                                                  圖 用戶7063b3d0c075a4d276c5f06f4327cf4a

 

                                                   圖 用戶f8c065dc140ec74c6e44144164e618e3

  • 數據平滑

       由於異常播放量可能會對模型產生較大的影響,因此需要對訓練數據的異常情況進行平滑處理。得到平滑訓練數據。我們 將異常日日期記做t,取該歌手異常週期前的三天的平均值對異常週期前三天進行平滑處理,同理,取異常週期後的三天的平均值對異常週期後三天進行平滑處理。結果如圖所示

  • 訓練取樣本方法

使用滑窗,將100位歌手前六十天的數據放入模型訓練,得出該天的預測數據。

 

                         

  •  藝人分類結果

    將所有藝人的3到7月份的播放量加權平均,按照稀疏性分爲4類,分別爲0-7500/7500-15000、15000-30000、30000-50000。由表4-1和圖4-1可見,大部分藝人的播放量都聚集在0-7500,且佔比83%,說明大部分藝人的播放量都是在較低狀態,比較平穩。

                                                                             圖 100位藝人3-7月的播放量

 

  • 歌手相似度

根據藝人對應的用戶集合及總數,並在同一語言的前提下,判斷藝人兩兩之間的相似性。如圖所示,其中顏色越淺代表藝人相似度越高,越深則代表相似度越低,並且藝人自己與自己的相似度比較是1.0,所以中間出現了一條對角線。

 

  • 模型預測結果

我們從模型預測出的平滑數據,隨機選擇了4個歌手的數據。由下圖可以發現,歌手的起伏都比較平穩。

 

  • 某歌手平滑前後數據對比

下圖是第33位歌手播放增量數據平滑前後的對比圖,可以發現平滑後原本的兩個凸起都被平滑掉了。

 

  • 預測平滑可變播放量

通過lstm模型的訓練,得到平滑可變播放量(未加入異常數據)。此處選取的4個歌手與模型預測結果中的歌手相同。通過下圖可以發現,各個歌手的播放量變化比較平穩。

 

  • 最終結果

由特定公式可以得到最終所有歌手的播放量。我從100個歌手中隨機選取了4個歌手,對8月份的預測結果進行了可視化處理。

 

  • 某歌手所有數據對比圖

如圖所示,某歌手的預測結果趨勢和實際結果趨勢大致相同。

 具體詳見 https://blog.csdn.net/bernicechl/article/details/105270037

 

 

基於 SVM 的股票回測模型

  • 原數據預處理後加上標籤後依舊無法看出數據情況

  •  單隻股票數據K線圖

 

 

  •  單隻股票的部分原數據可視化

  •  利用SVM的股票價格預測結果和真實值對比的可視化

 

用戶貸款徵信預測

  • 使用SVR進行用戶徵信屬於預測,其結果與其他預測方式相對比得到數據,進一步形成對比折線圖

 

  •  預測數據和真實數據的對比散點圖

  •  使用roc進行模型準確率評估,並可視化ROC曲線

 之前還用過一些雷達圖、3D圖來可視化,但是由於電腦之前不爭氣地壞了,所以只能找到這些保留過的數據。
 

二、前端、原型類

https://blog.csdn.net/bernicechl/article/details/89377507

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章