數據分析及可視化、前端搭建成果

原創

2020-06-25 08:26

本科期間，我參與了一些項目，收穫頗豐。在此記錄下來，希望自己能夠不斷進步！

一、數據可視化類

天池大數據競賽--阿里音樂流行趨勢預測

目前市場上存在許多家音樂平臺，其中在阿里音樂擁有非常龐大的數據資源庫，對於音樂流行趨勢的把握有着極爲重要的指引作用。我以阿里音樂用戶 2015 年 3 月-7 月的歷史播放量數據爲基礎，期望可以通過對阿里音樂平臺上 2015年 8月藝人的試聽量的預測，挖掘出即將成爲潮流的藝人，從而實現對一個時間段音樂流行趨勢的準確把控。由於這些數據是時間序列數據，通過一系列實驗後，我發現使用 LSTM 模型以及動態規劃算法以及相似子序列匹配算法來進行對歌手的熱度預測效果會更好。通過 LSTM 模型，我預測出了最後得到的準確率爲 76%。下方是該項目使用的數據特點、進行的數據預處理過程、模型構建結果的可視化，爲歌手熱度預測提供良好的參考和引導

思路：

其一，先對數據進行四個方面的處理，包括藝人按播放量高低進行分組、藝人相似度計算、子序列模式匹配處理異常數據、藝人粉絲集合判斷。
其二，將藝人的播放量劃分爲三個部分：固定、異常、可變，其中固定播放量未藝人粉絲集合的播放量，異常播放量爲播放量突變幅度較大的播放量部分，最終剩下的部分即爲可變播放量，可變播放量是較爲平穩且波動有一定規律的播放量數據。
其三，將可變播放量作爲LSTM模型的輸入，訓練LSTM模型並進行預測得到可變播放量預測值，而異常播放量的計算方法是，子序列模式匹配出的相似異常情況數據按歌手相似性取不同權重計算得到異常播放量預測值。
最終,總播放量等於可變播放量預測值、異常播放量預測值和固定播放量三者之和。

固定播放量的預測

根據實際數據，將每個用戶3-7月的播放量佔比進行統計，部分結果如圖所示：

圖用戶7063b3d0c075a4d276c5f06f4327cf4a

圖用戶f8c065dc140ec74c6e44144164e618e3

數據平滑

由於異常播放量可能會對模型產生較大的影響，因此需要對訓練數據的異常情況進行平滑處理。得到平滑訓練數據。我們將異常日日期記做t，取該歌手異常週期前的三天的平均值對異常週期前三天進行平滑處理，同理，取異常週期後的三天的平均值對異常週期後三天進行平滑處理。結果如圖所示

訓練取樣本方法

使用滑窗，將100位歌手前六十天的數據放入模型訓練，得出該天的預測數據。

藝人分類結果
將所有藝人的3到7月份的播放量加權平均，按照稀疏性分爲4類，分別爲0-7500/7500-15000、15000-30000、30000-50000。由表4-1和圖4-1可見，大部分藝人的播放量都聚集在0-7500，且佔比83%，說明大部分藝人的播放量都是在較低狀態，比較平穩。

圖 100位藝人3-7月的播放量

歌手相似度

根據藝人對應的用戶集合及總數，並在同一語言的前提下，判斷藝人兩兩之間的相似性。如圖所示，其中顏色越淺代表藝人相似度越高，越深則代表相似度越低，並且藝人自己與自己的相似度比較是1.0，所以中間出現了一條對角線。

模型預測結果

我們從模型預測出的平滑數據，隨機選擇了4個歌手的數據。由下圖可以發現，歌手的起伏都比較平穩。

某歌手平滑前後數據對比

下圖是第33位歌手播放增量數據平滑前後的對比圖，可以發現平滑後原本的兩個凸起都被平滑掉了。

預測平滑可變播放量

通過lstm模型的訓練，得到平滑可變播放量（未加入異常數據）。此處選取的4個歌手與模型預測結果中的歌手相同。通過下圖可以發現，各個歌手的播放量變化比較平穩。

圖

最終結果

由特定公式可以得到最終所有歌手的播放量。我從100個歌手中隨機選取了4個歌手，對8月份的預測結果進行了可視化處理。

某歌手所有數據對比圖

如圖所示，某歌手的預測結果趨勢和實際結果趨勢大致相同。

具體詳見 https://blog.csdn.net/bernicechl/article/details/105270037

基於 SVM 的股票回測模型

原數據預處理後加上標籤後依舊無法看出數據情況

單隻股票數據K線圖

單隻股票的部分原數據可視化

利用SVM的股票價格預測結果和真實值對比的可視化

用戶貸款徵信預測

使用SVR進行用戶徵信屬於預測，其結果與其他預測方式相對比得到數據，進一步形成對比折線圖

預測數據和真實數據的對比散點圖

使用roc進行模型準確率評估，並可視化ROC曲線

之前還用過一些雷達圖、3D圖來可視化，但是由於電腦之前不爭氣地壞了，所以只能找到這些保留過的數據。

二、前端、原型類

見https://blog.csdn.net/bernicechl/article/details/89377507

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

(原創) odoo各版本對視圖中節點groups屬性的處理差別

1.14版(含14)視圖節點groups屬性的處理結果表現在可見性上(invisible)，如果當前用戶不在指定的角色中，則設置可見性標記invisible爲"1" 2.16版(含16)以後對視圖節點groups屬性的處理

2024-06-08 14:35:45

lightdb hash index的性能和限制

　　除了btree外，lightdb是支持hash index的，但是總體來說支持的特性範圍均不如btree索引，比如parallel沒有btree索引智能，不支持=之外的操作，不支持bitmap index scan，不支持哈希唯一索引（

2024-06-08 14:32:04

pathlib and difflib

pathlib.Path("a.crt").write_text(a[0]) p.chmod(0o444) Path.cwd() p.write_bytes(b'Binary file contents') p.read_bytes()

2024-06-08 14:31:34

利用WinSW將Nginx 作爲可正常啓動/停止的windows服務

下載winsw程序，Releases · winsw/winsw (github.com) 將下載的exe文件放置到nginx.exe的同級目錄，名字可以修改爲nginx-service.exe(也可不修改) 新建txt文本文檔，並將其名

漫漫人生路總會錯幾步

2024-06-08 14:30:54

純CSS+單個div實現抖音LOGO

純CSS+單個div就能繪製抖音LOGO 關鍵點：主要藉助了兩個僞元素實現了整體結構，藉助了 drop-shadow 生成一層整體陰影 drop-shadow 只能是單層陰影，所以另一層陰影需要多嘗試 contrast(150%) br

2024-06-08 14:30:14

告別Word，用Python打造你的專業簡歷！

今天給大家介紹下一個在純 python 中構建簡歷的實用工具，工具的連接地址https://github.com/koek67/resume-builder/blob/main/readme.md 用法介紹要求 Python 3.7 或更

2024-06-08 14:24:54

一款.NET開源、免費、實用的多功能原神工具箱（改善桌面端玩家的遊戲體驗）

前言今天大姚給大家分享一款.NET開源（MIT License）、免費、實用的多功能原神工具箱，旨在改善桌面端玩家的遊戲體驗：胡桃工具箱。工具箱介紹胡桃工具箱是一款.NET開源（MIT License）、免費、實用的多功能原神工具箱

2024-06-08 14:24:33

輻射3刷藥

去megaton裏面的屍鬼.那裏買藥, 把破爛賣給他. 然後傳送到其他地圖, 再傳送回來, 他就又有錢和新藥了.繼續賣破爛, 買藥.刷幾次就夠了.

張博的博客

2024-06-08 14:22:03

重新研究go的併發模型.

go裏面可以實現很多併發模型的優雅解決方案. 總結起來. package main import ( "fmt" "time" ) var bufChan chan int = make(chan int, 1000) var

張博的博客

2024-06-08 14:22:03

Python 潮流週刊#54：ChatTTS 強大的文本生成語音模型

本週刊由 Python貓出品，精心篩選國內外的 250+ 信息源，爲你挑選最值得分享的文章、教程、開源項目、軟件工具、播客和視頻、熱門話題等內容。願景：幫助所有讀者精進 Python 技術，並增長職業和副業的收入。本期週刊分享了 12

豌豆花下貓

2024-06-08 14:21:23

kafka知識整理——部署

一、部署（1）zk配置修改zk配置文件config/zookeeper.properties，修改dataDir或端口 dataDir=/home/kafka/kafka3.7/data/zookeeper clientPort=218

2024-06-08 14:16:43

Asp .Net Core 系列：詳解鑑權（身份驗證）以及實現 Cookie、JWT、自定義三種鑑權（含源碼解析）

什麼是鑑權（身份驗證）？ https://learn.microsoft.com/zh-cn/aspnet/core/security/authentication/?view=aspnetcore-8.0 定義鑑權，又稱身份驗證，是

2024-06-08 14:15:33

cdn到oss，根據用戶終端是手機和電腦等不同分別訪問兩套前端代碼

使用規則引擎其中一個配置了很多瀏覽器，另外一個配置匹配所有，這樣就能正常訪問。如果這兩個網站，有一個沒有使用規則引擎，那麼就會兩個網站都匹配上，然後第四條規則目標path和第一條的會拼接起來作爲oss的key,肯定不存在，所以

2024-06-08 14:14:22

Codeforces Round 950 (Div. 3)G. Yasya and the Mysterious Tree（字典樹處理區間異或值）

Problem - G - Codeforces 存個字典樹板子。 1 #include <bits/stdc++.h> 2 3 using i64 = long long; 4 5 constexpr int N

2024-06-08 14:10:12

Codeforces Round 949 (Div. 2)D. Turtle and Multiplication（歐拉路徑、線性篩、思維構造）

Problem - D - Codeforces 思路補充官方正解，主要解釋一下爲什麼可以轉化爲求完全圖的歐拉路徑。題目要求構造的數的種數最少，相當於對於當前的m來說要儘可能構造出最長的序列長度，所以一定儘量要是完全圖。其次要求不

2024-06-08 14:10:12

24小時熱門文章

最新文章

最新評論文章