原创 冷卻算法綜合排名改進模型-R實現代碼

近期對投票模型中的牛頓冷卻模型結合具體數據及含義進行了改進,並通過R語言進行了實現,模型邏輯並不複雜,在之後的博文中會添加上去,代碼中存在各種條件句是由於實際可操作數據中存在各種情況,數據來源於爬蟲累計數據。 R代碼 ##讀入數據

原创 LTSM循環神經網絡過程原理梳理

繼續進行預估的工作,在嘗試了GM(1,1),ARIMA之後,想要嘗試LSTM循環神經網絡做預估,希望能得到一個令人滿意的結果,提取了《基於LSTM循環神經網絡的交通流量預測》文章中部分內容,這篇文章把模型原理寫的非常清晰,這裏記錄

原创 時常用到linux命令及其他雜七雜八命令

記錄一下,部分工作中首次遇到的小問題,當時卻花費了很多時間去解決的東西。 linux批量關鍵詞刪除文件 find /data/work/ptop/ -name '*_201810*' |xargs rm -rf pytho

原创 python單頁面簡單爬蟲實例--百度風雲榜

最近需要收集百度風雲榜上的數據,手工的方式實在是讓人受不了,自學了python一段時間,就利用python寫了一個百度風雲榜單的爬蟲程序,遇到了各種格式轉化的問題,好在一個一個都解決了,能夠成功爬取到數據,每天執行一次數據就ok了

原创 排行模型驗證的方式

前言 模型的實現固然重要,但是模型的驗證也是不可或缺的一塊。只有模型,沒有驗證就行代碼不經測試直接上線一樣的道理,質量是無法保證的。 近期研究對象的排行,實踐各種算法之後,得出了對目標對象的排行結果。但這僅是完成了工作的2/

原创 熱度TopN排名算法的設計

熱度TopN排名算法的設計 轉載於http://www.jianshu.com/p/44bee121463a 最近開始在簡書上混,今日在首頁上不經意間看到一篇《從豆瓣電影評分算法說起》,感覺有點眼熟,就點了進去。 其實阿北的那篇《豆瓣電

原创 冷卻算法綜合排名改進模型

作品一般都有一定的時效性,作品熱度隨時間的衰減,熱度下降,當然那些逆天優秀作品除外。參考投票模型中的牛頓冷卻算法並進行改進,結合實際反應左瓶的熱度數據指標及指標特性對文創作品進行熱度排名。 牛頓冷卻算法 牛頓冷卻定律:物體的冷卻速

原创 LTSM循環神經網絡原理梳理

最近越來越懈怠了,工作上預估的進展並不太好,預估的結果常被否掉,因爲業務主觀還是佔主導,他們還是採用excel在做預估,也是怪自己的模型預估結果經常性是偏高的,很多細節性業務影響無法考慮到,模型調整不夠靈活,被採用也是被比例縮減調

原创 時常用到linux命令及相關記錄

記錄一下,部分工作中首次遇到的小問題,當時卻花費了很多時間去解決的東西。 linux批量關鍵詞刪除文件 find /data/work/ptop/ -name '*_201810*' |xargs rm -rf pyt

原创 評分卡模型驗證常用指標

在模型訓練及驗證之前,需進行好壞用戶的劃分,可通過有貸後表現根據閾值進行劃分,其中壞用戶定義爲1,好用戶定義爲0,基於此對模型驗證指標進行說明。 混淆矩陣(confusion matrix) 實際表現 1 0 預測表現1TP(t

原创 用戶畫像分析相關整理

前期做了一些用戶畫像的數據支持工作,都是哪裏需要往哪搬,沒有進行過系統的總結,總歸不是自己的東西,只知道要這麼做,卻不知爲何要這麼做,所以在這裏進行一個歸納總結。 用戶畫像一般用於研究當前客戶需求以及挖掘潛在客戶,用戶畫像需要結合具體的

原创 網頁數據爬蟲-R語言

最早接觸爬蟲是利用java寫腳本,後來自學了利用python進行爬蟲來做入門,會用scrapy,最近用了下R,找了幾個不同類型的字段獲取,當作好玩吧。 爬取內容 R代碼 library(XML) library(RCurl) libra

原创 喜歡的現代詩 -。-

留下一篇blog摘抄喜歡的現代詩。對於現代詩,是從大一的時候開始喜歡的,在學校圖書館上自習,無意間發現落在書桌上的一本顧城的詩集,好奇心翻閱了一下,竟一下從此喜歡上了,後面不僅僅是顧城,也陸續從學校圖書館借一些其他人的詩集來看。

原创 隨機森林原理-R語言簡單實例

隨機森林是基於決策樹的組合模型,若因變量爲分類變量則建立分類判別模型,若爲連續變量則建立非線性迴歸分析模型。隨機森林在分類中返回得票數最多的分類選項,在迴歸中返回所有決策樹輸出的平均值。隨機森林是由多個迴歸樹組合而成的模型,廣泛用於分類研

原创 多指標綜合評價方法彙總

寫在前面 上學的時候,有一門綜合評價的課程,那時候沒覺得以後會用到它,現在才發現是那麼實用,實際應用中如果採用單指標進行評價給人的感覺總是有偏駁的,除非是那種極其可靠且明確其重要性的指標。近期基本上把老課本里的方法翻了個老底,以前覺得這門