原创 install quantopian時出現No module named pip.req的解決辦法

原文鏈接:https://mp.csdn.net/mdeditor/100581001 參考:https://stackoverflow.com/questions/25192794/n

原创 ADF檢驗

原文鏈接:http://www.statsmodels.org/devel/generated/statsmodels.tsa.stattools.adfuller.html 一 在py

原创 python中去掉列表降維:ravel,flatten,reshape

原文鏈接:https://mp.csdn.net/mdeditor/100397994 1.ravel: 2.flatten: 3.reshape:

原创 WOE,IV ,PSI,單變量PSI,KS值,capture rate

1.WOE Weight of Evidence,證據權重。 要對一個變量進行WOE編碼,需要首先把這個變量進行分組處理(離散化,分箱等)。分組後,對於第i組,這個組中響應客戶站樣本中所有響應客戶的比例爲pyip_{yi}pyi​

原创 FM(factorization Machines)

《Factorization Machines》paper的閱讀筆記,僅爲了整理個人思路。 個人覺得FM的本質就是預測值=偏置+權重1單變量+權重2變量之間的相互作用。 偏置和權重都可以是標量,也可以是向量 下面是本人認爲重要的文

原创 keras中的類ModelCheckpoint講的比較通俗的文章

https://machinelearningmastery.com/check-point-deep-learning-models-keras/

原创 估算張量(Tensor.eval)與執行操作(Operation.run)

import tensorflow as tf #創建數據流圖:y = Wx + b,其中,W和B爲存儲節點,x爲數據節點 x = tf.placeholder(tf.float32) W = tf.Variable(1.0) b

原创 Momentum, RMSProp, Adam,自適應學習率

1.https://blog.csdn.net/willduan1/article/details/78070086 2.https://blog.csdn.net/weixin_37352167/article/details/

原创 seven老師直播課筆記(7月9號,流水賬式,沒整理)

raw 數據——>能被學習的數據的過程:特徵工程 分類:離散的輸出空間 迴歸:連續的輸出空間 線性分類器: D維的空間映射到K維的空間的空間,W=W*D維 向量的點積:其物理意義是計算兩個變量之間的相關度和相似性 softmax:

原创 7月5號線下課:集成學習(楊老師,流水賬式,沒整理)

同質集成:基學習器 異質集成:組建學習器 Boosting:串行學習,bias比較小 Bagging:並行學習,variance比較小 stacking:投票方法是學出來的,學:其實就是迭代,糾錯,遞歸, 集成學習 一 wide(

原创 自然語言處理與建模

文本預處理流水線: Python的NLTK庫介紹和使用 NLTK: 官網地址:http://www.nltk.org/ Python上註明的自然語言處理庫,具有如下優點: 自帶語料庫,詞性分類庫 自帶分類,分

原创 特徵工程中的常用操作

1.數值型數據 幅度縮放(最大最小值縮放,歸一化…) 離散化/分箱分桶(等距:pd.cut,等頻:pd.qcut)(特徵交叉) 統計值(Max,min,quentile) 四則運算(加減乘除) 幅度變化(有一些模型對輸入數據有分

原创 model優化方法及偏差與方差

目標:argminxf(x)arg min_{x} f(x)argminx​f(x),其中,g(x)=∇f(x),H(x)=∇∇f(x)g(x)=\nabla f(x), H(x)=\nabla \nabla f(x)g(x)=∇

原创 循環神經網絡與應用

循環神經網絡 RNN :循環神經網絡,處理的是後續的輸出與之前的內容有關聯的任務。 RNN引入“記憶”的概念 “循環”2字來源於其每個源於都執行相同的任務,但是輸出依賴於輸入和“記憶”。NMT: neural m

原创 卷積神經網絡

一 卷積神經網絡層級結構 保持了層級網絡結構 不同層次有不同形式(運算)與功能 主要是以下層次: 數據輸入層/input layer 三種常見的數據處理方式 去均值:把輸入數據各個維度都中心化到0 歸一化:幅度歸一化到同樣的範圍