原创 word2vec tf實戰

文章目錄下載語料庫製作詞表生成詞對建立模型 下載語料庫 # 第一步: 在下面這個地址下載語料庫 def maybe_download(filename, expected_bytes): """ 這個函數的功能是: 如果f

原创 目標檢測指標性能評價(IOU,mAP等)

文章目錄定位準確率IOU識別精度precisionrecallaccuracyF1-score(F值)APmAPP-R曲線FP Rate(FPR)TP Rate(TPR):AUCROC曲線速度題目 定位準確率 IOU 定位準確率可

原创 特徵選擇(過濾法、包裝法、嵌入法)

文章目錄Filter過濾式方法方差選擇法相關係數法卡方檢驗互信息法和最大信息係數Mutual information and maximal information coefficient (MIC)Wrapper封裝式方法遞歸特

原创 word2vec與詞嵌入

文章目錄爲什麼需要做詞嵌入獨熱編碼詞嵌入CBOW(Continuous Bag-of-Words)基於損失函數CBOW改進Skip-GramHierarchical SoftmaxNegative SamplingAirbnb L

原创 python數據類型及互相轉化

文章目錄NumPyarrarymatrixpandasSeriesDataFramepysparkDataFrame通過RDD創建DataFrame通過讀csv創建DataFrame通過pandas、hive創建DataFrame

原创 deep & wide 原理

文章目錄背景Wide & Deep模型Wide模型:Deep模型Wide & Deep模型的聯合訓練(joint training)度量的標準實驗結果apps的推薦系統代碼 背景 與傳統搜索類似,推薦系統的一個挑戰是如何同時獲得推

原创 什麼是shuffle?爲什麼shuffle?什麼算子shuffle?

1、什麼是shuffle? 把父RDD中的KV對按照Key重新分區,從而得到一個新的RDD。也就是說原本同屬於父RDD同一個分區的數據需要進入到子RDD的不同的分區。 2、爲什麼需要shuffle? 在分佈式計算框架中,數據本地化是一個很

原创 常見損失彙總

文章目錄迴歸模型的損失函數L1正則損失函數(即絕對值損失函數)L2正則損失函數(即歐拉損失函數)Pseudo-Huber 損失函數分類模型的損失函數Hinge損失函數兩類交叉熵(Cross-entropy)損失函數加權交叉熵損失函

原创 RNN及LSTM原理

文章目錄RNN爲什麼需要RNN(循環神經網絡)RNN的結構及變體重要變體之Encoder-DecoderRNN的訓練方法—BPTTRNN的梯度消失梯度爆炸問題LSTM長期依賴(Long-Term Dependencies)問題LS

原创 數據的異常點檢測算法

文章目錄應用場景Isolation ForestZ-score、3σ準則Numeric Outlier、Tukey箱型圖法基於密度的方法、DBSCAN冪律分佈迴歸相關數據的時序監控 應用場景 異常值在不同文獻、不同場景中有其不同的

原创 常見聚類(K-means、DSCAN)算法及實現

文章目錄K-meansK-meansk值如何確定K-mediods(K中心點)算法層次聚類密度聚類DSCAN譜聚類常用的評估方法:輪廓係數(Silhouette)相似度度量及相互係數 K-means K-means K-means

原创 KNN K值的選擇

文章目錄誤差KNNK值的選擇 誤差 近似誤差:可以理解爲對現有訓練集的訓練誤差。 估計誤差:可以理解爲對測試集的測試誤差。 近似誤差關注訓練集,如果近似誤差小了會出現過擬合的現象,對現有的訓練集能有很好的預測,但是對未知的測試樣本

原创 樣本不平衡的常用處理方法

文章目錄數據不平衡類別不平橫會影響模型的效果如何解決 數據不平衡 很多算法都有一個基本假設,那就是數據分佈是均勻的。當我們把這些算法直接應用於實際數據時,大多數情況下都無法取得理想的結果。因爲實際數據往往分佈得很不均勻,都會存在“

原创 評估方法(交叉驗證法、自助法、留出法)

文章目錄留出法 hold-out交叉驗證法 cross validationk折交叉驗證留一法 leave-one-out cross validation自助法 bootstrapping 留出法 hold-out 留出法直接

原创 DNNLinear組合分類器實戰

文章目錄在Census Income Data Set上訓練訓練集特徵input_fnmodeltrain_and_evalmain在自己數據集上訓練 在Census Income Data Set上訓練 訓練集 訓練數據是人口普