原创 Spark同步mysql數據到hive

第一步:從maven中下連接mysql的jar包 第二步:spark2-shell --jars mysql-connector-java-8.0.15.jar 第三步: // scala 版 val df = spark.read.

原创 Pytorch autoencoder降維

1. 我們一般面對的數據是numpy array的格式,如何轉變爲支持batch_size,shuffle等功能的數據集呢,pytorch 採用 DataLoader類來實現,參考源碼 # DataLoader 類的構造函數 def

原创 Pytorch-基於colab對中文評論使用LSTM進行情感分析

之前由於在本機mac中訓練驗證碼識別,導致mac後來的使用有點卡,另外囊中羞澀,所以考慮用google的colab進行訓練 關於google的colab的使用,一般包含兩個方面: google的雲盤:https://drive.googl

原创 RNN的幾種結構

Elman RNN  Jordan RNN   Bidirectional RNN LSTM - Cell   LSTM: 理解Pytorch中的LSTM (refer:https://www.cnblogs.com/marsg

原创 Isolation Forest 孤立森林的理解

1.基本原理篇   直覺上:我們遞歸構建隨機劃分樹,所有實例均被劃分即構建完畢;異常值,比較早的被劃分,在樹中路徑長度比較短。論文中,提到了一個測試,如下圖         從高斯分佈中隨機生成135個點,上圖中正常點xi需要12次隨機

原创 Python發郵件的關鍵點

話不多說,能否發送成功,主要在於密碼設置是否正確!這裏拿163郵箱來說,需要用到安全密碼,而不是郵箱的登錄密碼: 安全密碼如何獲得? 結束!放上代碼,具體參數解釋的很詳細了~ import smtplib from email.mi

原创 Python中異常值,單一值,重複值,缺失值的處理

重複值,輸入爲DataFrame,檢測是否有重複的行以及刪除重複的行並生成新的DataFrame class Duplicated(): def __init__(self,df,subset=None,keep='fir

原创 Spark統計DataFrame每列的缺失率

// scala 版本 import org.apache.spark.sql.functions.col // tax_info 爲一個dataframe val columns=tax_info.columns val cnt

原创 Pytorch-識別法院失信、執行驗證碼圖片

爬蟲的時候遇到一些圖片形式的驗證碼,比如數字字母組合,通過CNN我們可以訓練一個模型,進行識別;下面是針對法院失信、執行的驗證碼,準確率達到90%+,基本夠用。 先看下效果吧! import torch from torch.aut

原创 pytorch-利用LSTM做股票預測

1.獲取數據 import tushare as ts # 獲取代號爲000300的股票價格 cons=ts.get_apis() df=ts.bar('000001', conn=cons, asset='INDEX', start

原创 機器學習常見問題 - 類別變量處理

類別變量類型: Nominal: 紅,黃,藍 Ordinal,高,中,低 連續變量:1.1,2.1,1.3,1.4   類別變量問題的一些挑戰 類別數量很多,但是每個類別的樣本不多,例如“城市” 一些機器學習模型,例如迴歸或者SVM 需要

原创 機器學習中常見問題-特徵選擇

    特徵選擇方法的三大類型 [1]: 1.filter method :利用一些統計指標進行特徵選擇,和模型沒有關係 2.wrapper method:結合模型來做,每次加入或者減少特徵看對模型的準確度是否有提升,如果有提升,那麼就增

原创 讀DCGAN文章

    主要是建立了CNN 和 GAN 之間的聯繫,從沒有標籤的數據中抽取有用的特徵很重要,可以作爲下游分類任務的輸入。GAN在提取圖片表徵方面有很好的效果,但是訓練不穩定,經常生成無意義的圖片。     這篇文章主要有如下幾點貢獻:  

原创 讀InfoGan文章

    InfoGan,是在GAN是用到了信息論的算法,能夠通過非監督的方式學習到特徵的含義。非監督學習是ill-posed(解是不唯一的),因爲在訓練的時候,下游的任務是未知的,如果能從數據樣本的找到代表的特徵,那麼對於那些位置的任務也

原创 讀CycleGAN文章

    這篇文章信息量有點大!文章的標題叫做Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Networks 這裏的unpaired 指的就是兩