原创 讀CGAN文章

        提出CGAN是因爲非條件的生成模型中,對生成的內容控制,實際上只要保證真實性就可以了;採用CGAN的話,我們會增加一些額外的信息去控制數據生成的過程,例如一些類別的標籤,例如數字圖片數據集中,可以通過引入標籤(one-ho

原创 統計-均勻分佈生成其他分佈的兩種方法

  一.求逆法:   二.捨棄法:   三.python實現,通過從均勻分佈中抽樣,模擬其他分佈的樣本 # 求逆法,需要原函數的逆函數比較容易求得 import numpy as np import matplotlib.p

原创 機器學習中上(過)、下(欠)採樣的方法

過採樣: smote 假設有兩個class:class1 和 class2 ,其中class1樣本數少 從class1中隨機選擇一個點C,找到該點的K個鄰居 從K個鄰居中隨機選擇一個點C_ne 連接C與C1,在C與C_ne的連線上生成新的

原创 異常值識別方法小結

  總覽: 編號 方法 1 經驗判斷 2 3σ 3 dbscan 4 lof 5 isolation tree 6 one class svm     一. 經驗判斷   X={x1,x2,...,xn} IQR=0.75 分位數 - 0

原创 讀GAN文章

1.直接丟上算法細節 包括生成器G 和 判別器D 首先訓練D(紅色框部分),D來判別一個數據是真實數據的概率,值越大,說明D的輸入X爲真實數據的概率越大。對於D來說,有兩個輸入, 真實數據樣本,即算法中提到的x(1),x(2),...

原创 讀Transformer

    transformer 是在文章 attention is all you need 中提出的,在機器翻譯中,transformer的輸入是一種語言,輸出是另外一種語言。   transformer包含兩部分:encoders

原创 讀ELMO文章

      全稱是Embeddings from Language Models,從語言模型中學習到詞向量。word2vec訓練出的詞向量有一個問題,一個詞只有一個embbeding,實際上一個詞會有多個含義,例如 蘋果,可以代表水果,也

原创 讀Attention文章2

    本文引入了self-attention,在句子層面,通過一個2維的矩陣來表示,之前是通過一個向量來表示(例如用RNN把句子壓縮成一個固定的向量),這裏的矩陣每行是捕獲句子中不同的部分,另外在模型中提出了一個懲罰項。   簡介部分:

原创 讀Attention文章1

簡介部分: 對於機器翻譯,之前的做法就是把輸入壓縮成一個向量,然後對這個encode後的向量進行decode,這種方法處理長句子比較難,尤其當句子的長度長於訓練集中的語料庫 本問提出的模型,當翻譯生成一個詞語的時候,我們在輸入的序列中找到

原创 讀sequence to sequence 文章

      文章中首先提到DNN,不能解決sequence2sequence的問題,因爲輸入和輸出固定的,但是對於翻譯等問題,序列的長度是不固定的,這篇文章主要是用了多層的LSTM,把輸入映射到一個固定的維度,然後再用另外一個LSTM,從

原创 讀CharCNN文章

    charcnn 顧名思義,對於一段文本來說,我們以字符作爲最小單位,而不是詞語了。對於中文來說,我的名字叫做推推,那麼到字符級別的話,該句子的構成爲[我,的,名,字,叫,做,推,推] ,而不是 [我的,名字,叫做,推推]   1.

原创 讀TextRCNN文章

    TextRCNN 顧名思義,對文本處理包含RNN 和 CNN的元素,其中CNN部分是用到了池化,RNN部分是考慮了上下文的因素   1.模型結構   RNN 部分: 拿上圖中 x4舉例, x4= [cl(w4),along,cr

原创 讀TextCnn文章

TextCnn,顧名思義,就是將卷積神經網絡應用在文本領域!   1.模型示意圖 輸入是一個n*k的矩陣,n表示一個句子切分後的序列,k表示每個詞的詞向量的維度 ,即 input -> hidden layer 通過權重矩陣h*k大小的

原创 讀FastText文章

    這篇博客主要針對Bag of Tricks for Efficient Text Classification文章的一些理解。主要是介紹FastText算法是速度多塊,通過標籤預測和情感分析兩個任務來說明。   1. 模型的結構,

原创 spark機器學習-常見函數使用(pyspark版)

參考spark機器學習,稍微加些自己的操作 基於pycharm進行開發,pyspark安裝見上篇博文 數據集包含的字段爲:id,年齡,性別,職業,郵編 數據集連接在:http://files.grouplens.org/datasets/