台部落huangqihao723

提出CGAN是因爲非條件的生成模型中，對生成的內容控制，實際上只要保證真實性就可以了；採用CGAN的話，我們會增加一些額外的信息去控制數據生成的過程，例如一些類別的標籤，例如數字圖片數據集中，可以通過引入標籤(one-ho

2020-06-02 01:00:12

一.求逆法：二.捨棄法: 三.python實現，通過從均勻分佈中抽樣，模擬其他分佈的樣本 # 求逆法，需要原函數的逆函數比較容易求得 import numpy as np import matplotlib.p

2020-05-31 21:31:51

過採樣： smote 假設有兩個class：class1 和 class2 ，其中class1樣本數少從class1中隨機選擇一個點C，找到該點的K個鄰居從K個鄰居中隨機選擇一個點C_ne 連接C與C1，在C與C_ne的連線上生成新的

2020-05-31 21:31:51

總覽：編號方法 1 經驗判斷 2 3σ 3 dbscan 4 lof 5 isolation tree 6 one class svm 一. 經驗判斷 X={x1,x2,...,xn} IQR=0.75 分位數 - 0

2020-05-31 21:31:51

1.直接丟上算法細節包括生成器G 和判別器D 首先訓練D(紅色框部分)，D來判別一個數據是真實數據的概率，值越大，說明D的輸入X爲真實數據的概率越大。對於D來說，有兩個輸入，真實數據樣本，即算法中提到的x(1),x(2),...

2020-05-22 03:26:17

transformer 是在文章 attention is all you need 中提出的，在機器翻譯中，transformer的輸入是一種語言，輸出是另外一種語言。 transformer包含兩部分：encoders

2020-05-19 19:15:37

全稱是Embeddings from Language Models，從語言模型中學習到詞向量。word2vec訓練出的詞向量有一個問題，一個詞只有一個embbeding，實際上一個詞會有多個含義，例如蘋果，可以代表水果，也

2020-05-14 02:45:07

本文引入了self-attention，在句子層面，通過一個2維的矩陣來表示，之前是通過一個向量來表示(例如用RNN把句子壓縮成一個固定的向量)，這裏的矩陣每行是捕獲句子中不同的部分，另外在模型中提出了一個懲罰項。簡介部分：

2020-05-12 06:55:18

簡介部分：對於機器翻譯，之前的做法就是把輸入壓縮成一個向量，然後對這個encode後的向量進行decode，這種方法處理長句子比較難，尤其當句子的長度長於訓練集中的語料庫本問提出的模型，當翻譯生成一個詞語的時候，我們在輸入的序列中找到

2020-05-10 10:41:06

文章中首先提到DNN，不能解決sequence2sequence的問題，因爲輸入和輸出固定的，但是對於翻譯等問題，序列的長度是不固定的，這篇文章主要是用了多層的LSTM，把輸入映射到一個固定的維度，然後再用另外一個LSTM，從

2020-05-03 00:26:19

charcnn 顧名思義，對於一段文本來說，我們以字符作爲最小單位，而不是詞語了。對於中文來說，我的名字叫做推推，那麼到字符級別的話，該句子的構成爲[我，的，名，字，叫，做，推，推] ，而不是 [我的,名字,叫做,推推] 1.

2020-04-28 20:31:48

TextRCNN 顧名思義，對文本處理包含RNN 和 CNN的元素，其中CNN部分是用到了池化，RNN部分是考慮了上下文的因素 1.模型結構 RNN 部分：拿上圖中 x4舉例， x4= [cl(w4),along,cr

2020-04-28 20:31:48

TextCnn，顧名思義，就是將卷積神經網絡應用在文本領域！ 1.模型示意圖輸入是一個n*k的矩陣，n表示一個句子切分後的序列，k表示每個詞的詞向量的維度 ,即 input -> hidden layer 通過權重矩陣h*k大小的

2020-04-26 17:57:33

這篇博客主要針對Bag of Tricks for Efficient Text Classification文章的一些理解。主要是介紹FastText算法是速度多塊，通過標籤預測和情感分析兩個任務來說明。 1. 模型的結構，

2020-04-26 17:57:33

參考spark機器學習，稍微加些自己的操作基於pycharm進行開發，pyspark安裝見上篇博文數據集包含的字段爲：id，年齡，性別，職業，郵編數據集連接在：http://files.grouplens.org/datasets/

2020-04-23 21:14:16