台部落简简丹

Sklearn 與 TensorFlow 機器學習實用指南 https://hand2st.apachecn.org/#/ 文章目錄一. 分類問題種類二. 評價指標三.分類流程（預處理、分詞、去停用詞、取名詞、特徵提取、特徵加權t

2020-06-20 09:28:03

#中餐館兩種採樣方式：已知條件概率 ##**算法1：**直接從聯合分佈中採樣 N:餐廳的總人數 T：樣本總數（採樣的次數） $\alpha $：Dirichlet參數代碼1： #算法1：直接從聯合分佈裏採樣,根據中餐館

2020-06-02 18:39:46

數據預處理包括以下部分： 1.導入庫：pandas,numpy 2.導入數據集，CSV文件爲純文本的表格形式 3.處理缺失數據：缺失值可以取列的平均值或者中間值 4.把標稱型數據轉換爲數值型數據 5.數據集劃分爲測試集和訓練集 6

2020-06-02 18:39:46

1.參數說明 gensim.models.word2vec.Word2Vec(sentences=None,size=100,alpha=0.025,window=5, min_count=5, max_vocab_size=No

2020-02-20 18:39:09

在IDEA中，插入python的插件，並安裝py4j,搭建saprk環境。 https://blog.csdn.net/allcovetalllose/article/details/78923105 https://blog.

2020-02-20 18:39:08

練習1 1.求單月訪問次數和總訪問次數表字段：用戶名，月份，訪問次數現要求出：每個用戶截止到每月爲止的最大單月訪問次數和累計到該月的總訪問次數，結果數據格式如下輸出：用戶、月份、最大訪問次數、總訪問次數、當月訪問次數 CR

2019-09-04 14:17:43

開窗函數結構：分析函數+窗口子句窗口子句 over(partition by ** order by ** rows between ** and **) 其中between ** and ** 之間可以填起始結

2019-09-02 14:10:07

輸入與輸出：輸入：序列上不同時刻的數據依次傳入，每一時刻必須有輸入輸出：對序列下一時刻的預測；對當前時刻信息的處理結果，每一時刻不一定要有輸出。用途：處理和預測序列數據。當前輸出與之前的信息有關，體現在網絡結構上就是，就是會記

2019-03-29 14:18:58

優化函數 # 損失函數 loss = ... optimizer = tf.train.GradientDescentOptimizer(learning_rate=0.1) train_op =optimizer.minimize(

2019-03-29 14:18:58

源代碼鏈接（github地址） https://github.com/dennybritz/cnn-text-classification-tf my https://github.com/tddfly/cnn-text-classi

2019-03-29 14:18:58

主要構建語料集中的詞典，以及把中文序列轉化爲詞id序列函數 tf.contrib.learn.preprocessing.VocabularyProcessor(max_document_length, min_frequency=

2019-03-29 14:18:58

分詞、去停用詞 #https://github.com/xgli/jieba import os import jieba # 未分詞語料庫路徑 corpus_path =r' ' # 分詞後語料庫路徑 seg_path = r'

2019-03-29 14:18:57

1.主要用途 flags幫助我們通過命令行來動態的更改代碼中的參數（可以不用反覆修改源代碼中的參數，直接在命令行中進行參數的設定。如 python train.py --input_file “…” ）使用flags定義命令行的參數

2019-03-27 14:17:10

1.算法定義從數據集合中提取出一系列規則，可以更好的理解數據的內在含義與KNN一樣，是結果確定的分類算法，，數據實例會被明確分到某個類中優點：計算複雜度不高，輸出結果易於理解，對中間值的缺失不敏感，可以處理不相關特徵的數據缺

2019-03-25 14:20:37

結構化數據：多維數組（矩陣）表格型數據間隔平均或不平均的時間序列

2019-03-25 14:20:36