原创 分類問題集錦及練習

Sklearn 與 TensorFlow 機器學習實用指南 https://hand2st.apachecn.org/#/ 文章目錄一. 分類問題種類二. 評價指標三.分類流程(預處理、分詞、去停用詞、取名詞、特徵提取、特徵加權t

原创 中餐館過程僞代碼及python實現

#中餐館兩種採樣方式: 已知條件概率 ##**算法1:**直接從聯合分佈中採樣 N:餐廳的總人數 T:樣本總數(採樣的次數) $\alpha $:Dirichlet參數 代碼1: #算法1:直接從聯合分佈裏採樣,根據中餐館

原创 Day1——Data PreProcessing

數據預處理包括以下部分: 1.導入庫:pandas,numpy 2.導入數據集,CSV文件爲純文本的表格形式 3.處理缺失數據:缺失值可以取列的平均值或者中間值 4.把標稱型數據轉換爲數值型數據 5.數據集劃分爲測試集和訓練集 6

原创 gensim word2vec

1.參數說明 gensim.models.word2vec.Word2Vec(sentences=None,size=100,alpha=0.025,window=5, min_count=5, max_vocab_size=No

原创 IDEA初上手的一天

在IDEA中 ,插入python的插件,並安裝py4j,搭建saprk環境。 https://blog.csdn.net/allcovetalllose/article/details/78923105 https://blog.

原创 hive之練習題一

練習1 1.求單月訪問次數和總訪問次數 表字段:用戶名,月份,訪問次數 現要求出: 每個用戶截止到每月爲止的最大單月訪問次數和累計到該月的總訪問次數,結果數據格式如下 輸出:用戶、月份、最大訪問次數、總訪問次數、當月訪問次數 CR

原创 hive之開窗函數

開窗函數結構: 分析函數+窗口子句 窗口子句 over(partition by ** order by ** rows between ** and **) 其中between ** and ** 之間可以填 起始 結

原创 循環神經網絡RNN

輸入與輸出: 輸入:序列上不同時刻的數據依次傳入,每一時刻必須有輸入 輸出:對序列下一時刻的預測;對當前時刻信息的處理結果,每一時刻不一定要有輸出。 用途:處理和預測序列數據。 當前輸出與之前的信息有關,體現在網絡結構上就是,就是會記

原创 tensorflow——optimizer.minimize()、optimizer.compute_gradients()、optimizer.apply_gradients()

優化函數 # 損失函數 loss = ... optimizer = tf.train.GradientDescentOptimizer(learning_rate=0.1) train_op =optimizer.minimize(

原创 卷積神經網絡實現文本分類

源代碼鏈接(github地址) https://github.com/dennybritz/cnn-text-classification-tf my https://github.com/tddfly/cnn-text-classi

原创 tensorflow——tf.contrib.learn.preprocessing.VocabularyProcessor用法

主要構建語料集中的詞典,以及把中文序列轉化爲詞id序列 函數 tf.contrib.learn.preprocessing.VocabularyProcessor(max_document_length, min_frequency=

原创 分詞、去停用詞

分詞、去停用詞 #https://github.com/xgli/jieba import os import jieba # 未分詞語料庫路徑 corpus_path =r' ' # 分詞後語料庫路徑 seg_path = r'

原创 tensorflow——tf.flags命令行參數的使用

1.主要用途 flags幫助我們通過命令行來動態的更改代碼中的參數(可以不用反覆修改源代碼中的參數,直接在命令行中進行參數的設定。如 python train.py --input_file “…” ) 使用flags定義命令行的參數

原创 機器學習實戰讀書筆記系列3——決策樹

1.算法定義 從數據集合中提取出一系列規則,可以更好的理解數據的內在含義 與KNN一樣,是結果確定的分類算法,,數據實例會被明確分到某個類中 優點:計算複雜度不高,輸出結果易於理解,對中間值的缺失不敏感,可以處理不相關特徵的數據 缺

原创 《python數據分析》遇到的問題

結構化數據: 多維數組(矩陣) 表格型數據 間隔平均或不平均的時間序列